阿姆斯特芬_高分内容_个人页-阿里云开发者社区

发表了文章 2019-11-06

Cloudera-manager(CDH6.3.0)大数据平台搭建一指禅(impala,kudu,hdfs,hive,kafka,yarn,spark,hbase,hue)

Cloudera-manager(CDH6.3.0)大数据平台搭建一指禅指南(impala,kudu,hdfs,hive,kafka,yarn,spark,hbase,hue) CHD6，大量hadoop生态的重大更新升级，果断把现有系统升级到CHD6上。

发表了文章 2019-10-17

来自俄罗斯的ClickHouse列式数据在CentOS7配置和基础性能测试

来自俄罗斯的ClickHouse列式数据在CentOS7配置和基础性能测试确认当前CPU是否支持安装 [root@master ~]# grep -q sse4_2 /proc/cpuinfo && echo "SSE 4.

发表了文章 2019-10-17

CentOS7中安装Tableau Server 2019.3踩坑指南

CentOS7中安装Table Server 2019.3踩坑指南下载Tableau Server的linux版本 https://www.tableau.com/products/server/download/linux 当前版本为：tableau-server-2019-3-0.

发表了文章 2019-10-14

如何在Hive中创建自定义函数UDF及如何直接通过Impala的同步元数据重用UDF的jar文件

如何在Hive中创建自定义函数UDF及使用如何在Impala中使用Hive的自定义函数 UDF函数开发使用Intellij工具开发Hive的UDF函数，进行编译；1.使用Intellij工具通过Maven创建一个Java工程，并添加pom.

发表了文章 2019-10-11

CentOS7中搭建nodejs10（VUE）开发环境踩坑指南

Centos7安装npm|nodejs的步骤阿里的nodejs网站 https://npm.taobao.org/ 安装一些必要的库 [root@master ~]# yum install gcc gcc-c++ [hadoop@master Downloads]$ pwd /home/hadoop/Downloads 下载各个版本的，自己根据项目要求，使用对应的版本。

发表了文章 2019-09-29

深入浅出：Hadoop的start-balancer.sh与hdfs balancer分布式数据均衡

Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况，比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候，将引发很多问题，比如：1、MR程序无法很好地利用本地计算的优势2、机器之间无法达到更好的网络带宽使用率，机器磁盘无法利用等等。

发表了文章 2019-09-27

hadoop日常运维白皮书

hadoop日常运维与升级总结 ▲进程管理由于配置文件的更改，需要重启生效，或者是进程自己因某种致命原因终止，或者发现进程工作出现异常等情况下，需要进行手动进程的关闭或启动，或者是增删节点过程中的需要，进程的关闭与启动，使用hadoop-daemon.

发表了文章 2019-09-27

Hadoop机架感知（rack-aware)配置指南

Hadoop机架感知（rack-aware)配置副本的存放策略又是HDFS实现高可靠性和搞性能的关键，优化的副本存放策略也正是HDFS区分于其他大部分分布式文件系统的重要特性。HDFS采用一种称为机架感知（rack-aware）的策略来改进数据的可靠性、可用性和网络带宽的利用率。

发表了文章 2019-09-25

通过Datax将CSV文件导入Hbase，导入之前的CSV文件大小和导入之后的Hadoop分布式文件大小对比引入的思考

由于项目需要做系统之间的离线数据同步，因为实时性要求不高，因此考虑采用了阿里的datax来进行同步。在同步之前，将数据导出未csv文件，因为需要估算将来的hbase运行的hadoop的分布式文件系统需要占用多少磁盘空间，因此想到了需要做几组测试。

发表了文章 2019-09-11

Spring Boot2中整合atomikos来实现不同类型数据库的分布式事务一致性

由于需要重构一个老的系统（Oracle），业务侧要求老系统和新系统（Mysql）并行运行半年，证明重构系统的稳定性才能上线，在这半年期间，新系统用来查询，全文检索，图数据库查询，老系依然办理业务，因此就存在在一个事务提交中，同时写Mysql和Oracle，比较了一下方案，最终选择了atomikos来做分布式事务。

发表了文章 2018-07-08

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

阿姆斯特芬_个人页

个人介绍

擅长的技术

Cloudera-manager(CDH6.3.0)大数据平台搭建一指禅(impala,kudu,hdfs,hive,kafka,yarn,spark,hbase,hue)

来自俄罗斯的ClickHouse列式数据在CentOS7配置和基础性能测试

CentOS7中安装Tableau Server 2019.3踩坑指南

如何在Hive中创建自定义函数UDF及如何直接通过Impala的同步元数据重用UDF的jar文件

CentOS7中搭建nodejs10（VUE）开发环境踩坑指南

深入浅出：Hadoop的start-balancer.sh与hdfs balancer分布式数据均衡

hadoop日常运维白皮书

Hadoop机架感知（rack-aware)配置指南

通过Datax将CSV文件导入Hbase，导入之前的CSV文件大小和导入之后的Hadoop分布式文件大小对比引入的思考

Spring Boot2中整合atomikos来实现不同类型数据库的分布式事务一致性

使用python的pandas读取数据库中数据，初始化到dataframe的速度过慢问题解决思路

Spark拉取Kafka的流数据，转插入HBase中

通过Spark Streaming从TCP协议中获取实时流数据（scala测试代码）

通过python操作kafka

用Elasticsearch来做全文检索（内含elasticsearch-5.6.4+logstash-5.6.4+kibana-5.6.4的整合）

Elasticsearch插件大全

Centos7中通过docker安装mysql

Redis和Spring的整合

十大Python机器学习开源项目

用python进行数据分析笔记1--基础知识篇

Cloudera-manager(CDH6.3.0)大数据平台搭建一指禅(impala,kudu,hdfs,hive,kafka,yarn,spark,hbase,hue)

来自俄罗斯的ClickHouse列式数据在CentOS7配置和基础性能测试

CentOS7中安装Tableau Server 2019.3踩坑指南

如何在Hive中创建自定义函数UDF及如何直接通过Impala的同步元数据重用UDF的jar文件

CentOS7中搭建nodejs10（VUE）开发环境踩坑指南

深入浅出：Hadoop的start-balancer.sh与hdfs balancer分布式数据均衡

hadoop日常运维白皮书

Hadoop机架感知（rack-aware)配置指南

通过Datax将CSV文件导入Hbase，导入之前的CSV文件大小和导入之后的Hadoop分布式文件大小对比引入的思考

Spring Boot2中整合atomikos来实现不同类型数据库的分布式事务一致性

使用python的pandas读取数据库中数据，初始化到dataframe的速度过慢问题解决思路

Spark拉取Kafka的流数据，转插入HBase中

通过Spark Streaming从TCP协议中获取实时流数据（scala测试代码）

通过python操作kafka

用Elasticsearch来做全文检索（内含elasticsearch-5.6.4+logstash-5.6.4+kibana-5.6.4的整合）

Elasticsearch插件大全

Centos7中通过docker安装mysql

Redis和Spring的整合

十大Python机器学习开源项目

用python进行数据分析笔记1--基础知识篇