精通Java/Python语言;Hive优化;Hadoop分布式Mapreduce优化;Mysql/Oracle数据库的高可用和性能优化;常见的统计分析算法; 熟悉Shell/Scala/Spark;Mongodb/Redis数据库;Spring/Jalor框架;ELK构架
Cloudera-manager(CDH6.3.0)大数据平台搭建一指禅指南(impala,kudu,hdfs,hive,kafka,yarn,spark,hbase,hue) CHD6,大量hadoop生态的重大更新升级,果断把现有系统升级到CHD6上。
来自俄罗斯的ClickHouse列式数据在CentOS7配置和基础性能测试 确认当前CPU是否支持安装 [root@master ~]# grep -q sse4_2 /proc/cpuinfo && echo "SSE 4.
CentOS7中安装Table Server 2019.3踩坑指南 下载Tableau Server的linux版本 https://www.tableau.com/products/server/download/linux 当前版本为:tableau-server-2019-3-0.
如何在Hive中创建自定义函数UDF及使用 如何在Impala中使用Hive的自定义函数 UDF函数开发 使用Intellij工具开发Hive的UDF函数,进行编译;1.使用Intellij工具通过Maven创建一个Java工程,并添加pom.
Centos7安装npm|nodejs的步骤 阿里的nodejs网站 https://npm.taobao.org/ 安装一些必要的库 [root@master ~]# yum install gcc gcc-c++ [hadoop@master Downloads]$ pwd /home/hadoop/Downloads 下载各个版本的,自己根据项目要求,使用对应的版本。
Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候,将引发很多问题,比如:1、MR程序无法很好地利用本地计算的优势2、机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等。
hadoop日常运维与升级总结 ▲进程管理由于配置文件的更改,需要重启生效,或者是进程自己因某种致命原因终止,或者发现进程工作出现异常等情况下,需要进行手动进程的关闭或启动,或者是增删节点过程中的需要,进程的关闭与启动,使用hadoop-daemon.
Hadoop机架感知(rack-aware)配置 副本的存放策略又是HDFS实现高可靠性和搞性能的关键,优化的副本存放策略也正是HDFS区分于其他大部分分布式文件系统的重要特性。HDFS采用一种称为机架感知(rack-aware)的策略来改进数据的可靠性、可用性和网络带宽的利用率。
由于项目需要做系统之间的离线数据同步,因为实时性要求不高,因此考虑采用了阿里的datax来进行同步。在同步之前,将数据导出未csv文件,因为需要估算将来的hbase运行的hadoop的分布式文件系统需要占用多少磁盘空间,因此想到了需要做几组测试。
由于需要重构一个老的系统(Oracle),业务侧要求老系统和新系统(Mysql)并行运行半年,证明重构系统的稳定性才能上线,在这半年期间,新系统用来查询,全文检索,图数据库查询,老系依然办理业务,因此就存在在一个事务提交中,同时写Mysql和Oracle,比较了一下方案,最终选择了atomikos来做分布式事务。