使用EMR-Flume同步HDFS audit日志到HDFS
E-MapReduce从3.19.0版本开始对EMR-Flume提供集群管理的功能。通过集群管理功能,可以在Web页面方便的配置和管理Flume Agent。
本文将使用EMR-Flume实时同步HDFS audit日志至HDFS,便于对HDFS操作记录进行离线统计和实时分析。
Hive过滤脏数据的一些经验
如下文件需要处理,每个文件大概13G,其中字段以空格(32)分隔的7个字段;最麻烦的是中间有脏数据:
-rw-r--r-- 1 hadoop ifengdev 1895843464 May 6 14:56 feedback201503_201.
Spark学习之Hadoop安装与测试
Spark是跑在Hadoop上(依赖YARN和HDFS)的内存计算引擎,内置了多种丰富组件如Spark SQL、Spark Stream等,是大数据分析挖掘的一种技术趋势。本文为学习Spark技术的第一篇日志,主要记录了Hadoop环境的搭建、安装与测试。
资源准备
操作系统:CentOS 7 ;JDK:1.7;Hadoop版本:hadoop-2.6.0.tar.gz(使用编译好的
hbase安装详解
hbase的jar包要和hadoop集群的jar包一致 ,所以可能存在一个hadoop的jar包替换过程。
详细配置文件
hbase-site.xml
<configuration>
<property>
<name>hbase.rootdir</name>
<value>hdfs://ns1/hbase</val
一个合格的阿里云大数据程序员要学习哪些技术,才算合格的
项目有大年夜大年夜有小,越大年夜大年夜的项目触及到常识点也就越多;2019年将是这些领域取得长足进步的一年。我是一个大数据程序员,建了一个大数据资源共享群199427210 每天分享大数据学习资料和学习方法 ,让我们在2019年一起成长.