Hadoop

首页 标签 Hadoop
# Hadoop #
关注
11364内容
Flink 1.10 和 Hive 3.0 性能对比(附 Demo 演示 PPT)
Flink 作为一个统一的计算引擎,旨在提供统一的流批体验以及技术栈。Flink 在 1.9 合并了 Blink 的代码,并在 1.10 中完善了大量的功能以及性能,可以运行所有 TPC-DS 的查询,性能方面也很有竞争力,Flink 1.10 是一个生产可用的、批流统一的 SQL 引擎版本。
使用EMR-Flume同步HDFS audit日志到HDFS
E-MapReduce从3.19.0版本开始对EMR-Flume提供集群管理的功能。通过集群管理功能,可以在Web页面方便的配置和管理Flume Agent。 本文将使用EMR-Flume实时同步HDFS audit日志至HDFS,便于对HDFS操作记录进行离线统计和实时分析。
Hive过滤脏数据的一些经验
如下文件需要处理,每个文件大概13G,其中字段以空格(32)分隔的7个字段;最麻烦的是中间有脏数据: -rw-r--r-- 1 hadoop ifengdev 1895843464 May 6 14:56 feedback201503_201.
Spark学习之Hadoop安装与测试
Spark是跑在Hadoop上(依赖YARN和HDFS)的内存计算引擎,内置了多种丰富组件如Spark SQL、Spark Stream等,是大数据分析挖掘的一种技术趋势。本文为学习Spark技术的第一篇日志,主要记录了Hadoop环境的搭建、安装与测试。 资源准备 操作系统:CentOS 7 ;JDK:1.7;Hadoop版本:hadoop-2.6.0.tar.gz(使用编译好的
Hadoop2.x运维实战之入门手册v1.0
Hadoop2.x运维实战之入门手册V1.0 0.Hadoop2.x生态圈介绍1.常用组件介绍(体系结构+进程)   1.1HDFS   1.
hbase安装详解
hbase的jar包要和hadoop集群的jar包一致 ,所以可能存在一个hadoop的jar包替换过程。 详细配置文件 hbase-site.xml <configuration> <property>   <name>hbase.rootdir</name>   <value>hdfs://ns1/hbase</val
一个合格的阿里云大数据程序员要学习哪些技术,才算合格的
项目有大年夜大年夜有小,越大年夜大年夜的项目触及到常识点也就越多;2019年将是这些领域取得长足进步的一年。我是一个大数据程序员,建了一个大数据资源共享群199427210 每天分享大数据学习资料和学习方法 ,让我们在2019年一起成长.
免费试用