Hadoop

首页 标签 Hadoop
# Hadoop #
关注
11265内容
专访阿里云高级技术专家吴威:Kafka、Spark和Flink类支持流式计算的软件会越来越流行
大数据领域一定会朝着更加实时、更加智能、数据更加多样化的方向前进。Kafka、Spark和Flink之类的支持流式计算的软件会越来越流行,同时各类机器学习平台和工具也会越来越成熟。
大数据存储平台调优之Hadoop优化
大数据存储平台调优之Hadoop优化 在搭建完集群、完成Linux系统配置(优化)后以及建好HDFS上的目录后,我们接下来需要对Hadoop集群做一些优化的工作。我们从两个方面来说:一是HDFS存储方面,一是计算方面  1、 HDFS方面: 1> 存储格式的选择 对于分析类型的业务来说,最好的存储格式自然是列存储,因为数据量巨大,只扫关心的数据列无疑具有很大优势。
[jjzhu学hadoop]之hadoop2.7.3源码编译eclipse项目
编译环境 必须的安装包 安装jdk 安装mvn 配置本地仓库路径 更换阿里云maven镜像强烈推荐更换 Native libraries ProtocolBuffer 250 可选的安装包 Snappy compression Bzip2 Jansson C Library for JSON Linux FUSE 编译eclipse plugin 切换到
E-Mapreduce如何处理RDS的数据
目前网站的一些业务数据存在了数据库中,这些数据往往需要做进一步的分析,如:需要跟一些日志数据关联分析,或者需要进行一些如机器学习的分析。在阿里云上,目前E-Mapreduce可以满足这类进一步分析的需求。
Spark集群管理器介绍
Spark可以运行在各种集群管理器上,并通过集群管理器访问集群中的其他机器。 Spark主要有三种集群管理器,如果只是想让spark运行起来,可以采用spark自带的独立集群管理器,采用独立部署的模式;如果是想让Spark部署在其他集群上,各应用共享集群的话,可以采取两
免费试用