Hadoop学习资源集合

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: Hadoop是一个由Apache基金会所开发的开源分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。为了云栖社区组织翻译了GitHub Awesome Hadoop 资源,涵盖Hadoop中常见的库与工具、存储方式、数据库,以及相关的书

Hadoop是一个由Apache基金会所开发的开源分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储。

为了帮助大家进一步了解Hadoop,云栖社区组织翻译了GitHub Awesome Hadoop 资源,涵盖Hadoop中常见的库与工具、存储方式、数据库,以及相关的书籍、网站等资源。

目录:

Hadoop

  •   Apache Tez – 它是一个针对Hadoop数据处理应用程序的新分布式执行框架,该框架基于YARN
  •   SpatialHadoop – SpatialHadoop是Apache Hadoop的MapReduce扩展,专门用于处理空间数据;
  •   GIS Tools for Hadoop –用于Hadoop框架的大数据空间分析;
  •   Elasticsearch Hadoop – ElasticsearchHadoop深度集成,用于实时搜索和分析,支持Map/Reduce、 Cascading、Apache Hive和Apache Pig;
  •   dumbo - Python模块,使Hadoop程序的编写和运行更为容易;
  •   hadoopy – 用Cython写的Python MapReduce库;
  •   mrjob - mrjob是一个Python2.5+程序包,可以帮助编写和运行Hadoop工作流;
  •   pydoop -为Hadoop提供Python API的程序包;
  •   hdfs-du -Hadoop分布式文件系统(HDFS)的交互可视化;
  •   White Elephant - Hadoop的日志聚合器和仪表板;
  •   Kiji Project
  •   Genie - Genie提供REST-ful API,以便运行Hadoop、Hive和Pig jobs,还管理多个Hadoop资源,并在它们之间进行作业提交;
  •   Apache Kylin –最初来自eBay公司的开源分布式分析引擎,能提供Hadoop之上的SQL查询接口及多维分析(OLAP),以支持超大规模数据集;
  •   Crunch -基于Go的工具包,用于在Hadoop上的ETL和特征提取;
  •   Apache Ignite -分布式内存平台。

YARN

  •   Apache Slider - Apache Slider是Apache软件基金会的孵化项目,旨在能够轻松地实现现有应用程序到YARN集群的部署;
  •   Apache Twill - Apache Twill是Apache Hadoop® YARN的抽象层,降低了开发分布式应用程序的复杂度,让开发者更专注于自己的应用逻辑;
  •   mpich2-yarn –在YARN上运行MPICH2。

NoSQL

下一代数据库大多定位于以下几点:非关系型、分布式、开放源码和横向扩展。

  •   Apache HBase - Apache HBase;
  •   Apache Phoenix – Hbase的SQL驱动,支持辅助索引;
  •   happybase -一个开发者友好型的Python库,用于Apache HBase的交互;
  •   Hannibal –用于监测和维护HBase 集群的工具;
  •   Haeinsa –用于HBase的线性可扩展多行多表交易库;
  •   hindex – Hbase的辅助索引;
  •   Apache Accumulo - Apache Accumulo可排序分布式键/值存储,是一个强大的可扩展高性能数据存储和检索系统;
  •   OpenTSDB -可扩展时间序列数据库;
  •   Apache Cassandra

Hadoop中的SQL

数据管理

  •   Apache Calcite -动态数据管理框架;
  •   Apache Atlas -用于元数据标记及类群捕获,支持复杂的商业数据分类。 

工作流,生命周期及管理

  •   Apache Oozie - Apache Oozie;
  •   Azkaban
  •   Apache Falcon -数据管理与处理平台;
  •   Apache NiFi -数据流系统;
  •   AirFlow – AirFlow是以编程方式建立、调度和监控数据管道的平台;
  •   Luigi - Python包,用于构建批处理作业的复杂管道。

数据提取及整合

DSL

  •   Apache Pig - Apache Pig
  •   Apache DataFu – Hadoop中用于处理大规模数据的库的集合;
  •   vahara –基于Apache Pig的机器学习和自然语言处理;
  •   packetpig -用于开源大数据安全性分析;
  •   akela – Mozilla的实用工具库,用于Hadoop、HBase、Pig等等;
  •   seqpig -Hadoop中用于大型定序数据集的简单可扩展脚本(bioinfomation除外);
  •   Lipstick – Pig工作流程可视化工具;A(pache)的Lipstick简介
  •   PigPen - PigPen 是Clojure或分布式Clojure的Map-reduce,能够编译Apache Pig,但是不需要过多了解Pig也可以使用PigPen。

库和工具

实时数据处理

分布式计算和编程

包装,配置与监测

  •   Apache Bigtop - 用于Apache Hadoop生态系统的包装和测试;
  •   Apache Ambari - Apache Ambari
  •   Ganglia Monitoring System
  •   ankush -一个大数据集群管理工具,用于创建和管理不同的技术集群;
  •   Apache Zookeeper - Apache Zookeeper
  •   Apache Curator - 用于ZooKeeper的客户端简化包装和丰富ZooKeeper框架; 
  •   Buildoop - Hadoop生态系统生成器;
  •   Deploop - Hadoop的部署系统;
  •   Jumbune -一个用于开源MapReduce分析,MapReduce流程调试,HDFS数据质量校验和Hadoop集群监测工具;
  •   inviso - Inviso是一个轻量级的工具,它提供搜索Hadoop作业,可视化性能,查看集群利用率的能力。

搜索

搜索引擎框架

  •   Apache Nutch –Apache Nutch是一个高度可扩展的,可伸缩的开源网络爬虫软件项目。

安全性

  •   Apache Ranger - Ranger是一个框架,能够跨Hadoop平台启用、监控和全面管理数据安全性;
  •   Apache Sentry - Hadoop的一个授权模块;
  •   Apache Knox Gateway –用于与Hadoop集群交互的REST API网关。

基准

  •   Big Data Benchmark
  •   HiBench
  •   Big-Bench
  •   hive-benchmarks
  •   hive-testbench –一个测试平台,用于进行任何规模数据的Apache Hive实验;
  •   YCSB -雅虎云服务基准(YCSB)是一个开源规范和程序套件,用于评估计算机程序的检索和维护功能;它常被用于比较NoSQL数据库管理系统的相对性能。

机器学习和大数据分析

  •   Apache Mahout
  •   Oryx 2 –基于Spark、Kafka的Lambda架构,用于实时大规模的机器学习;
  •   MLlib - MLlib是Apache Spark的可扩展机器学习库;
  •   R - R是用于统计计算和图形的自由软件环境;
  •   RHadoop -包括RHDFS、RHBase、RMR2和plyrmr;
  •   RHive –用于从R中开始Hive查询;
  •   Apache Lens

其它

资源

还有各种书籍、网站和文章等相关的资源,列表如下:

网站

有用的网站和文章

演示

书籍

Hadoop&大数据事件

以上为Hadoop学习资源集合的全部内容,更多精彩敬请期待。


译者:刘崇鑫   校对:王殿进

如果发现原文翻译有误,请邮件通知云栖社区(yqeditor@list.alibaba-inc.com),感谢您的支持。
目录
相关文章
|
1月前
|
分布式计算 网络协议 Hadoop
Hadoop节点资源扩展网络配置
【4月更文挑战第16天】在扩展Hadoop节点资源时,网络配置至关重要。要点包括:保证网络连通性,确保新节点与集群间稳定通信;配置DNS和主机名解析,便于节点间通过名称通信;设置SSH免密码登录,简化集群管理;更新Hadoop配置文件以反映集群新状态;优化网络性能以提升数据传输效率;最后,测试验证确保集群正常运行和性能。具体配置应参照Hadoop版本及环境的官方文档。
27 4
|
1月前
|
分布式计算 资源调度 Hadoop
Hadoop节点资源扩展环境部署
【4月更文挑战第16天】扩展Hadoop集群涉及多个步骤:准备新节点,配置静态IP,安装并配置Hadoop,将新节点添加到集群,验证测试,及优化调整。确保符合硬件需求,更新集群节点列表,执行`hdfs dfsadmin -refreshNodes`命令,检查新节点状态,并依据测试结果优化性能。注意不同环境可能需要调整具体步骤,建议参照官方文档并在测试环境中预演。
29 4
|
1月前
|
存储 分布式计算 固态存储
Hadoop节点资源扩展硬件选择
【4月更文挑战第16天】在扩展Hadoop节点资源时,重点是选择合适的硬件。推荐使用x86架构的机架式服务器,配备多核高主频处理器以提升计算能力,确保至少16GB内存以支持高效数据处理。选择高容量、高速度的SAS或SSD硬盘,并利用RAID技术增强数据冗余和容错。网络方面,需要千兆以太网或更快的连接以保证数据传输。同时,要考虑成本、功耗和维护,确保硬件与Hadoop版本兼容,并在选购前进行充分测试。
40 3
|
9月前
|
分布式计算 Hadoop 大数据
Hadoop学习:深入解析MapReduce的大数据魔力之数据压缩(四)
Hadoop学习:深入解析MapReduce的大数据魔力之数据压缩(四)
108 0
|
9月前
|
分布式计算 Hadoop 大数据
Hadoop学习:深入解析MapReduce的大数据魔力(三)
Hadoop学习:深入解析MapReduce的大数据魔力(三)
|
1月前
|
存储 分布式计算 Hadoop
Hadoop节点资源扩展目录建立
【4月更文挑战第16天】
26 4
|
1月前
|
分布式计算 监控 负载均衡
Hadoop节点资源扩展
【4月更文挑战第14天】Hadoop节点扩展涉及硬件选择、环境部署、网络配置、目录建立、集群配置、服务启动、数据迁移和负载均衡。关键在于确保新节点与集群兼容,资源均衡,以及使用优化策略如数据分区、压缩、容器化和智能化管理。实际操作应参考官方文档,考虑版本、配置和需求差异,大型集群可能需专业工具协助。
20 2
|
1月前
|
分布式计算 Hadoop 大数据
Hadoop【hadoop学习大纲完全总结01+02+03+04+05】【自学阶段整理的xmind思维导图分享】【点击可放大看高清】
【4月更文挑战第5天】Hadoop【hadoop学习大纲完全总结01+02+03+04+05】【自学阶段整理的xmind思维导图分享】【点击可放大看高清】
52 5
|
9月前
|
存储 分布式计算 Hadoop
Hadoop学习:深入解析MapReduce的大数据魔力(二)
Hadoop学习:深入解析MapReduce的大数据魔力(二)
107 0
|
9月前
|
存储 分布式计算 Hadoop
Hadoop学习指南:探索大数据时代的重要组成——HDFS(上)
Hadoop学习指南:探索大数据时代的重要组成——HDFS(上)

相关实验场景

更多