各种相关开源系统简介

简介:   如下是Apache基金支持的开源软件  hdfs  跟GFS类似, 一个分布式文件系统。  mapreduce  跟Google的MapReduce类似, 一个典型的简单的分布式计算框架。  yarn

  如下是Apache基金支持的开源软件

  hdfs

  跟GFS类似, 一个分布式文件系统。

  mapreduce

  跟Google的MapReduce类似, 一个典型的简单的分布式计算框架。

  yarn

  资源管理系统, 跟Mesos类比。

  Avro

  跟PB类似, 用于将数据结构序列化成字节码, 在不同的语言之间切换。

  官方举例是将C转换给Pig。

  BigTop

  一个给Hadoop打包和测试的软件。其本来是cloudera公司自己给自己写的一个方便OP部署和搭建环境的工具, 不过因为写得不错, 已经成为了Apache顶级项目。目前支持系列Hadoop生态链中的软件: Zookeeper, Flume, HBase, Pig, Hive, Sqoop, Oozie, Whirr, Mahout, SolrCloud, Crunch, DataFu and Hue

  Chukwa

  收集各种实时监控数据(比如日志)并固化到HDFS上的事情。

  Drill

  Google的Dremel的开源版本。PB以上数据实时秒级查询。

  Flume

  用来做数据迁移的工具。支持数据包括Avro, files, 系统日志, 落地的系统包括HDFS, HBase。

  HBase

  Google的BigTable的开源版本。宽列存储, 底层基于HDFS。

  HCatalog

  为HDFS做的一个管理metadata的系统。基于Hive, 提供服务给MapReduce, Pig, 将来会支HBase。

  Hive

  支持HSQL, 将SQL转换成MapReduce任务。

  Mahout

  一个数据挖掘, 机器分析的算法库。

  Oozie

  用来管理Hadoop中的多轮任务的工具, 类似DAG管理工具。

  Tez

  也是多个任务的DAG管理工具, 但是其做得更底层,直接替代了买二手手游账号MR的调度程序,多个任务之间的数据传递不用再落地到hdfs上了。

  Pig

  跟Hive类似, 提供比裸写MR更友好的界面, 然后翻译成MapReduce。只是Hive提供的是SQL, Pig提供的是更高级别的语言Pig-Latin, 供用户做数据挖掘和分析。

  Sqoop

  Sql-to-Hadoop。将关系型数据库中的数据导入到Hadoop当中。

  ZooKeeper

  提供高可用的存储服务。内部采用paxos一致性协议。

  Whirr

  用于将Hadoop放到各种IaaS里面去运行的环境部署类项目。

  Crunch

  用来管理Hadoop/Spark上面的Pipeline的软件。应该是比Pig/Hive更低一个级别的抽象, 提供数据的join/aggregation的Java API。

  DataFu

  为Pig而准备的系列数据挖掘算法软件包。

  Hue

  Hadoop的漂亮平台化界面。

  如下是非Apache组织的一些项目

  Spark

  支持迭代式计算。将MapReduce的一轮一轮计算的概念转换成同一批数据不停处理的概念, 并提供高级语言。

  Shark

  Hive On Spark。即支持HSQL。

  Impala(Cloudera)

  另一个Google的Dremel的开源版本, 界面跟Hive类似(事实上就是使用的Hive-SQL的子集), 只是不是翻译成MapReduce而是直接查询。

  Sentry(Cloudera)

  在Hive/Impala之上独立的一层专门做认证授权的系统。

  SolrCloud

  Solr+Hadoop, Big Data Search。

  参考

  Hadoop Software Ecosystem. revelytix/?q=content/hadoop-ecosystemAvro in 3 minutes. youtube/watch?v=3BOkW1iVQOQOLAP技术产品组成. maxatx/olap/index.htm感谢各位支持,点击屏幕右上角的【关注】每天文章不落下。感激不尽!

  本头条号文章分类目录(精心整理)

目录
相关文章
|
JavaScript
怎么判断两个文档节点、网页元素(element)是否相同?判断两个DOM节点是否相等、相同的4种方法
怎么判断两个文档节点、网页元素(element)是否相同?判断两个DOM节点是否相等、相同的4种方法
|
缓存 Java Sentinel
Springboot 中使用 Redisson+AOP+自定义注解 实现访问限流与黑名单拦截
Springboot 中使用 Redisson+AOP+自定义注解 实现访问限流与黑名单拦截
|
安全 前端开发 云计算
Waline:一款开源、安全、简介的评论系统
阿里云计算巢提供了一键部署waline的功能,无需下载代码或安装复杂依赖,通过简单步骤即可搭建waline —— 一款带后端的极简风评论系统。
Waline:一款开源、安全、简介的评论系统
|
10月前
|
机器学习/深度学习 计算机视觉 异构计算
YOLOv11改进策略【模型轻量化】| 替换骨干网络 CVPR-2023 FasterNet 高效快速的部分卷积块
YOLOv11改进策略【模型轻量化】| 替换骨干网络 CVPR-2023 FasterNet 高效快速的部分卷积块
668 11
YOLOv11改进策略【模型轻量化】| 替换骨干网络 CVPR-2023 FasterNet 高效快速的部分卷积块
|
XML 前端开发 JavaScript
Nginx 安装配置
10月更文挑战第5天
246 4
Nginx 安装配置
|
网络协议
网络通信的基石:TCP/IP协议栈的层次结构解析
在现代网络通信中,TCP/IP协议栈是构建互联网的基础。它定义了数据如何在网络中传输,以及如何确保数据的完整性和可靠性。本文将深入探讨TCP/IP协议栈的层次结构,揭示每一层的功能和重要性。
801 5
|
安全 数据安全/隐私保护
深入解析 https
在使用HTTP协议时,数据传输是明文形式,容易遭受运营商劫持等安全问题,如篡改返回网页内容、修改Referer字段等。为解决这些问题,引入了HTTPS协议,它通过加密、认证和完整性保护,确保通信内容不被第三方窃听或篡改。HTTPS结合了对称加密和非对称加密,使用公钥加密对称密钥,私钥解密,确保数据安全性和传输效率。然而,中间人攻击仍可能破解这一机制,因此引入证书机制,客户端通过验证证书中的数字签名来确认公钥的有效性,从而保障数据传输的安全性。
378 0
|
数据可视化 图形学 Python
|
存储 程序员 C++
内存管理概念 (二)
内存管理概念 (二)
320 1
|
消息中间件 存储 运维
轻量级分布式事务实现:掌握最大努力通知方案
本文介绍了分布式事务的重要概念,特别是最大努力通知方案。最大努力通知是一种基于消息通知的分布式事务处理方式,通过异步通知确保最终一致性。方案包括事务消息发送、消息中间件持久化和最大努力通知三个步骤。虽然它实现简单、性能高且灵活,但可能无法保证强一致性,且存在重试和人工干预的成本。文中还提供了一个电商订单与库存系统同步的案例,并分析了该方案的优缺点。
419 1