CDH ecosystem components

简介: 1,Mahout ASF(Apache Software Foundation)开源项目,提供可扩展的`机器学习`--(ML,Machine Learning多领域交叉学科,涉及概率,统计,逼近,凸分析,算法复杂度等多门学科,专门研究计算机怎么模拟或实现人类的学习行为,以获取新的知识或技能,重新组织...
+关注继续查看

1,Mahout ASF(Apache Software Foundation)开源项目,提供可扩展的`机器学习`--(ML,Machine Learning多领域交叉学科,涉及概率,统计,逼近,凸分析,算法复杂度等多门学科,专门研究计算机怎么模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,是人工智能的核心,是计算机具有智能的根本途径,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域)领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序;

 

2,Snappy 高速压缩解压缩开发包 ,类似LZO,压缩解压缩速度高,压缩率相对其他压缩库-zlib、LZO、LZF、FastLZ和QuickLZ低下,本身它的定位就是PB级大数据量压缩;

 

3,Apache Whirr 提供了一组 Java 类库用来运行云服务基于 jclouds 开发

jclouds 是一个开源的Java类库,用来帮你开始云计算应用开发,并可重用已有的Java和Clojure技能。该API提供云计算环境的可移植抽象层以及云规范特性,支持包括 Amazon, VMWare, Azure(Windows Azure作为微软云计算平台,提供开放而灵活的云平台), and Rackspace 等云计算平台
9月13日,Apache 软件基金会(ASF)官方宣布Apache Whirr 升级为Apache 顶级项目(TLP)

 

4,oozie工作流引擎服务器,在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起,这样才能够达到目的。[1]在Hadoop生态圈中,有一种相对比较新 的组件叫做Oozie[2],它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务,

什么是Oozie?

Oozie是一种Java Web应用程序,它运行在Java servlet容器——即Tomcat——中,并使用数据库来存储以下内容:

  • 工作流定义
  • 当前运行的工作流实例,包括实例的状态和变量

http://www.infoq.com/cn/articles/introductionOozie

 

5,ZooKeeper是Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户

 

6,HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”

 

7,hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行

 

8,Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果

 

9,提供一个基于WEBJob Tracker,集群监控和文件浏览

 

10,Apache HCatalog是基于Apache Hadoop之上的数据表和存储管理服务。

包括:

  • 提供一个共享的模式和数据类型的机制。
  • 抽象出表,使用户不必关心他们的数据怎么存储。
  • 提供可操作的跨数据处理工具,如Pig,MapReduce,Streaming,和Hive。

11,Flume日志收集,是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统

 

12,sqoop导入关系型数据库中数据;

 

附件相关性知识库

gossip协议集群节点间状态信息,http://blog.csdn.net/zhangzhaokun/article/details/5859760

http://www.open-open.com/lib/view/open1339233432662.html

http://www.iteye.com/topic/1122901

http://labs.chinamobile.com/mblog/52251_166394

目录
相关文章
|
7月前
|
JSON 数据挖掘 API
docs and demos of Watson services
docs and demos of Watson services
|
10月前
|
分布式计算 Hadoop
《Building Information Analytics Platform– Integration of Hadoop with SAP® HANA and HANA VORA》电子版地址
Building Information Analytics Platform– Integration of Hadoop with SAP® HANA and HANA VORA
56 0
《Building Information Analytics Platform– Integration of Hadoop with SAP® HANA and HANA VORA》电子版地址
|
Apache 流计算
《Lessons Learned on Apache Flink Application Availability》电子版地址
04-简锋-Lessons Learned on Apache Flink Application Availability-Final
54 0
《Lessons Learned on Apache Flink Application Availability》电子版地址
|
SQL HIVE 流计算
《Production-Ready Flink and Hive Integration what story you can tell now》电子版地址
03-李锐-Production-Ready Flink and Hive Integration what story you can tell now.的副本
54 0
《Production-Ready Flink and Hive Integration what story you can tell now》电子版地址
SAP Spartacus 3.0部署在development environment上
SAP Spartacus 3.0部署在development environment上
87 0
SAP Spartacus 3.0部署在development environment上
|
SQL 资源调度 分布式计算
CDP中使用YARN Web UI和CLI
通过CDP的Yarn的UI界面来监控集群、队列、应用程序、服务和任务流的活动。
776 0
CDP中使用YARN Web UI和CLI
|
机器学习/深度学习 分布式计算 Hadoop
One-click Deployment of a Hadoop Distributed Cluster on Alibaba Cloud
Resource Orchestration Service (ROS) can be used to deploy a Hadoop cluster on Alibaba Cloud with a single click.
2071 0
|
流计算 分布式计算 Hadoop
|
数据可视化 druid 数据挖掘
|
分布式计算 监控 Hadoop
Hadoop On Demand用户指南
本文讲的是Hadoop On Demand用户指南,后面的文档包括一个快速入门指南能让你快速上手HOD,一个所有HOD特性的详细手册,命令行选项,一些已知问题和故障排除的信息。
1139 0
相关产品
机器翻译
推荐文章
更多