《R与Hadoop大数据分析实战》一1.7 Hadoop的子项目

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
云原生数据库 PolarDB MySQL 版,通用型 2核4GB 50GB
注册配置 MSE Nacos/ZooKeeper,118元/月
简介:

本节书摘来自华章出版社《R与Hadoop大数据分析实战》一书中的第1章,第1.7节,作者 (印)Vignesh Prajapati,更多章节内容可以访问云栖社区“华章计算机”公众号查看

1.7 Hadoop的子项目

Mahout是一个很强大的数据挖掘库,其中包含大部分与数据挖掘有关的机器学习算法,可实现聚类、分类、回归分析及统计建模等,可用于智能应用,它也是一个不错的机器学习库。
Apache Mahout是一个商用软件,需要Apache软件分发的许可证。Apache Mahout的目标是建立一个充满活力、反应灵敏、多样化的社区,以方便对项目本身以及潜在使用案例的讨论。
使用Mahout的一些公司如下:
Amazon:这是一个提供个性化推荐的购物网站。
AOL:这是一个有购物建议的购物导航网站。
Drupal:这是提供开放资源的基于内容建议的一个使用Mahout的PHP内容管理系统。
iOffer:这是一个购物网站,它使用Mahout的频繁模式集挖掘(Frequent Pattern Set Mining)和协同过滤(collaborative filtering)来为用户推荐商品。
LucidWorks Big Data:一个著名的数据分析公司,使用Mahout来实现聚类、文件复制跟踪、段落提取及分类等。
Radoop:提供了一个拖曳式的数据分析界面,包括Mahout的聚类及分类算法。
Twitter:这是一个社交网站,它使用Mahout的Latent Dirichlet Allocation(LDA) 实现用户兴趣建模,并且在GitHub保持Mahout的一个分支。
Yahoo!:这是世界上最流行的网络服务供应商之一,Yahoo! Mail使用 Mahout的频繁模式集挖掘。
Hadoop的生态系统的参考链接为http://www.revelytix.com/?q=content/hadoop-ecosystem
Apache HBase是Hadoop的一个分布式大数据存储系统。它允许随机、实时读写访问大数据。它创新性地被设计为面向列的数据存储模型,其灵感来自Google BigTable。
使用HBase的公司如下:
Yahoo!:这是世界上流行的为相邻文件复本检测提供服务的网站。
Twitter:这是进行版本控制存储和检索的一个社交网站。
Mahalo:这是一项类似内容推荐的知识共享的服务。
NING:这是进行实时分析和报告的社交网络服务一个提供商。
StumbleUpon:这是一个普遍的个性化推荐系统、实时数据存储和数据分析平台。
Veoh:这是为用户分析系统提供在线多媒体内容共享的一个平台。
对于Google Big Data的分布式存储系统的结构化数据,请参考链接http://research.google.com.archive/bigtable.html
Hive是一个基于Hadoop的数据仓库,类似于Facebook开发的框架。它允许用户查询类SQL语言,例如高度抽象到Hadoop MapReduce中的HiveQL。这使得没有MapReduce经验的SQL程序员可以使用数据仓库,并且使它更容易集成商业智能和可视化工具用于实时查询处理。
Pig是一个使用类SQL语言,称为Pig Latin。该语言基于Hadoop开源平台分析大规模数据集。它提供了一个简单的操作和编程接口,用于大规模的、复杂的数据并行计算。具有易于开发、高易用性及可扩充性特点。Apache Pig是由Yahoo!开发的,Yahoo!和Twitter是Pig的主要用户。
对开发人员来说,直接使用的Java API可能是很乏味或容易出错,而且限制了Java程序员在使用Hadoop编程时的灵活性。因此,Hadoop提供了两个解决方案,Pig和Hive,它们使用了MapReduce对数据集进行管理和分析,使Hadoop编程更加容易。
Apache Sqoop提供了Hadoop数据处理平台、关系型数据库、数据仓库。同时提供了一种非关系型数据库快速转换大量数据的新方法。Apache Sqoop是一个交互式的工具,可用于将数据从关系型数据库导入Hadoop HDFS中,并将HDFS的数据导出到关系型数据库中。
它可与目前最流行的关系型数据库一起工作,例如MySQL、PostgreSQL、Oracle、Microsoft SQL Server和IBM DB2,以及企业级数据仓库。Sqoop的扩展API提供了数据库系统的连接方法。并且,这个Sqoop资源也与一些很流行的数据库连接方法并驾齐驱。为了进行这个操作,Sqoop首先用一些数据库视图创建和转化的逻辑向Hadoop MapReduce传输数据。
Apache Zookeeper也是Hadoop的子项目,它用于管理Hadoop、Hive、Pig、HBase、Solr以及一些其他工程。Zookeeper是一个开源的分布式应用协调服务,它是利用基于同步和配置的快速Paxos算法以及一些例如分布式应用维护的命名服务设计出来的。在程序设计中,Zookeeper设计是一个非常简单的数据模型结构,很像系统文件目录的树状结构。
Zookeeper被分为两个部分:服务端和客户端。对于一个使用Zookeeper服务的集群,只能一台服务器扮演主服务器,用来接受和协调所有请求。其他的服务器都是主服务器的只读副本。如果主服务器崩溃,任何一台其他服务器可以开始为响应请求提供服务。Zookeeper客户端依据Zookeeper服务连接到服务器上。客户端发送请求,接受回应,读取监视事件并通过TCP协议连接到服务器发送一个心跳。
对于分布式应用的高性能协调服务,Zookeeper是一个集中服务,用于提供维护配置信息、命名、分布式同步和组服务。所有这些类型的服务通过某种形式被分布式应用使用。每次部署这些应用,就会有很多修复漏洞的工作和不能改变的竞争环境。这些服务在应用部署后会导致管理工作复杂。
Apache Solr是一个基于Apache认证项目的开源企业级搜索平台。Apache Solr具有高度的可扩展性,支持分布式查询及索引响应引擎。因此,可以创建网页版的应用,可实现强大的文本查找、分片查找、即时索引、动态集群、数据库集成及富文档处理等。
Apache Soar是用Java编写的,它作为一台独立的服务器,通过类似于REST HTTP/XML和JSON的过程来提供查询结果。因此,Solr 服务器很容易与用其他的编程语言编写的应用集成。基于这些特性,Netflix、AOL、CNET和Zappos都在使用Apache Soar查询服务器。
Ambari是针对Hortonworks的工具。Apache Ambari是一个基于网络的工具,用于支持Apache Hadoop集群的支持、管理和监视。Ambari支持操作绝大多数Hadoop组件,如同集中管理一样包括HDFS、MapReduce、Hive、Pig、HBase、Zookeeper、Sqoop和HCatlog。
除此以外,Ambari能够在基于Kerberos远程认证协议的Hadoop集群上安装安全服务。同时,它还为管理集成式LDAP和活动目录提供基于角色的用户识别、授权和审计的功能。

相关实践学习
基于MSE实现微服务的全链路灰度
通过本场景的实验操作,您将了解并实现在线业务的微服务全链路灰度能力。
相关文章
|
5天前
|
存储 分布式计算 资源调度
两万字长文向你解密大数据组件 Hadoop
两万字长文向你解密大数据组件 Hadoop
26 11
|
1月前
|
分布式计算 Hadoop Devops
Hadoop集群配置https实战案例
本文提供了一个实战案例,详细介绍了如何在Hadoop集群中配置HTTPS,包括生成私钥和证书文件、配置keystore和truststore、修改hdfs-site.xml和ssl-client.xml文件,以及重启Hadoop集群的步骤,并提供了一些常见问题的故障排除方法。
45 3
Hadoop集群配置https实战案例
|
2月前
|
存储 分布式计算 Hadoop
|
1月前
|
分布式计算 监控 Hadoop
监控Hadoop集群实战篇
介绍了监控Hadoop集群的方法,包括监控Linux服务器、Hadoop指标、使用Ganglia监控Hadoop集群、Hadoop日志记录、通过Hadoop的Web UI进行监控以及其他Hadoop组件的监控,并提供了相关监控工具和资源的推荐阅读链接。
48 2
|
2月前
|
图形学 数据可视化 开发者
超实用Unity Shader Graph教程:从零开始打造令人惊叹的游戏视觉特效,让你的作品瞬间高大上,附带示例代码与详细步骤解析!
【8月更文挑战第31天】Unity Shader Graph 是 Unity 引擎中的强大工具,通过可视化编程帮助开发者轻松创建复杂且炫酷的视觉效果。本文将指导你使用 Shader Graph 实现三种效果:彩虹色渐变着色器、动态光效和水波纹效果。首先确保安装最新版 Unity 并启用 Shader Graph。创建新材质和着色器图谱后,利用节点库中的预定义节点,在编辑区连接节点定义着色器行为。
101 0
|
2月前
|
分布式计算 资源调度 Hadoop
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
|
2月前
|
存储 SQL 分布式计算
Hadoop生态系统概述:构建大数据处理与分析的基石
【8月更文挑战第25天】Hadoop生态系统为大数据处理和分析提供了强大的基础设施和工具集。通过不断扩展和优化其组件和功能,Hadoop将继续在大数据时代发挥重要作用。
|
2月前
|
资源调度 分布式计算 Hadoop
揭秘Hadoop Yarn背后的秘密!它是如何化身‘资源大师’,让大数据处理秒变高效大戏的?
【8月更文挑战第24天】在大数据领域,Hadoop Yarn(另一种资源协调者)作为Hadoop生态的核心组件,扮演着关键角色。Yarn通过其ResourceManager、NodeManager、ApplicationMaster及Container等组件,实现了集群资源的有效管理和作业调度。当MapReduce任务提交时,Yarn不仅高效分配所需资源,还能确保任务按序执行。无论是处理Map阶段还是Reduce阶段的数据,Yarn都能优化资源配置,保障任务流畅运行。此外,Yarn还在Spark等框架中展现出灵活性,支持不同模式下的作业执行。未来,Yarn将持续助力大数据技术的发展与创新。
31 2
|
2月前
|
分布式计算 Hadoop 大数据
Spark 与 Hadoop 的大数据之战:一场惊心动魄的技术较量,决定数据处理的霸权归属!
【8月更文挑战第7天】无论是 Spark 的高效内存计算,还是 Hadoop 的大规模数据存储和处理能力,它们都为大数据的发展做出了重要贡献。
70 2
|
2月前
|
SQL 分布式计算 数据可视化
基于Hadoop的大数据可视化方法
【8月更文第28天】在大数据时代,有效地处理和分析海量数据对于企业来说至关重要。Hadoop作为一个强大的分布式数据处理框架,能够处理PB级别的数据量。然而,仅仅完成数据处理还不够,还需要将这些数据转化为易于理解的信息,这就是数据可视化的重要性所在。本文将详细介绍如何使用Hadoop处理后的数据进行有效的可视化分析,并会涉及一些流行的可视化工具如Tableau、Qlik等。
65 0

热门文章

最新文章

下一篇
无影云桌面