企业如何选择Hadoop

简介: 本文讨论Apache Hadoop大数据工具及技术,帮助有效管理实时的大数据,并讨论Apache Hadoop大数据分析的优缺点。帮助企业认识Hadoop,在选择Hadoop技术方案上做出抉择。
本文讨论Apache Hadoop大数据工具及技术,帮助有效管理实时的大数据,并讨论Apache Hadoop大数据分析的优缺点。帮助企业认识Hadoop,在选择Hadoop技术方案上做出抉择。

一、什么是大数据分析工具及技术


Hadoop是目前的处理和存储海量数据的最佳工具。Hadoop可以利用数百台甚至数千台计算机处理大数据问题,而不是使用单机处理。

Hadoop可以以廉价、快速的范式处理大数据,彬进行数据挖掘和数据分析。Hadoop能解决大多数大数据问题。

Apache Hadoop是开源项目,灵感来自于Google的研究。

Hadoop把计算机协调成一个整体,称为集群,其中的每台计算机都称为节点。


二、Hadoop大数据分析工具及技术的优点:


1. Hadoop很便宜。

Hadoop是开源的Apache项目,所有人都可以免费使用。Hadoop运行于普通硬件之上,因此无需购买专业的数据库服务器。

2. Hadoop速度很快。

Hadoop可以在几分钟内处理TB级的数据,在几小时内可以处理完PB级的数据。而且Hadoop还是那些互联网巨头如Facebook、Twitter、Yahoo、eBay、Amazon等快速处理大数据并制订决策的唯一方式。

3. Hadoop可以为大数据存储任意扩展。

需要更多的空间吗?只需增加带硬盘驱动器的节点,永远都不必关机。

4. Hadoop可以扩展到大数据计算。

你的集群很慢吗?只需增加更多的节点就可以提升速度。Hadoop的扩展几乎是线性的,这意味着节点数量增加一倍后只需一半的计算时间。

5. Hadoop的大数据类型是灵活的。

你在处理结构化的数据吗?很好。你有半结构化或非结构化的数据吗?Hadoop可以存储和处理任意类型的数据。

6. Hadoop对编程语言是灵活的。

Hadoop本身是用Java开发的,但是你可以使用类SQL语言如Apache Hive访问你的数据。如果你想要过程式的语言进行分析,可以用Apache Pig。如果你想深入框架,你可以用Java、C/C++、Ruby、Python、C#、QBasic等任意语言自定义分析你的数据。

作者:chszs,博客主页:http://blog.csdn.net/chszs

三、Hadoop大数据分析工具及技术的缺点:


1. 难以建设好纯Hadoop环境。

最好还是聘请一些专家或购买一些第三方Hadoop公司提供的服务吧。

2. 纯Hadoop环境难以管理。

目前还缺少图形化的管理界面。

3. 纯Hadoop难以一直保证健壮性。

Hadoop有各种单点故障。单Hadoop崩溃时,你会损失数据和损失时间。

4. 纯Hadoop难以使用。

这是很严肃的,不是笑话。

5. 纯Hadoop并不安全。

你存储在Hadoop的文件并不安全,用户能轻易损坏或偷走数据。所有的Hadoop用户必须是可信任的。

6. 纯Hadoop并未针对硬件进行优化。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
SQL 分布式计算 监控
监控hadoop生态系统企业应该用什么监控软件
监控hadoop生态系统企业应该用什么监控软件
173 0
|
SQL 分布式计算 Hadoop
基于Hadoop的企业人力资源管理
基于Hadoop的企业人力资源管理
111 0
基于Hadoop的企业人力资源管理
|
存储 分布式计算 大数据
政企如何选择Apache Hadoop分布式数据采集软件? 武汉大数据产品价值
AI、人工智能、大数据已经成为时代的热门词,无论是企业还是政府单位都对大数据有了进一步的深刻认识,2019年的两会,大数据的发展也成为热点话题。今天,小编就来具体分享一下,关于Hadoop产品的选择,以及大数据产品选择需要注意哪些? 大数据产品选择需要注意事项:1.实用性无论是政企还是教育机构或者其他领域,选择大数据产品,必定要是满足自己的需求,并且能为自身所使用的。
1221 0
|
分布式计算 Hadoop 测试技术

相关实验场景

更多