本文讨论Apache Hadoop大数据工具及技术,帮助有效管理实时的大数据,并讨论Apache Hadoop大数据分析的优缺点。帮助企业认识Hadoop,在选择Hadoop技术方案上做出抉择。
Hadoop是目前的处理和存储海量数据的最佳工具。Hadoop可以利用数百台甚至数千台计算机处理大数据问题,而不是使用单机处理。
Hadoop可以以廉价、快速的范式处理大数据,彬进行数据挖掘和数据分析。Hadoop能解决大多数大数据问题。
Apache Hadoop是开源项目,灵感来自于Google的研究。
Hadoop把计算机协调成一个整体,称为集群,其中的每台计算机都称为节点。
作者:chszs,博客主页:http://blog.csdn.net/chszs
一、什么是大数据分析工具及技术
Hadoop是目前的处理和存储海量数据的最佳工具。Hadoop可以利用数百台甚至数千台计算机处理大数据问题,而不是使用单机处理。
Hadoop可以以廉价、快速的范式处理大数据,彬进行数据挖掘和数据分析。Hadoop能解决大多数大数据问题。
Apache Hadoop是开源项目,灵感来自于Google的研究。
Hadoop把计算机协调成一个整体,称为集群,其中的每台计算机都称为节点。
二、Hadoop大数据分析工具及技术的优点:
1. Hadoop很便宜。
Hadoop是开源的Apache项目,所有人都可以免费使用。Hadoop运行于普通硬件之上,因此无需购买专业的数据库服务器。2. Hadoop速度很快。
Hadoop可以在几分钟内处理TB级的数据,在几小时内可以处理完PB级的数据。而且Hadoop还是那些互联网巨头如Facebook、Twitter、Yahoo、eBay、Amazon等快速处理大数据并制订决策的唯一方式。3. Hadoop可以为大数据存储任意扩展。
需要更多的空间吗?只需增加带硬盘驱动器的节点,永远都不必关机。4. Hadoop可以扩展到大数据计算。
你的集群很慢吗?只需增加更多的节点就可以提升速度。Hadoop的扩展几乎是线性的,这意味着节点数量增加一倍后只需一半的计算时间。5. Hadoop的大数据类型是灵活的。
你在处理结构化的数据吗?很好。你有半结构化或非结构化的数据吗?Hadoop可以存储和处理任意类型的数据。6. Hadoop对编程语言是灵活的。
Hadoop本身是用Java开发的,但是你可以使用类SQL语言如Apache Hive访问你的数据。如果你想要过程式的语言进行分析,可以用Apache Pig。如果你想深入框架,你可以用Java、C/C++、Ruby、Python、C#、QBasic等任意语言自定义分析你的数据。作者:chszs,博客主页:http://blog.csdn.net/chszs