Hadoop——大数据处理的宠儿

简介:

驱动大数据增长的主要因素包括移动设备和社交网络的大幅度增长、以往纸质文件的数字化以及科研数据的增长。“他们的存档文件正在高速增长,因为他们并不清楚哪些需要保存,哪些不需要保存,”EMC旗下的Isilon公司美国首席技术官Rob Peglar说道。

各个产业的公司都在为大数据分析投入大量资金。其中一个产业为对病人数据进行分析诊疗的医疗产业。Peglar说,在金融服务产业,对数据进行定性分析也颇受关注。在这方面,分析的是杂乱无章的股票交易数据。大数据分析在制造和设计业的应用也有所增长,但增长最快的市场还是对用户行为数据进行分析以获得市场情报信息的社会媒体和电子商务产业。

Hadoop—-大数据处理的宠儿

在众多的大数据分析平台当中,最为人所知的是ApacheHadoop平台。这是一个用于分布式计算的开源软件框架。Hadoop源于Google的MapReduce软件框架以及Google使用的专有文件系统“Google文件系统”。Hadoop项目的参与者包括雅虎、LinkedIn、Facebook、Twitter、加州大学伯克利分校、Last.fm等。

大数据分析需求的增长主要受杂乱无章的数据的驱动,这正是Hadoop所擅长处理的数据。“这是对传统结构化数据库的补充,”Peglar说道。“结构化数据在增长,但是杂乱无章的数据的增长率要快得多。”

除非能部署一个由Isilon、Teradata或Oracle等公司提供的大数据应用,否则公司很有可能将类似Hadoop的分析平台的计算基础设施部署在商用硬件上。451集团的资深分析师RachelChalmers称,“Hadoop对其运行的基础设施平台做出了某些假设。”

由于Hadoop基于Google的MapReduce,因此设想它将运行在类似Google的同质商用基础设施之上。此外,它还了解哪些CPU将用于服务器硬盘存储,”Chalmers解释道。

缺少大数据处理的通用平台

部署哪种类型的分析系统将取决于客户的特定需求。数据分析领域的主要公司Teradata的产品营销总监JimDietz称,某些客户对处理速度的需求高于对处理数量的需求。在这种情况下,他们会购买一个超高性能的应用。而对于那些希望存储并分析数千用户行为数据的客户,他们则需要可存储各种海量数据,并具有高处理性能的解决方案。

对于专业存储厂商来说,“我们与大数据厂商更多的是合作,不是竞争,因为产品架构不一样。硬盘厂商将硬盘提供给专业存储厂家,专业存储厂家再将多颗硬盘整合到一起提供给IT存储厂商,IT存储厂商的任务是将这些基础存储介质整合成一个应用系统给上端大量的数据来做存储、交换、分析和保护。

此外,公司所部署的解决方案设计还必须具有足够的灵活性,以应对未来的强劲增长需求。

大数据意味着高密度

Peglar说,可能影响数据中心管理者大数据(尤其是杂乱无章的大数据)基础设施部署的首要因素是存储。这些存储阵列的面积和电力需求取决于它们对能源及对可用存储空间的使用效率。

计划实施大数据分析

科尔特说,那些推出了大数据分析的企业,往往是在金融服务和医疗保健领域,在这些领域,大量的数据可以被用于归结揭示趋势和最佳做法。

TheInfoPro公司每年进行一次热门技术指数调查,询问数百名IT专业人士关于他们的技术计划相关问题。该公司最新调查活动是在2011年8月至今年四月期间进行的。

不足为奇的是,受访者再次选择服务器虚拟化技术作为企业能力增长的主要驱动力,与光纤通道SAN是企业数据存储的主要目标。67%的受访者表示,他们将80%到100%的生产服务器连接到光纤通道SAN。

驱动器容量的增长

然而,去年,随着SAS、固态硬盘(SSD)和SATA驱动器逐渐占据企业占主导地位,使得光纤通道硬盘驱动器市场大受打击。

如果问问这些企业在2011年购买了什么新的磁盘存储设备,48%的受访者表示购买了光纤通道驱动器,31%的表示SATA驱动器,19%的为SAS,2%的为SSD固态硬盘驱动器。但是,当被问及这些企业今年采购增长最多的设备,41%的受访者表示他们购买了SAS驱动器,35%的为SSD固态硬盘驱动器;23%的为SATA驱动器;11%的表示为光纤通道。

混合阵列和SSD固态硬盘

大多数企业数据中心使用SSD固态硬盘与旋转盘的混合阵列,而新建的数据中心很多采用全固态阵列和服务器SSD固态硬盘。EMC作为固态混合阵列第一的供应商,远远超过竞争对手。紧随EMC之后的是由NetApp、日立数据系统(日立)、IBM公司、惠普、甲骨文和戴尔。

哪些供应商的产品正在使用混合阵列固态硬盘?

当被问及哪些供应商提供固态存储服务器,Fusion-io则高居榜首,其次是IBM、惠普、甲骨文、戴尔和希捷。EMC为列第九,落后于NetApp。

调查显示,排名前列的固态供应商分别为:Fusion-io公司、PureStorage公司、NimbusData、NimbleStorage公司、GridironSystems公司和Kove。Kove公司除了生产所有DRAM设备之外,该公司同时还出售接口闪存卡和all-flash阵列或用具。

供应商固态服务器首选是Fusion-io,其次是IBM公司、惠普、甲骨文和戴尔。希捷位列第六。

当被问及他们是否会实施all-flash阵列,7%的受访者表示他们已经在使用该技术,而86%的受访者表示目前没有实施的计划。另外,有4%的受访者表示他们计划购买all-flash阵列,但应该是在之后的半年到18个月的时间内。2%的受访者表示他们18个月之后实施该计划。

马特 沃特尔斯,是三菱电力系统美洲分公司的企业基础设施的建筑师,并未参与TheInfoPro公司的调查。但他表示,他所在的企业在去年十二月安装了来自NimbusStorage公司的all-flash阵列,以解决他们企业的SAP环境的I/O放缓问题。

沃特尔斯最初试图把第二组处理器放入他所有的SAP服务器中,升级内存达到其最大容量,但问题依然存在。他最后回到TB尺寸的SAP数据库和主存储装载数据缩小了性能问题,这在当时是采用的一个惠普的EVA阵列。增加SSD到EVA的成本比购买all-flash阵列更昂贵,沃特尔斯说。

大数据计算节点部署的密度可能非常高。Peglar说,这些部署的功率密度可达到3kW或更高。这对于数据中心的管理者确定电力和制冷基础设施的规格具有明显意义。

本文转自d1net(转载)

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
14天前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
37 2
|
14天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
16天前
|
SQL 分布式计算 Hadoop
利用Hive与Hadoop构建大数据仓库:从零到一
【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理,而Hive作为基于Hadoop的数据仓库系统,通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建,为企业决策和创新提供支持。
57 1
|
1月前
|
消息中间件 SQL 分布式计算
大数据Hadoop生态圈体系视频课程
熟悉大数据概念,明确大数据职位都有哪些;熟悉Hadoop生态系统都有哪些组件;学习Hadoop生态环境架构,了解分布式集群优势;动手操作Hbase的例子,成功部署伪分布式集群;动手Hadoop安装和配置部署;动手实操Hive例子实现;动手实现GPS项目的操作;动手实现Kafka消息队列例子等
20 1
大数据Hadoop生态圈体系视频课程
|
4月前
|
分布式计算 资源调度 搜索推荐
《PySpark大数据分析实战》-02.了解Hadoop
大家好!今天为大家分享的是《PySpark大数据分析实战》第1章第2节的内容:了解Hadoop。
48 0
《PySpark大数据分析实战》-02.了解Hadoop
|
4月前
|
存储 搜索推荐 算法
【大数据毕设】基于Hadoop的音乐推荐系统的设计和实现(六)
【大数据毕设】基于Hadoop的音乐推荐系统的设计和实现(六)
171 0
|
4月前
|
分布式计算 Hadoop Java
【大数据实训】基于Hadoop的2019年11月至2020年2月宁波天气数据分析(五)
【大数据实训】基于Hadoop的2019年11月至2020年2月宁波天气数据分析(五)
53 1
|
4月前
|
存储 分布式计算 搜索推荐
【大数据毕设】基于Hadoop的音乐管理系统论文(三)
【大数据毕设】基于Hadoop的音乐管理系统论文(三)
106 0
|
4月前
|
SQL 分布式计算 Hadoop
[AIGC ~大数据] 深入理解Hadoop、HDFS、Hive和Spark:Java大师的大数据研究之旅
[AIGC ~大数据] 深入理解Hadoop、HDFS、Hive和Spark:Java大师的大数据研究之旅