大数据的下一个五年:Hadoop将推动数据平民化

简介:

美国联合市场研究(Allied Market Research)机构近日预测,到2020年,Hadoop的市场价值会超过500亿。Hadoop技术发展至今,走过了近九个年头,乘着大数据的东风,它以低廉的存储和快速的处理能力迅速在中小企业蔓延开来。而据联合市场研究预测,五年后,Hadoop会得到更广泛的部署,不止局限在中小企业。

Hadoop

几年前,还有评论人士称,Hadoop只能应用于企业10%的数据。但今日一份名为《2014年数据库技术现状调查》的数据显示,13%的受访者已经将Hadoop应用于产品生产和测试。未来,Hadoop有望在企业各个角落得到应用。而在性能和用途都有显著增长的同时,Hadoop的部署成本仍然会保持相对低廉。

数据平民化

随着大数据的快速发展,未来五年内,数据量和数据类型都会快速增长,那时,PB级的数据量已经不能被称为大数据了。随着数据的猛增,企业对数据分析和存储能力的需求必然大幅上升。相对于传统数据库和数据仓库技术,Hadoop的优势在于将数据分析和存储平民化。不懂技术的业务人员访问和分析数据将成为趋势。

照目前的创新速度和较低的准入门槛来看,未来五年会有更多的中小型企业持有自己的Hadoop架构。同时,Hadoop的发展会催生一大批初创企业加入到企业级IT领域,虽然短时间内新技术初创企业还不足以影响大的市场格局,但从收购和价值评估中我们可以看到,新兴技术企业的市场价值已经越来越大。

安全性和实时性

物联网作为IT发展的下一个技术热点,会成为变革IT的新力量。传统的数据库技术很难应对大量的传感器数据,而Hadoop将脱颖而出,承担更多的存储和分析功能。

未来五年里,Hadoop会逐渐向企业日常运营必不可少的系统发展。而要实现这一点,其实时分析的能力和安全性将成为掣肘。现在,我们已经看到Kerberos 和一些MapReduce组件用于保障Hadoop的安全性,Spark和Storm等工具正在为Hadoop加速。未来Hadoop的发展也需要这两方面能力的成熟。


本文作者:陈洪钰

来源:51CTO

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
存储 分布式计算 Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
624 79
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
865 6
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
422 2
|
存储 分布式计算 大数据
Flume+Hadoop:打造你的大数据处理流水线
本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统(HDFS)。Flume是一个高可用、可靠的分布式系统,适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程,并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时,还提供了验证步骤,确保数据成功上传。最后,补充说明了使用文件模式作为channel以避免数据丢失的方法。
820 4
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
681 2
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
585 1
|
存储 分布式计算 资源调度
两万字长文向你解密大数据组件 Hadoop
两万字长文向你解密大数据组件 Hadoop
730 11
|
大数据 网络安全 数据安全/隐私保护
大数据-03-Hadoop集群 免密登录 超详细 3节点云 分发脚本 踩坑笔记 SSH免密 集群搭建(二)
大数据-03-Hadoop集群 免密登录 超详细 3节点云 分发脚本 踩坑笔记 SSH免密 集群搭建(二)
615 5
|
存储 分布式计算 资源调度
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
341 5
|
资源调度 数据可视化 大数据
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
220 4

相关实验场景

更多