企业拥抱大数据,Hadoop 和Spark渐受欢迎

简介:

虽然国内大数据相较国外起步较晚,但增长态势却一路上扬,完美诠释了典型的“中国速度”,不仅是企业和政府用户对于大数据的认知在提升,而且在搭建平台和提供数据服务方面,企业用户也开始了更为深入的探索。

来自中国信通院的数据显示:2016年中国大数据市场规模将达到16.8亿元人民币,增速为45%,预计未来3年(2017~2020年),增速将稳步保持在30%以上。

市场风生水起,离不开政府层面的扶持。国家“十三五”规划纲要明确表示:实施国家大数据战略是“十三五”时期的重点。去年国家力挺大数据应用,批复了京津冀等7个国家级大数据综合试验区和超过10个大数据国家工程实验室。

紧接着,今年1月国家印发的《大数据产业发展规划(2016-2020年)》(以下简称《规划》)无疑又为火热的大数据又添了一把柴。按照《规划》预计,在2020年,我国技术先进、应用繁荣、保障有力的大数据产业体系将基本形成,大数据相关产品和服务业务收入将突破1万亿元人民币。

实体产业的落地速度也是快马加鞭,就在本月,坐落于廊坊的京津冀大数据创新应用中心主体工程竣工,并于5月18日正式投入运营。该中心包含体验中心、研发中心、双创中心、应用中心、感知中心5大核心功能区,打造以大数据为核心的特色产业体系。

“利用大数据改造传统动能、培育新动能,对实现创新驱动发展,意义重大、前景广阔”,工业和信息化部副部长陈肇雄表示,一方面引导地方结合自身条件,科学谋划发展重点,在大数据产业特色优势明显的地区建设一批产业集聚区;另一方面,支持地方大数据应用试点,开展系统性探索试验,形成有效经验和模式,加快推广普及。

政府数据开放“三不”写成了难

虽然有国家政策保驾护航,但摆在产业界面前的难题也不少,想要真正实现商业化,形成良性的产业生态道阻且长。诸如在时下高度受关注的大数据共享和开放方面,产业界还未找到行之有效的方法。

中国工程院院士邬贺铨对此表示:缺乏公共平台、共享不通畅、开放总量偏低、结构化程度低,民众参与反馈不准等,这些都是摆在数据共享开放前面的最直接难题。

大数据的价值在于融合和挖掘,作为拥有最大数据源基础的政府一方,本该在数据共享方面起到表率作用,促进数据的融合挖掘,但现实却是政府数据开放呈现三个“不”字。

不敢于、不愿意、不容易,这三个关键词正好反映出目前政务云建设过程中,政府对于数据开放共享的真实态度。

中国信息通信研究院院长刘多表示,由于国家层面目前在数据安全方面还缺乏具有指导性的规定和细则,这就导致政府在共享数据方面不敢于也不愿意迈出大步;另一方面,政府IT系统多为封闭的“烟囱式”IT构建,即便想要数据共享,也需要接口的标准化和统一的顶层设计。

“开放共享对于政务透明、全社会信用体系建设和创新都非常重要,我们需要共同努力!”刘多如是说。

产业动起来,Hadoop 和Spark渐受欢迎

监管未细,但产业界早已行动。来自中国信通院一份国内1465 用户的大数据问卷调查显示:近六成企业已成立数据分析相关部门,27.3% 的企业计划成立数据部门。更重要的是,绝大部分企业均已意识到数据分析对企业发展的重要性,在用户看来,大数据能够为企业带来最直观的效果就是:智能决策和提升运营效率。

更有趣的是,市场对于搭建大数据平台的方式也在发生微妙的变化,相较于前两年直接购买集成一体机的方式,在2016年,倾向于本地自建大数据平台(48.6%)和采购云服务商的大数据服务(33.1%)的比例占到了总体受访者的80%。

这似乎已经传递出一个非常明确的趋势:企业拥抱大数据,更青睐以开源平台来构建大数据,这也就解释了业界为何如此看重Hadoop 和Spark这两项大数据平台技术架构的原因。

不过开源之路并不像看上去那么美好,除了自身具备一定的技术实力之外,如何融入从国外舶来的开源社区文化,兼顾数据服务的安全性、稳定性和可扩展性都将成为企业用户即将面对的重要课题。

本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
12月前
|
人工智能 分布式计算 大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。
661 0
|
存储 分布式计算 Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
759 79
|
存储 分布式计算 大数据
Flume+Hadoop:打造你的大数据处理流水线
本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统(HDFS)。Flume是一个高可用、可靠的分布式系统,适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程,并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时,还提供了验证步骤,确保数据成功上传。最后,补充说明了使用文件模式作为channel以避免数据丢失的方法。
981 4
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
753 2
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
1126 6
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
524 2
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
675 1
|
存储 分布式计算 资源调度
两万字长文向你解密大数据组件 Hadoop
两万字长文向你解密大数据组件 Hadoop
848 11
|
大数据 网络安全 数据安全/隐私保护
大数据-03-Hadoop集群 免密登录 超详细 3节点云 分发脚本 踩坑笔记 SSH免密 集群搭建(二)
大数据-03-Hadoop集群 免密登录 超详细 3节点云 分发脚本 踩坑笔记 SSH免密 集群搭建(二)
770 5