发展大数据还有啥问题:数据孤岛、技术差距、人才短缺

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

近日,在有关部门的调解之下,菜鸟和顺丰的“数据断交”事件总算告一段落,双方经过紧急会谈后,再次恢复了数据传输合作,算是和平解决。这次事件暴露出了大数据发展中的数据共享难题,但只是大数据种种问题的冰山一角。当前,我国大数据产业正处于起步阶段,信息孤岛、技术不足、人才缺失等都成为产业发展中亟待解决的大问题。



数据孤岛问题突出

“巧妇难为无米之炊。”大数据的基础在于数据,数据的生命在于共享,拿不到底层的数据,数据分析也就无从谈起。如今,数据孤岛林立、融合困难,已经成为政府与企业面前的首要难题。

“第一个问题就是没数据,理论上我们中国有很多数据,但实际做数据分析会发现非常困难。”中国科学院院士、北京大数据研究院院长鄂维南表示,数据孤岛是一个严重的问题,不同部门的数据储存在不同地方,格式也不一样。大数据最高的层次就是用数据来形成智慧,使得社会各方面可以运转起来。做数据分析先要整合数据,这本身就是研究的困难。

由于政府部门之间、企业之间、政府和企业间信息不对称、制度法律不具体、缺乏公共平台和共享渠道等多重因素,导致大量政府数据存在“不愿公开、不敢公开、不能公开、不会公开”的问题,而已开放的数据也因格式标准缺失无法进行关联融合,形成孤岛。

缺乏动力和担心安全是阻碍数据共享的另一个主要原因。贵阳大数据交易所执行总裁王叁寿透露,不少企业以保护商业机密或节省数据整理成本等为理由,不愿意交易自身数据。部分政府部门也缺乏数据公开的动力:有的是因懒政而让数据沉睡,有的则是已经利用数据开展商业化应用,因此不愿共享。

“数据孤岛的痛不是技术问题,是利益问题,背后隐藏的利益导致了数据孤岛的产生。”鄂维南坦言。

对于如何打通数据孤岛,工信部赛迪研究院软件所所长潘文建议,要建立完善大数据发展协调机制,加快政府数据开放共享,稳步推动公共数据资源开放。同时,统筹规划大数据基础设施建设,推动制定公共信息资源保护和开放的制度性文件,并加强大数据标准化顶层设计,逐步完善标准体系。

在数据共享的路上,2015年成立的贵阳大数据交易所已经做出了成功的尝试。王叁寿表示,若想打通城市现存的信息壁垒,就要让城市多方资源联动起来,搭建城市数据共享的平台,从而激活大数据价值,充分发挥数据资源整合的优质效应,用信息化手段辅助科学决策。


底层技术差距很大

即便解决了数据共享问题,数据可供随时取用,数据的采集和分析仍是主要挑战。微软大中华区董事长兼CEO柯睿杰认为,数据智能并非那么触手可及。大数据来源众多、数量巨大、形式各异,要从中获得一目了然的信息,就需要真正高效、可靠的数据管理和分析平台。

如何处理巨量数据是中国大数据产业面临的首要技术问题。鄂维南表示,“中国的数据体量特别大,比如,中国的视频比任何国家都要多,这些数据储存困难,需要用的时候往往就没了”。再以基因测序领域为例,中国每年新增的基因组测序原始数据超过20PB(1PB相当于100万GB),面临着数据量大、数据处理流程长等技术挑战。

另一方面,数据分析本身也是一个难题。大数据中,绝大部分属于非结构化的数据,它们大量存在于社交网络、互联网和电子商务等领域,这些数据的不确定性表现在高维、多变和强随机性等方面。股票交易数据流就是不确定性大数据的一个典型例子。这些都需要通过包括数学、经济学、社会学、计算机科学和管理科学在内的多学科交叉来研究和讨论。

目前,我国大数据技术创新能力还有待提升。《大数据产业发展规划(2016-2020年)》指出,我国在新型计算平台、分布式计算架构、大数据处理、分析和呈现方面与国外仍存在较大差距,对开源技术和相关生态系统影响力弱。同时,大数据应用水平不高。我国发展大数据具有强劲的应用市场优势,但是目前还存在应用领域不广泛、应用程度不深、认识不到位等问题。

“虽然我们在应用上不落后国外,但是在底层技术上和国外差距特别大,技术都来源于谷歌等国外大公司。”国务院发展研究中心信息中心研究处处长李广乾说,很多时候我们的商业模式走在了技术前面,并没有通过技术手段来推动创新。

对此,潘文表示,国家层面要支持大数据共性关键技术研究,加强海量数据存储、数据清洗、数据分析发掘、数据可视化等领域关键技术攻关,并支持自然语言理解、机器学习、深度学习等人工智能技术创新。


专业人才短缺严重

近年来,我国大数据产业发展进入爆发期,由于成熟的人才培训体系尚未建立,直接导致人才短缺的问题日益突出。“我们面临的最严重的问题就是应用场景和人才的问题,应用场景的问题是需要时间,人才问题是我这么多年来碰到的最严峻的问题。”鄂维南说。

人才不足限制了大数据产业创新发展的成效。清华大学计算机系教授武永卫透露的数据显示,未来3至5年,中国需要180万数据人才,截至目前,中国大数据从业人员只有约30万人。LinkedIn(领英)发布的《2016年中国互联网最热职位人才报告》则显示,数据分析是当下中国互联网行业需求最旺盛的6类人才职位之一。

同时,大数据行业选才的标准也不断变化。初期,大数据人才的需求主要集中在ETL研发、系统架构开发、数据仓库研究等偏硬件领域,以IT、计算机背景的人才居多。随着大数据往各垂直领域的延伸发展,对统计学、数学专业的人才,主要从事数据分析、数据挖掘、人工智能等偏软件领域的需求加大。

在高端人才稀缺的现实情况下,企业多选择从海外和传统行业挖掘跨界人才,但仍然无法满足国内市场的大量需求。针对大数据人才供应不足的现象,各种培训机构和各大高校也开始强化大数据人才的培养。但培养大数据人才需要时间,在短期内对于大数据领域的高端人才仍然会呈现出供不应求的现象。

值得注意的是,今年3月份,教育部公布了第二批获准开设“数据科学与大数据技术”的高校名单,加上第一批获批的北京大学、对外经济贸易大学、中南大学,一共35所高校获批开设该专业。今年开始,部分院校将招收第一届大数据专业本科生。

对于大数据人才建设,潘文表示,要建立适应大数据发展需求的人才培养和评价机制,并建立健全多层次、多类型的大数据人才培养体系。同时,还要完善配套措施,培养大数据领域创新型领军人才,吸引海外大数据高层次人才来华就业、创业。





本文出处:畅享网
本文来自云栖社区合作伙伴畅享网,了解相关信息可以关注vsharing.com网站。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
13天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
105 7
|
13天前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
29 2
|
15天前
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
55 2
|
17天前
|
存储 分布式计算 NoSQL
【赵渝强老师】大数据技术的理论基础
本文介绍了大数据平台的核心思想,包括Google的三篇重要论文:Google文件系统(GFS)、MapReduce分布式计算模型和BigTable大表。这些论文奠定了大数据生态圈的技术基础,进而发展出了Hadoop、Spark和Flink等生态系统。文章详细解释了GFS的架构、MapReduce的计算过程以及BigTable的思想和HBase的实现。
|
10天前
|
存储 大数据 数据管理
大数据分区简化数据维护
大数据分区简化数据维护
18 4
|
11天前
|
机器学习/深度学习 存储 大数据
云计算与大数据技术的融合应用
云计算与大数据技术的融合应用
|
17天前
|
SQL 存储 算法
比 SQL 快出数量级的大数据计算技术
SQL 是大数据计算中最常用的工具,但在实际应用中,SQL 经常跑得很慢,浪费大量硬件资源。例如,某银行的反洗钱计算在 11 节点的 Vertica 集群上跑了 1.5 小时,而用 SPL 重写后,单机只需 26 秒。类似地,电商漏斗运算和时空碰撞任务在使用 SPL 后,性能也大幅提升。这是因为 SQL 无法写出低复杂度的算法,而 SPL 提供了更强大的数据类型和基础运算,能够实现高效计算。
|
20天前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
43 3
|
20天前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
52 2
|
23天前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
68 2
下一篇
无影云桌面