魔法师与麻瓜,只隔一个大数据的距离

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

魔法师与麻瓜,只隔一个大数据的距离

“大数据”,一个风靡全球的热词。

在中国,“大数据”的背后,除了技术手段和行业的崛起,与其他诸多被热炒的概念一样,泡沫感十足。对此,电子科技大学大数据研究中心主任周涛在接受时代周报记者采访时形象地举例说:“现在,任何一个能够打开excel表格的公司,都号称自己是一家大数据企业。”

到底什么是大数据企业?一千个读者有一千个哈姆雷特。

在周涛的新书《为数据而生:大数据创新实践》中,也没有给出具体的定义。他只列举了或正或反的例子。“中国银行似乎不太像一个大数据的企业,尽管它每天也一样浸泡在海量的数据中”—这是反例;相比之下,Google和阿里巴巴更像大数据企业,除了具有处理大量数据的能力外,“他们有深入的数据分析工具,并会利用数据分析的结果直接指导决策,而且经常推出基于数据分析的创新型应用”。

很多人知道周涛,是从《大数据时代》开始的。这本数年前风靡全球的大数据系统研究先河之作,其中文版的译者就是周涛。2016年1月,周涛和彼时刚刚获得诺贝尔奖的屠呦呦一起,入选“2015年度十大科技创新人物”。颁奖词提到,周涛在大数据挖掘与分析特别是网络数据的挖掘与分析方面,作出了系统性的贡献。

翻译完《大数据时代》之后,2013年起,周涛开始为《为数据而生》的撰写作准备。此间历经三年,大数据在全球范围内的应用出现了新的形式。与《大数据时代》相比,《为数据而生》更着力于介绍大数据领域的创新方法,包含了大量鲜活的大数据企业相应的商业模式和具体创新案例。

在大数据探索方面,中国的优势很明显,即数据的体量庞大。根据中国互联网信息中心发布的《中国互联网络发展状况统计报告》,截至2015年12月,中国网民规模达6.88亿,互联网普及率为50.3%,手机网民规模达6.2亿—美国的网民数量只有约2.8亿。“大数据之父”、《大数据时代》作者维克托·迈尔-舍恩伯格在上月接受《环球时报》采访时指出,“中国和部分西方国家,比如欧洲国家或者加拿大、澳大利亚相比,已经做得很好了。现在世界各国在探索大数据方面都还处于比较早期的阶段,这对于中国而言,也是一个非常好的机会。”事实上,随着百度、阿里巴巴、腾讯等国内互联网巨头公司在数据搜集方面的优势放大,这些公司正逐步开启国内的大数据应用,并各自在相应的“大数据”战略上下足了功夫。

但周涛认为,中国距离“大数据时代”还有很远的路要走。“我们目前并未形成有重大社会经济价值的大数据应用产品,并未实质性推动大数据相关传统产业的转型升级,并未为国家重大战略提供有重要价值的决策建议。”

在国内,目前,80%的数据由政府掌握,而私人公司之间的数据分享也非常有限。此外,在数据搜集方面,中国仍面临技术难题。“在中国,一些公司成长的速度非常快,但它们过于关注自身成长,并没有投入到搜集数据的基础设施建设当中。”舍恩伯格如此表述。

忽视大数据发展的国家将很难面对下一个时代的生存和发展。据国际数据公司预测,未来三年内,全球范围内“大数据”和商业分析等相关行业收入将增长到1870亿美元以上。IBM指出,全球每天有2.5万兆字节的数据添加到其日常的数据池里。这些数据来源各不相同,从天气监测传感器、社交媒体网站到数字图像和视频、在线交易以及移动电话……

“在下一个时代,自动化、定量化和个性化会成为主要的特征……拥有大数据的理念,能够掌握数据和运用数据的人,就是下一个时代的魔法师,反之,你就成了麻瓜!”在《为数据而生》的序言中,周涛写道,“即便你不能掌握一项特定的数据技术,了解大数据的理念、培养大数据的思维模式,也是非常重要的—不管你从事什么工作。”

阿里,真正的大数据企业

时代周报:你翻译过《大数据时代》,现在自己又写了一本关于大数据的书。《为数据而生》在观点上与《大数据时代》有什么区别或特点吗?

周涛:《大数据时代》一书,主要是介绍“大数据”本身与曾经的数据分析、数据统计有什么理念上的区别。在书里,舍恩伯格提出了“更多关注关联而非因果”“全体数据分析取代抽样分析”“使用模糊数据而非精准数据”等观点。而我的这本《为数据而生》一书,没有着力讲大数据概念,在介绍了大数据发展的主要驱动力之后,把叙述的重点放在了大数据领域中层次递进的创新方法上,并将其分为分析、外化和集成的三个阶段,并对各阶段相应的商业模式以及具体的创新案例进行了阐述和分析。

时代周报:什么才是真正的大数据企业?你列举了阿里和谷歌作为正面榜样。阿里在大数据方面的优势在什么地方?

周涛:阿里在大数据方面的优势有三点:它的业务产生了大量的数据;它自身具有非常强的数据存储、分析和应用的能力;它的数据分析结果可以直接应用于自身业务,所以有很畅通的数据变现的渠道。

对于很多希望成为大数据的企业而言,这三个优势应该是具有普适的启发意义的。

时代周报:建设大数据创新工厂是你的一个设想。这一设想在目前实现的可能性有多大?主要障碍在什么地方?

周涛:具体的可能性有多少,很难量化,但是我感觉非常困难。事实上,如《为数据而生》一书中所述,我们已经开发了icloudunion这个以“开放数据挖掘能力,降低将数据转化为价值的技术门槛”为使命的平台,但是这离我所希望的大数据创新工厂还很远。我觉得目前最大的障碍是,一般的企业,缺乏将业务上遇到的大问题剖析分割成几个主要数据挖掘问题的能力,这使得针对不同企业的数据挖掘服务,定制化程度非常高。反过来来说,企业也没有办法通过创新工厂提供的一些标准化服务来解决自己的问题。

大数据将颠覆哪些行业?

时代周报:在书中,你认为大数据对科技尤其是半定量的科学改变巨大。为什么这么说?

周涛:社会学、管理学、心理学等,是我所认为的半定量的学科。这些学科的一些理论是基于定性的分析,没有数量化的支持,因此严格来说不算科学的范畴。另外,一些定量化的结果,往往也是通过对少量的案例分析或针对一小部分人(往往是几十人到几百人)进行问卷调查、量表填写或行为实验得来的,这些其实都是“小数据”。

现在,我们利用大数据的方法,可以在不干预个人生活工作的前提下,获得数千万甚至数亿人的真实行为数据,这些数据的分析,可以验证或者证伪很多已知的经验理论,并且从根本上改变原来这些半定量学科方向的研究思路和研究方法。事实上,最近国际上已经有一些学者(中国也是其中一支不可小觑的力量)开始提出计算社会科学的理念和方法论。

时代周报:未来,哪些传统行业被大数据改变的机会较大?

周涛:我认为是工业—主要是指制造业,还有农业、医疗健康及生物行业。

时代周报:你在书中详解列举了成为大数据企业的措施,在这八个步骤中,哪一步是目前中国企业最缺失或薄弱的?

周涛:大部分企业,八个步骤都缺失。其中,第二步“整理数据资源,建立数据标准,形成管理规范”和第七步“推动自身数据的开放与共享”最为关键。因为只有数据流通起来,才能产生价值,第二步和第七步就是制约因素。这两步解决了,解决其他问题的动力就会自动出现了。

时代周报:有观点认为,我们身边每天都会产生大量数据,但是目前缺乏强大的IT技术基础作为支撑,将这些数据有效收集起来,并加以“净化”和有效利用。你同意这个观点吗?

周涛:我同意这个说法。我认为中国现在还没有进入到所谓的“大数据时代”。事实上,迄今为止,总体上来说,中国并未形成有重大社会经济价值的大数据应用产品,并未实质性推动大数据相关传统产业的转型升级,并未为国家重大战略提供有重要价值的决策建议。这里主要的障碍,是大数据创新的四个关键要素即“核心需求”“原始数据”“关键技术”“顶尖人才”互相分离。
本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
监控 算法 测试技术
性能优化之几种常见压测模型及优缺点 | 陈显铭
上一篇讲的是《性能优化的常见模式及趋势》,今天接着讲集中常见的压测模型。通过上一章我们大概知道了性能优化的一些招式,但是怎么发现有性能问题,常见的模式还是需要压测。
5974 0
|
6月前
|
人工智能 算法 Serverless
《主动式智能导购AI助手构建》解决方案用户评测
在部署体验过程中,官方提供的详尽文档和图表帮助新手轻松上手,但环境变量设置等问题仍需改进。解决方案采用Multi-Agent架构,百炼大模型实现精准推荐,函数计算优化响应速度。生产环境部署指导全面,但仍需加强异常处理和面向新手的教学资源。整体架构清晰高效,建议完善数据流描述及Router Agent算法逻辑的阐述。
168 10
《主动式智能导购AI助手构建》解决方案用户评测
|
9月前
|
存储 安全 开发者
C 标准库 - <string.h>详解
`&lt;string.h&gt;` 是 C 标准库中用于处理字符串的头文件,提供了复制、拼接、比较、查找等操作。常用函数包括 `strcpy`、`strncpy`、`strcat`、`strncat`、`strlen`、`strcmp`、`strncmp`、`strchr` 和 `strstr`。此外,还提供了辅助函数如 `memcpy` 和 `memset`。这些函数帮助开发者有效处理字符串,构建更强大的 C 程序。注意事项包括确保目标数组空间足够、正确处理 null 结束符,并使用安全版本函数减少风险。
530 11
|
弹性计算 安全 数据安全/隐私保护
阿里云ECS服务器被植入挖矿木马解决过程分享
阿里云ECS服务器是目前很多网站我们在使用的,但是如果安全做的不够好,有时候就会被植入木马,例如我们有时候会收到阿里云的短信提醒,提醒服务器存在挖矿进程,请立即处理的安全告警。 出现这种情况往往网站都无法正常的打开,卡的连服务器SSH远程连接都进不去,给我们造成了很大的影响。
11432 0
|
测试技术 开发者
「阿里开发者」微信公众平台双月阅读排行榜来袭!
更多优质技术内容,请关注「阿里开发者」微信公众平台!
1506 7
「阿里开发者」微信公众平台双月阅读排行榜来袭!
|
SQL Oracle 关系型数据库
Java学习路线-41:数据库及SQL/MySQL基础
Java学习路线-41:数据库及SQL/MySQL基础
365 0
Java学习路线-41:数据库及SQL/MySQL基础
网站支付宝登录
网站支付宝登录是适用于网站页面进行授权。 一、文档地址 官方文档地址:[url]https://docs.open.alipay.com/263/105809[/url] 二、开发前准备工作 调用步骤:[url]https://openclub.alipay.com/read.php?tid=12194&fid=69[/url] 注意事项:1、支持沙箱测试;2、不需签约,但需要添加功能;3、支持第三方调用。
1671 12
|
监控 安全 架构师
企业面临的10大物联网安全风险及应对策略
2020 年,随着 5G 部署持续推出,攻击也将接踵而至。
|
关系型数据库 数据库 PostgreSQL
Postgresql pg_dump&pg_restore用法
PostgreSQL提供的一个工具pg_dump,逻辑导出数据,生成sql文件或其他格式文件,pg_dump是一个客户端工具,可以远程或本地导出逻辑数据,恢复数据至导出时间点。pg_dump 一次只转储一个数据库, 并且不会转储有关角色或表空间的信息 (因为那些是群集范围而不是每个数据库)。
11830 0