大数据产业发展的国际经验

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

中国发展大数据产业需要拓展国际视野,借鉴国际经验, 他山之石,可以攻玉。

2012 年被认为是大数据元年。在这一年,美国奥巴马政府推出了《大数据研究和发展计划》,启动了美国国家大数据战略;用户日志管理公司 Splunk 成功上市,成为大数据第一股。在随后的几 年中,大数据风潮席卷全球,技术、资本、人才趋 之若鹜,大数据产业出现了一波脉冲式的发展。从全球经验来看,企业是大数据应用创新的主要力量,政府为大数据产业发展提供了巨大支撑,开源社区则为大数据技术进步营造了广阔空间。但是,与此 同时,鼓励数据价值发现之“鱼”和保护个人隐私之“熊掌”两者不可兼得的法规矛盾变得越来越突出。

经济层面

创造价值是大数据应用创新的源动力

利用大数据资源和技术创造更多价值,成为企业 开展大数据应用创新的源动力。围绕既有的资源禀赋和竞争优势,企业进行着各种大数据产业创新,探索 出大数据背景下适合企业自身发展的路径。

一方面,传统IT硬件厂商积极向大数据基础设 施和大数据技术平台服务提供商转型。根据美国专 业分析机构Wikibon发布的报告,IBM公司2013年从大数据相关产品及服务中获得了13.68 亿美元收益。其具体产品包括服务器与存储硬件、数据库软件、 分析应用程序以及相关服务,还有 DB2、Informix、 InfoSphere 数据库平台,Cognos 与 SPSS 等大数据 分析应用类产品。惠普公司在2013年获得的大数据营业收入总值为8.69亿美元,它还提供与之相关 的硬件、软件以及服务,其中最为知名的方案当数 Vertica 分析平台。

另一方面,诸多新型互联网企业成为数据资源的集聚方,通过创新形成大量的数据产品服务于各类应 用场景。比如,eBay公司用数据驱动商业,其所有的 数据产品都是针对业务而生,数据部门需要对不断变 化的用户需求找到解决之法,也就是从客户的行为数据中寻找更多新价值。eBay公司针对卖家工具提供的 Seller Hub,可以对每一位卖家进行深入分析,使卖家了解哪些商品更畅销,产品如何标价才能具备竞争 优势等。再比如,Salesforce公司是一家专注于CRM

(用户关系管理)的公司,通过对用户数据分析挖掘 形成新的价值,是大数据在精准营销领域的典型应用。 Salesforce公司在2015年的营业收入超过50亿美元。

据大数据行业分析师估计,到2020年,Salesforce公司有望成为一家市值达 1000 亿美元的公司。

技术层面

开源社区是大数据技术进步的大生态

开源模式成为大数据技术创新的主要途径。从大数据技术的发展历程上可以看出,大数据核心技术如分布式存储、云端分布式及网格计算均依赖于开源模式,即通过开放式的平台,吸引全球开发者通过开源社区进行代码的开发、维护和完善,从而集全球智慧推动大数据技术的不断进步。当前,全球各大企业 加大了对开源社区的赞助和智力投入,开源社区在大 数据技术进步中占据核心地位。

一方面,由第三方打造的大数据技术开源平台 发挥了积极作用。Apache 软件基金会(ASF)是推动大数据技术发展的全球顶级开源社区。ASF 正式创建 于 1999 年,至今已经成功孵化了众多大数据相关的 开源项目。ASF 大数据开源社区的创建过程是全球 大数据技术公司的集体智慧。其中,Apache Hadoop 技术的发展就是非常典型的例子。谷歌公司在 2003 年发布的关于谷歌文件系统(Google GFS)的论文 和 2004 年发布的关于编程模型 MapReduce 的论文是 Hadoop 的技术雏形。2005 年, 雅虎公司启动了 Nutch 项目,提供了一个专门的团队和资源将 Hadoop 发展成一个可在网络上运行的系统。到 2008 年 1 月, Hadoop 已成为 Apache 的顶级项目,并成为大数据发展的技术标准。

另一方面,大数据领先企业也在围绕自身生态 打造技术开源社区。这些企业通过开源项目的方式推动技术创新,并将创新成果通过开源方式向全社会辐 射,引导和推动大数据技术的发展,在国际上逐渐形成了一套高效运转的研发产业化体系。开源提供了一 种高效生产软件的方法,降低了企业进入大数据应用服务市场的壁垒,催生更多技术和服务应用的创新。 比如,Facebook 公司于 2013 年 11 月开源了 Presto 技术,该技术是新型分布式 SQL 引擎,它能够对各 种大小(从 GB 级至 PB 级)的数据源进行交互式的 分析查询。2015 年,Presto 社区的代码提交数量提 高了 48%, 而 fork 的数量则提高了 99%。Airbnb、 Dropbox、Netflix 等各大公司都开始使用 Presto 作 为交互式查询引擎。

Presto 在全球范围内的接受度也在逐步提高,包括来自日本的社交媒体游戏开发公司 Gree,以及来自中国的电子商务公司京东都在使 用该技术。

政策层面

政府战略是推动大数据产业发展的重要保障

完善的政策是当前大数据先行国家推广大数据应用的重要保障。在政府大数据战略部署和政策推动下,发达国家的政府部门、企业、高校及研究机构都开始 积极探索大数据的应用。美国政府和欧盟成员国家都对大数据发展持积极态度,但具体策略有所不同。

美国的大数据战略重在“以点带面”,通过公布重要部门的大数据项目规划,扶持重要领域的大数据技术研发,带动其他部门和社会各界对大数据技术的研发投入和推广应用。2009 年,美国国家科学技术委员会(NSTC)发布了《开发数字数据的威力》报告, 初步提出了发展大数据的框架、建议和目标。2012 年 3 月,奥巴马政府宣布启动《大数据研究和发展计划》,投入 2 亿美元进行大数据相关技术的研发。2013 年 5 月,奥巴马政府发布行政命令,加大政府 数据开放力度,以便更加有效地利用宝贵的公共数据 资源。2014 年 5 月,白宫行政办公室与总统科技顾 问委员会(PGAST)联合发布报告《大数据:抓住机遇, 保护价值》,从政策角度分析了大数据技术的发展对社会带来的巨大影响。2016 年 5 月,白宫又发布了《联邦大数据研发战略计划》报告,在已有基础上提出美国下一步的大数据发展战略。通过一系列的政策措施,美国大数据战略形成了跨部门协同工作的机制。具体工作由 NSTC下设的“网络与信息技术研发计划”(NTTRD)分委员会负责,并专门设立跨部门高级别 协调工作组,参与部门多达 15 个,2016 年的工作预 算达到近 3 亿美元。

欧盟则强调政府“铺路打基础”的作用,突出政府在人才培养、基础设施建设、资金扶持、项目规划、合作环境搭建中的基础保障作用。2012年9月,欧盟进一步公布了《释放欧洲云计算服务潜力》战略方案,并向欧盟委员会和欧洲议会提交了《云计算发展战略及三大关键行动》建议。该战略计划通过两年时间,把欧盟打造成云计算服务的领先经济体,为 2014—2020年欧盟“云起飞”创造基础,让大数据技术革命渗透到经济社会的各个领域。到 2020 年,大数据技术为欧盟创造的GDP将达到9570 亿欧元, 增加就业人数 380 万。2015 年以来,欧盟力推的《数据价值链战略计划》旨在用大数据改造传统治理模式,大幅降低公共部门成本,并促进经济和就业增长。这一计划的重点是培育一个连贯的欧洲数据生态系统,促进围绕数据的研究和创新工作,采用数据服务 及产品,采取具体行动,改善数据价值提取的框架条件,包括基础能力、基础设备、标准以及有利的政策 和法规环境。目前,欧盟正在制定一系列重点行动计划,解决数据价值链中与价值创造相关的大量交叉 问题。数据价值链战略计划包括开放数据、云计算、高性能计算和科学知识开放获取四大战略。

法规层面

隐私保护是大数据产业发展的难掩之伤

当前,各国对大数据产业创新给予支持的同时, 未能形成明确的监管法律来确定个人隐私在大数据时代的法律边界,这造成了大数据行业发展的法律 监管“灰色地带”。一方面,以数据驱动的经济发展模式是各国所向往的新经济形态,鼓励数据开放是 “鱼”;另一方面,数据价值挖掘背后是对个人隐私权不同程度的侵犯,呼吁保护隐私是“熊掌”。但是, “鱼”和“熊掌”不可兼得。因此,我们经常看到,各国政府在制定和实施隐私保护法规的时候,往往会 出现时紧时松、左右摇摆的现象。

美国是非常尊重个人隐私的国家,最早提出隐 私权概念,同时也是世界上互联网络技术最为发达的国家,大力倡导网络信息自由。1966 年颁布的《信息自由法案》要求充分实现信息公开和开放,让公民 有足够的知情权;1986 年通过的处理网络隐私权保 护问题的重要法案《联邦电子通讯隐私权法案》强调对个人隐私的保护。多种法律法规对行为主体的适用性会出现不一致的情况,所以美国政府砸保护网络隐私方面更偏重于采用行业自律的模式。在“9 11”事件之后,尤其是“棱镜门”事件之后,美国政府加强了对网络信息的管控,直到大数据产业兴起,网络数据管控才有所放松。随着以数据驱动的新经济模式的发展,个人数据隐私被侵犯的问题变得越来越严重。奥巴马政府时期,联邦通信委员会(FCC)颁布了《网络用户个人隐私保护法案》,不允许网络服务提供商(ISP)在未经用户同意的情况下买卖用户的个人数据信息。但是,2017 年 3 月 28 日,美国众议院票决宣布废除《网络用户个人隐私保护法案》。这标志着美国互联网政策将发生急剧变化,政策摇摆现象展现得淋漓尽致。不过,也有人将此解读为商业巨头的博弈,因为此次联合决议授权 ISP 进入原来由谷歌公司 和 Facebook 公司占据主导地位的在线广告市场。

欧盟在隐私保护方面更为保守,倾向于制定和 执行较为严格的隐私保护法规。 欧盟 1995 年通过了《数据保护指令》,为欧盟成员国立法保护个人 数据设立了最低标准。其后,2002 年颁布的《隐私与电子通信指令》要求网站告知用户启用 Cookie 及如何删除或作废 Cookie。2009 年颁布 的《欧洲 Cookie 指令》则要求网站在用户初始使用时必须关闭 Cookie,直到用户明确同意启用 Cookie 时才能 开启此功能。2015 年 12 月,欧盟执委会(European Commission)通过了《一般数据保护条例》(GDPR),以欧盟法规的形式确定了对个人数据的保护原则和 监管方式。值得一提的是,《一般数据保护条例》还 提出了“被遗忘权”(Right to Be Forgotten), 即个人可以要求搜索引擎从包含“不相关”或者“过 期”个人信息的结果里移除链接。这种法律拘束性判决现在不仅是欧盟法律的一部分,还延伸到覆盖各种 类型的个人数据。比如,个人可以要求 Facebook 公司删除个人账户以及所有自己的活动相关的数据。

纵观全球大数据产业,当前尚处于初级阶段。 对于中国大数据产业来说,政府的战略支持和企业创新能力都已经具备,但还没有形成成熟的大数据技术 开源社区。此外,为了保障大数据产业的有序规范发展,相应的法律法规也是必不可少的。





本文出处:畅享网
本文来自云栖社区合作伙伴畅享网,了解相关信息可以关注vsharing.com网站。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
机器学习/深度学习 人工智能 算法
实用!50个大厂、987页大数据、算法项目落地经验教程合集
大数据、算法项目在任何大厂无论是面试还是工作运用都是非常广泛的,我们精选了50个百度、腾讯、阿里等大厂的大数据、算法落地经验甩给大家,千万不要做收藏党哦,空闲时间记得随时看看! 如果你没有大厂项目经验,对大厂算法、大数据的项目运用不了解建议你看看!
|
机器学习/深度学习 算法 大数据