博鳌直击 | 大数据开发的最大障碍是什么?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

雷锋网3月26日报道,今日第16届博鳌亚洲论坛2017年年会在海南继续进行中。据雷锋网了解,在日前的数据价值分论坛上,腾云天下CEO崔晓波、微软全球资深副总裁洪小文、Palantir副总裁kevin KAWASAKI、联合利华公司前董事长Michael TRESCHOW、平安普惠副总裁兼首席市场官CMO徐汉华、碳云智能CEO王俊参与了主题为“大数据开发的最大障碍”讨论。主持人是上海第一财经传媒有限公司首席顾问张力奋。

以下与雷锋网(公众号:雷锋网)一起围观论坛精彩发言吧:

张力奋:现在大数据开发面临很多障碍,中国地方政府想建设智慧城市,但是要整合政府内部数据源的话,几乎是不可能的事情。如果数据源的问题不解决的话,大数据的开发几乎是无法完成的。

在你们看来,目前是什么阻碍着数据价值开发?最大的障碍在哪?

微软全球资深副总裁洪小文:未来大数据的挑战,一在于政府内部,二是数据安全问题,特别是消费者的隐私权。各公司持有不同的数据,举个例子,信用卡公司有人的消费记录,而买什么是不知道的,但是每一个柜台知道,这些数据是不是可以串起来,但问题是谁有这个权利说这个数据可以用,这牵扯到法律。第三,我担心在数据闭环之后,社会多样性会减少。就像今日头条,你喜欢什么我就多给你一些,难免就囿于这个圈子。所以我们需要倾听不同的声音,比如听分析大数据后那些非主流的意见。不去思考就全盘接受,我认为这可能是未来大数据发展中必须要面对的一个课题。

平安普惠副总裁兼首席市场官CMO徐汉华:今天搜集数据很容易陷入一个局面,强调数据之“大”,忽视了数据的有用性。很多大数据公司与我们合作时表示,他们有很多数据和用户信息,但问题是他们的数据跟我的目标的关系何在,这才是最重要的。

第二点,需要的数据依然短缺,如何收集需要的数据是个问题。比如说中国真正有信用记录不到4个亿,还有许多人没有信用记录。有些互联网公司声称他们有很多客户的数据,这些数据可能会是某人上个礼拜买了双鞋,这礼拜去了肯德基消费,但问题是这些数据对于信贷没有任何的帮助。这背后的逻辑其实与洪院长所说相同。

第三,我很赞同陆金所董事长计葵生先生的观点,他认为数据不是断开的,数据是连接的。断开的数据不足以支持准确的判断,历史数据可以提高准确度,我们需要持续地累积数据,这是让数据更有效的方法。

此外,也是数据安全问题。现在黑客众多,如何保密,如何合法合理地使用数据都是处理数据时需要考虑的问题。

张力奋:Palantir公司是如何解决数据源问题的?你们跟数据源提供者是否有着怎样的共识或者契约?这个问题我想也是中国很多公司面临的问题。

Palantir副总裁 Kevin KAWASAKI:我们不提供数据,也不存储数据,我们帮助客户使用他们自有或者从第三方获取的数据,使之成为重要资产。我们面临的挑战之一就是世界始终在变化,我们不知道明天会有什么样新的数据源,怎样的新问题,所以我们需要不断地适应,要能够不断地整合新生数据到现有的模型当中来,不断解决新问题。

张力奋:我问一下王俊先生,涉及跟个人生命健康有关的隐私问题时,当时的华大基因,现在的碳云智能是如何来收集数据的?有没有你们说的基本准则?

碳云智能CEO王俊:这其中有两个问题需要考量,第一是数据的所有权。比如我们去医院抽血、看病,医院获得了我的数据,那么这个数据是属于医院还是我的?再比如其他健康数据,运动手环,微信运动记步,这个数据是属于微信还是我的?数据所有权的归属非常重要,而毫无疑问数据属于个人,这是我们生命体产生的数据自然归属于个人,这是最基本的权利。

张力奋:从伦理角度来看,这个答案是很清楚的。那从法律角度来说,作为一个普通公民也是数据提供者,我们能够得到法律的保护吗?

王俊:这涉及到第二问题——数据价值。每个人愿意分享数据的意愿和他能获得的价值有很大关系。比如说我已经病入膏肓了,一个药厂表示若我能把数据共享给他们,他们可能开发新药品治愈我。我相信99%的人都愿意共享数据。退一步讲,不说疾病,举个例子问个人是否愿意参与科学研究,而这科研成果会对世人的生活产生长远的影响,很多人可能也会愿意。从我的价值观来说,如果把我的数据放到一个公众的可供科学研究使用的地方,我是非常愿意的。

曾经我在丹麦做过演讲,议题是与会者是否愿意测试基因并贡献个人基因数据。当我第一次问大家分享基因数据是用来看自己的父亲是不是真正的父亲时,举手的不到10%。我问了五次,在第五次举手前我讲了一个案例,全球5%—6%儿童有出生缺陷,基因疾病可能有上万种。比如说渐冻症也是一种基因疾病,有这个基因却不发病的人占拥有这种基因的十分之一,如果把这个人找出来,搞清楚基因,那么就可以找到治愈病人的方法,你愿意不愿意做帮助别人的人,然后所有的人都举手了。所以我觉得事情的做法取决于个人价值观,取决于你用什么方式来对待这个数据。

张力奋:我想问Michael一个问题,在您担任联合利华总裁的时候,你在公司推行怎样的数据政策,哪些能做,哪些不能做?

联合利华公司前董事长Michael TRESCHOW:数据政策肯定是以个人的安全性为第一位,因为数据牵扯到每个人的安全,你必须确保不会泄露任何的个人身份信息。

另外一个越来越重要的事情就是需要区分哪些数据可以自己留着,哪些东西可以分享。开源其实是一个好东西,但从另一个角度来说,在知识产权受数据驱动的现在,特别是我们在研发产品的时候,你要决定哪些是专属的数据,哪些是可以与其他人共享的,这是特别有意思的一点。

第三涉及到跨国情况。不同的国家对于这些事情有不同的看法和政策。比如说医疗方面,在我的国家甚至都不能泄露医院挂号信息,如果说你去了另外一个医院,他们根本都不知道你的病史。所以对我们来说,我们需要找到一个方式,使得立法者、监管者不会特别恐慌,并帮助他们知道,哪些可以分享,哪些不可以分享。譬如工程、艺术等,这是可以分享的。

相关文章:

博鳌直击 | 基于区块链、分布式账本的数字货币是否代表了货币的未来?

博鳌直击 | 大数据在哪个行业最有价值?


本文作者:伊莉

本文转自雷锋网禁止二次转载,原文链接

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之如何开发ODPS Spark任务
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
SQL 存储 分布式计算
ODPS开发大全:入门篇(3)
ODPS开发大全:入门篇
188 19
|
4月前
|
SQL 存储 分布式计算
ODPS开发大全:入门篇(1)
ODPS开发大全:入门篇
450 14
|
4月前
|
SQL 分布式计算 资源调度
ODPS开发大全:进阶篇(1)
ODPS开发大全:进阶篇
392 13
|
2月前
|
SQL 分布式计算 大数据
代码编码原则和规范大数据开发
此文档详细规定了SQL代码的编写规范,包括代码的清晰度,执行效率,以及注释的必要性。它强调所有SQL关键字需统一使用大写或小写,并禁止使用select *操作。此外,还规定了代码头部的信息模板,字段排列方式,INSERT, SELECT子句的格式,运算符的使用,CASE语句编写规则,查询嵌套规范,表别名定义,以及SQL注释的添加方法。这些规则有助于提升代码的可读性和可维护性。
45 0
|
2月前
|
SQL 分布式计算 大数据
大数据开发SQL代码编码原则和规范
这段SQL编码原则强调代码的功能完整性、清晰度、执行效率及可读性,通过统一关键词大小写、缩进量以及禁止使用模糊操作如select *等手段提升代码质量。此外,SQL编码规范还详细规定了代码头部信息、字段与子句排列、运算符前后间隔、CASE语句编写、查询嵌套、表别名定义以及SQL注释的具体要求,确保代码的一致性和维护性。
82 0
|
4月前
|
SQL 分布式计算 MaxCompute
SQL开发问题之对于ODPS中的UNION操作,执行计划的问题如何解决
SQL开发问题之对于ODPS中的UNION操作,执行计划的问题如何解决
|
4月前
|
SQL 分布式计算 MaxCompute
ODPS开发大全:入门篇(2)
ODPS开发大全:入门篇
113 14
|
4月前
|
存储 分布式计算 MaxCompute
构建NLP 开发问题之如何支持其他存储介质(如 HDFS、ODPS Volumn)在 transformers 框架中
构建NLP 开发问题之如何支持其他存储介质(如 HDFS、ODPS Volumn)在 transformers 框架中
|
3月前
|
数据可视化
Echarts数据可视化开发| 智慧数据平台
Echarts数据可视化开发| 智慧数据平台