大数据视角下的API经济

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

3月28-29日,在工业和信息化部的指导下,为期两天的“2017大数据产业峰会”在北京国际会议中心召开。本次会议由中国信息通信研究院和中国通信标准化协会共同主办,数据中心联盟大数据发展促进委员会承办,旨在宣贯和解读《大数据产业发展规划(2016-2020年)》,支撑大数据国家战略落地,展示大数据产业发展成果,探讨发展面临重大问题,推动产业交流与合作。北京大学软件研究所副所长黄罡在28日上午的《大数据产业发展规划(2016-2020年)》宣贯会上发表了题为《大数据视角下的API经济》的演讲。

 大数据视角下的API经济

黄罡教授在大数据产业峰会上做主题演讲

以下为现场演讲实录:

今天上午邬院士讲了以数据集为核心的大数据共享开放、流通交易环节产生的种种弊端,但是我们放眼看世界,以美国为代表的数据开放流通共享交易几乎都不是以数据集为核心,而是以API也就是应用程序编程接口为核心。今天我跟大家分享的主题是大数据视角下的API经济是怎么回事。

API经济是针对APP的,APP是手机里的应用,移动互联网出现以后,所有移动互联网的产业价值和用户价值都是以APP来体现的。但是我们知道,在iOs平台上的APP过100万种以后,95%以上的应用已经变成了僵尸应用。美国由此产生新的应用分发模式API,就是开发者根本不用再花心思开发一个APP,然后在应用商店上大力推广,大家要做的事情是把自己的业务做好,把业务以API的方式开放出去,别人会在他们的应用里面集成对应的API:不管是微信还是Facebook,不管是电商还是采购软件都会集成我们的API,只要我们的业务功能有价值,我们的数据就有价值。

 大数据视角下的API经济

我们可以看这张统计图,推特的API每天会有150亿调用,这些API调用并不是通过推特的APP实现的,谷歌每天API的调用次数也超过100亿次,当然还有美国其他的一些例子。我们可以看到,越来越多APP的功能其实不是通过打开应用使用的,而是通过API来实现。

当然大家要问了,为什么要把API开放出来?从大数据领域得到了什么?越来越多的人可以看到,我们的API开放之后,随着用户对API的调用,会得到用户对业务的诉求,从而可以对业务进行优化。所以当今不管是微软、谷歌还是Facebook,他们人工智能的核心业务模式有两点,一是开源,二是开放API。开放API之后,随着用户对API的调用,可以得到所有的客户应用请求,从而进一步优化算法,推动产品发展,这就是我们的API经济。

API应用模式有两种,第一种是对外提供API,第二种模式就是应用集成。大家可以看到当今的Top应用里,微信2015年就已经集成了583个第三方应用的API,包括滴滴打车、大众点评等,我们根本不用在手机里一一打开那些APP,在微信、淘宝里就可以打开。美国亚马逊的Echo,最顶层的应用是定时、播放音乐、帮我读新闻、帮我开灯关灯、帮我调温控等,Echo把家庭智能服务以及移动互联网上的APP以API的方式塞到了音箱里面,以语音交互的方式给用户,这是我们看到的第二个趋势。

 大数据视角下的API经济

API很像当年的网站,应用集成很像当年的门户,自然而然我们可以想到应该有搜索引擎存在,而且这块正是我个人要呼吁的。大家都在说苹果不创新了,国内的手机厂商说今天干掉苹果明天干掉谁,大家可以看看,苹果在2015年10月推出的iOS9之后,在通知栏已经可以让我们收到苹果自己的应用。2016年8月份iOs10已经实现第三方APP应用类数据或者API的搜索。以上图片是我们的截屏,在手机里搜美食就可以把美团搜出来,是美团里的数据,不是美团APP。谷歌在数据API上走得较慢,苹果是成功的,谷歌去年10月份推出的手机里面Google Assistant有类似苹果的搜索功能。

大数据视角下的API经济

API真正遇到什么问题呢?最大的问题就是数据孤岛的问题,就像今天陈部长、谢司长说的,越来越多的数据是从移动设备、物联网设备产生的,这些数据不是网站可以用爬虫公开爬到的。今天上午邬院士讲了很多数据开放共享流通的问题,API经济能解决类似的问题,以应用为驱动的方式。

那么应该如何解决数据孤岛问题?据我们对国内一流大企业调研,打开一个典型的政府和央企的信息孤岛要花费数百万人民币,而且这里面从数据开放流通的角度来看,最大的问题是应用开发商成了关键角色,但这个关键角色不合理,因为在大数据里面真正关键角色是数据的产生者和运营者,跟开发商没关系。就像iOS和谷歌,后端数据不好拿,中间逻辑层重构太难,重点就是我们在前面的讲过的,在表现层通过智能感知把数据拿出来,具体的技术就不展开说了,总而言之,这套技术目前除了斯坦福等顶级高校之外,也就是iOs里面有一点。

北京大学从2003年开始做类似的研究,经过十几年研究,得到现在的成果,就是打破APP的边界,在各个不同的APP之间跳来跳去,再也不用关心接下来的APP是要去打车要去订餐,全部可以给你打通。

 大数据视角下的API经济

接下来是邬院士反复强调的,就是数据的安全问题,现在我们通过APP搜索平台搜索到大量的个人数据,然后卖给了别人:在淘宝里的一双鞋在今日头条马上给你推,我们每个人都被边缘化甚至都被忽视掉,没有数据的人权。而利用我们这套API技术则可以解决其中的安全问题,这是我们做的demo程序,你可以看到在你的手机上有什么数据,第一你知道你的数据在哪个地方,第二你也可以知道每天在这些APP里产生了哪些数据,第三只要你授权,我们可以帮你把所有的产生的数据进行优化整合。

 大数据视角下的API经济

这样达到一个什么好处呢?我们解决了数据开放共享流通里个人的问题,第一每个人本身是有权利而且确实知道个人产生的数据在什么地方,第二可以通过API的方式可以把数据取出来,当然我们不能阻止APP厂商使用,因为你跟它签了和约,但是这个数据本身是属于你,但是此前是因为APP根本不提供任何方式让你把数据拿出来,所以数据根本不能使用,而采用我们这一套技术就可以实现个人对数据的掌握。最后你也可以进一步的利用加工,所有这些东西全是在你个人的手机上,永远不会上网,这样就极大保护了个人的隐私,当然这套数据人权保护合不合理、能不能成功,我不知道,我们只是从学术上提供一个可能的探讨思考。

 大数据视角下的API经济

我们同时也在帮政府和企业做了燕云DAAS平台,政府和企业信息系统里的数据全部是政府和企业的,但是今天真正要把它开放的时候,往往受制于系统的开发商和很多其他的因素,这样就给数据开放带来了极大的问题。燕云DAAS提供了API的方式,以API的方式把数据开放出去,可以做到流程可控、来源可溯。

北京大学花了十几年时间,在这套系统软件上做了一套东西,我们希望把互联网、移动互联网以及物联网等分布在各个系统里的数据,在数据拥有者授权的情况下帮它开发出来,帮它进行流通、进行共享,这是一套大的生态,北京大学希望跟产学研各界和政府合作,共创中国特色的而且是领先的API经济。

原文发布时间为:2017年4月1日
本文作者:北京大学软件研究所副所长 黄罡 
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
消息中间件 NoSQL Kafka
大数据-52 Kafka 基础概念和基本架构 核心API介绍 应用场景等
大数据-52 Kafka 基础概念和基本架构 核心API介绍 应用场景等
62 5
|
1月前
|
分布式计算 Java 大数据
大数据-147 Apache Kudu 常用 Java API 增删改查
大数据-147 Apache Kudu 常用 Java API 增删改查
32 1
|
4月前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之使用API调用ODPS SQL时,出现资源被定时任务抢占,该怎么办
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
分布式计算 DataWorks API
DataWorks产品使用合集之使用REST API Reader往ODPS写数据时,如何获取入库时间
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
分布式计算 大数据 Go
MaxCompute操作报错合集之使用go sdk调用GetTunnelEndpoint出现报错:InvalidAction.NotFoundSpecified api is not found,该如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
4月前
|
分布式计算 DataWorks 大数据
MaxCompute产品使用合集之DataWorks中如何根据MC数据源做成api
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5月前
|
Java 大数据 API
【大数据】HDFS、HBase操作教程(含指令和JAVA API)
【大数据】HDFS、HBase操作教程(含指令和JAVA API)
148 0
【大数据】HDFS、HBase操作教程(含指令和JAVA API)
|
5月前
|
SQL DataWorks 监控
DataWorks操作报错合集之在调用数据服务API时返回的错误码是"ODPS-0410051",并且错误信息提示"Invalid credentials - accessKeyId not found",该怎么办
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
103 0
|
5月前
|
机器学习/深度学习 分布式计算 大数据
MaxCompute产品使用问题之当使用Tunnel API进行数据操作时,MaxCompute会根据什么进行相应的处理
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5月前
|
分布式计算 自然语言处理 大数据
【大数据】MapReduce JAVA API编程实践及适用场景介绍
【大数据】MapReduce JAVA API编程实践及适用场景介绍
140 0