数据变现的历史与未来

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:


其中,360商业产品首席架构师刘鹏就分享了他对于“数据变现与交易”话题的观点看法。在这场题为《数据变现的历史与未来》的演讲中,刘鹏结合自己在数据领域的实践经验,强调了“计算广告(Computational Advertising)”的概念。

大数据文摘编者根据现场录音及速记整理出了一些干货,以下都是刘鹏分享的现场实录,希望能给数据行业从业人员带来一些启示。

传统数据(Data)和大数据(Bigdata)有何区别?

“通过采样能解决的问题不是Bigdata问题”

大数据说白了是咨询公司提出来的,工业界怎么看大数据?其中最关键的一点是——如果一个问题能够通过采样数据分析解决,那么就不是Bigdata问题。

我们从工业界来看,大数据和传统数据最主要的区别,首先是交易数据和行为数据的区别。

交易数据指的是传统的企业在业务运转过程中不得不记的数据,像进销存的数据、银行的存取款利息、电信的话费清单,这些是必须要记录的数据,不计的话业务就无法开展。这种数据的特点是量并不大,很难谈到Bigdata,但是他的一致性和实时性要求很高,一点都不能错。

而行为数据,指的是在业务的运行过程中,可记录也可不记录的数据。比如说对互联网企业来说,网站的日志为什么要记下来?因为数字化的服务,服务器很自然就把日志记下来,但是一开始也不知道有什么用。后来大家在免费数据变现的过程中,才逐步考虑怎么把这些数据给用起来,它具有后延性。对于电信来说,它也有行为数据,比如说每个人上网记录、通话内容,这些不是业务必须要记录的,但是蕴含巨大的价值。

行为数据规模是巨大的,以广告为例,创业公司做广告的时候,每天的展示量可以到一百亿,远远大于日常的交易量。所以它的处理机制完全不一样。

第二点区别在于,传统数据是采样的分析,而大数据是全量的分析。

如果我们一个分析必须要用到全量的分析,它才是大数据问题。像广告就是特别典型的全量数据分析,因为我要对每一个人都做targeting,中国有10亿人,就要分给10亿人,不可能只分给100万人,否则对其他的所有人就都无法做精准投放。这种无法采样的配置问题,就是大数据所关注的关键问题。

还有智能订单和进货的问题,商家要判断一个货物的销量,他就需要这个货物的全体销量,而不可能仅仅采样一部分进行分析,否则得到的结果没有意义,无法反映单品的库存和配送管理问题。每一件单品都要通过历史的数据分析,这是大数据的本质。

第三点区别在于数据应用场景。传统应用场景是洞察,最典型的是财务报表,我们把企业的运营财务数据总结成三张表,给公司的决策层看,我们希望通过把运营数据、日志数据连成几张表,放到所谓data science的运营决策链上,让管理层更有效地调整运营结构。但是这件事我个人觉得,在实际当中很困难,为什么很困难?能看到这三张财务报表的人非常有限,再有能从里面提炼出往什么方向走的人更少。不是每一个人拿到报表都知道怎么用,我看到的实际情况,如果我们把大数据使用的场景收缩在洞察数据这块,基本上没有太成功的例子。因为从报表里看出方向,确实是需要非常专业的技能。

我们更希望看到的是第二种应用,个性化的应用。比如说广告,用数据驱动用户的画像和标签,然后标签直接驱动广告决策,这样的过程是自动化的。大多数的情况下,自动化就是个性化,对每个人进行相应的决策分析。当然在有些情况下也不一定针对人,比如说对货物的管理。

我个人觉得,大数据应用,主要就是看你有没有在利用大规模的行为数据,能不能找到自动化的规律,能不能建立全量的数据分析方法。

数据变现模式是什么?

“广告市场是数据变现的重要起点“

从历史来看,数据变现最为成功的例子,在广告领域。

它的模式非常简单,左边是一个广告位,投放的是吉列剃须刀的广告,假设厂商投放了1万的广告费,但一般情况下只有男性用户会看,也就是说实际只有投放量一半的人可以看到。但是如果我有数据,我知道每个人的性别,我就可以把男性用户单独分出来,给他们投放吉列的广告,相应地只收6000,这样广告商的投入产出比就提高了。

而剩下的一半女性流量,我可以再以6000的价格打包卖给一家化妆品的广告。这样的结果是什么?同样流量,我挣到的钱从1万变成了1.2万,1万是流量价值,而多出来2000块钱,本质上就是数据变现的价值。我仅仅是知道每个人的性别,就可以多挣2000块钱,而如果知道得更精细,还可以挣更多的钱。

所以我认为,广告市场是非常重要的数据变现的起点。也可以说是,大数据迄今为止唯一一个形成规模化的工业应用。当然从互联网的意义来说就更大了,互联网行业到目前为止70%到80%的收入来自于广告,都是一个数据后向变现的概念。

所以说,有的人质疑大数据到底能不能挣钱?其实这是可笑的,因为这个变现市场已经很巨大了。去年在线广告市场是1600亿,前年是1100亿,今年这个数据超过2000亿无疑,并将超过所有除互联网以外所有的广告。数据变现在互联网世界是确定存在,并且正在规模化地发展。

计算广告的四次数据使用革命

计算广告核心的挑战,有一个网站,有一个网页,我知道用户的身份,我要找到合适的广告投放,目的是优化我的收入和成本差,也就是优化我的利润,这个收入从数据叫做千次展示的期望收益(eCPM)。就是这样的公式,我们所有的任务都是在最大化收入和成本的差。


实际上在计算广告或者叫数据变现发展的历史上,有过四次数据使用的变革:

第一次是把用户性别数据等基本数据开始用在做受众对象分析上。也就是刚才举过的例子,目的是为了把数据变现加入到广告里。

第二次革命是竞价模式,契机是广告主需要更精细的服务,除了性别还要知道他有没孩子,孩子多大了等等。原理上知道的数据越多,广告就可以卖更高的价格。但是在实践上,没法采用合约制的方法,比如和广告主签订合同,约定在未来一周内有多少的量。

所以我们的广告走向竞价模式,竞价本质是需求方定价,供给方采用撮合定价的方式,由价高者得的原则决定这个展示给谁。这种定价主要是在搜索引擎里得到了巨大的发展,结果大家也可以看得见,自从互联网广告产生了以后,数以百万级的广告主——原来没有任何广告渠道和机会的中小企业,得到了推广的可能性,因为它只需要很少的预算,就可以得到一次非常精准的投放。

第三次变革,是实时竞价和程序化交易时代的到来。比如京东,会根据他自己的数据加工出他的流失用户人群,这个流失数据,媒体显然是不掌握的。这就意味着,广告交易要变成一种全开放的模式,媒体需要在每一个展示到来的时候,实时向需求方询问你是不是需要这一次广告机会,以及愿意出的价格,并且以竞价的方式拍卖。这样的方式实质上就解决了数据市场的交易问题,我可以用任何我希望的方式,并且按我的方式定价,它使得数据交易和交换规模化的发展起来。

第四次就是所谓场景数据革命。我们在移动上发现,banner、插屏这种方式,事实上并不能很好地获得用户的满意,因为对用户的打扰很强烈。从推特开始,包括现在的FACEBOOK,它们的广告增长都可以看到,大家都是在采用一种原生化的方式,把广告结合到用户的场景数据去展示。用这个东西去规范广告展示和广告投放,这样在移动互联网上会获得非常好的增长空间,这也是移动广告有可能比搜索广告具有更受欢迎的未来潜力的原因。

这是我们讲的四次主要变化,可以看到广告市场整体的推动力都是被动的,越来越精细。

“当前数据交易价格偏低”

中国这两年有很多数据交易所出现,但是我个人的看法,这些都跟我们真正期望的数据交易没有什么关系。我看了他们的交易,还是以报告和统计数
据为主,这些都是传统的咨询和调研的业务。在北美市场,数据交易并不是交易数据报告,这个属于洞察应用,我的看法并不是大数据交易。我们希望看到的是用户数据和用户标签层面规模化、自动化的数据驱动业务。

关于数据交易我总结了三大定律,这是我们在实践中碰到的问题:

1、真正的行为数据是不能关联交换的,只能交易不能交换和共享

为什么这么说?因为数据本身就等于钱。如果现在有人说,我是一个创业公司,为什么腾讯不跟我做交换和共享?这个很荒谬,你还不如让马化腾把他帐户上的钱打给你。你看到大量的数据是共享是发生在公司之间有更高层资本合作前提下的,否则是违反规律的。

2、数据交易该怎么做?

这里边有很多的技术要点。显然如果我有十个数据提供方,有十个数据需求方,如果大家点对点的方式做数据交易,这是很低效的模式。

广告里的数据交易为什么就能发展起来?因为他是一个中心式的模式。所有的数据提供方都把自己的数据放在广告交易所上,广告交易所是分发广告流量的核心节点,当需求方平台(DSP)向广告交易所整合,他不产生额外的消费,需求方和交易所是一种身份对等、自然合理的方式。要是没有这种中心式的交易模式,数据交易在广告这个场景下也不容易发展起来。

数据的交易还出实现了一个功能,数据交易实现了部分交易。我是一个广告主,我只需要对一个地方的数据进行布局,只有在设定好的条件范围内,数据交易才有产生的必要。而且收钱的时候,是根据是否赢得了展示机会,所以实现部分交易,让很多规模不大的交易参与到这个过程中。

3、到底怎么给数据定价?

现在的方式还是不够智能。数据产品和其他所有的实体产品或者我们刚才讲的广告产品都不一样。比如说有一瓶水,你卖给甲以后不能再卖给乙,一个广告展示机会给了第一个广告主,第二个广告主也就不可能再获得。这种资源都有只能使用一次的特性,但数据资源不是。比如我知道一个人是男的,这份信息可以卖给两个人,也可以卖给五个人、十个人。

但目前工业实践中发现,一项数据卖给多人之后,极端情况是所有广告主都知道了,他们都来竞争这个广告投放的展位,结果是竞价使得流量的价格抬起来,而数据获得的增益反而少了。

我个人看到的现象是:数据交易蛮发达的,但是价格偏低,因为我们没有找到核心定价原则,也没有找到一个真正市场化的定价手段。只有找到了这个点,数据交易的规模才有可能迎来新一轮爆发的机会。

“大数据隐私远比想象更严重“

关于数据的隐私问题,我每次都会讲到这个问题,因为我觉得大家讨论得很多,但理解并不是很透。

数据隐私并不是没有标准,专家也经常讨论一个观点——“解决数据隐私问题,政府要立法、制订规章制度”,这句话是对的,但是我要告诉大家的是,规章制度只能解决20%的隐私问题,剩下的80%还得靠产品和技术本身

欧盟有一个A29原则,第一条是PersonalIdentifiable Information (PII) 不能使用,必须脱敏;第二条是一个用户如果不希望你记录他的隐私,他要有权力终止;第三点是要求不能长期属性数据使用用户的行为数据,用户行为记录两年以上是不允许的。不论借用什么样的介质,不论数据保护的手段多么高明,只要数据长期堆积,管理上的漏洞风险会很大,所以严格禁止保存两年以上,而且不能进行备份。

这三点是最基础的,但是对互联网不太解决问题。有个例子是Netflix的推荐大赛。这个大赛需要由每个用户来进行打分,而有个参赛者在参赛过程中看到了一条记录,就发现了这个人是他的一个同事,然后又从这个同事的其他记录发现,这个同事有很多观看同性恋电影的历史,这显示是触犯隐私的。这说明,我们原本对隐私有一个认识误区,以为陌生人把你电话卖了就是风险,但事实上真正的顾虑是熟人,是对你的背景有充分了解的人。

在Netflix的例子中,那个同事把Netflix告上了法庭,Netflix觉得现有的技术框架下无法解决这个问题,于是这个大赛第二年就停办了。但是在我们的互联网中,我们没法回退到过去,把所有的用户数据都清理掉,否则整个互联网业务体系都得崩盘。只能往前做着看,未来有没什么办法解决这个问题。

在这里我要提醒大家的是,脱敏是无法解决问题的。所以我个人的观点,隐私是大数据使用头上的达摩克利斯之剑。


原文发布时间为:2015-12-02

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
9月前
|
监控 Java Go
编译时插桩,Go应用监控的最佳选择
本文讲解了阿里云编译器团队和可观测团队为了实现Go应用监控选择编译时插桩的原因,同时还介绍了其他的监控方案以及它们的优缺点。
875 113
|
前端开发 安全 JavaScript
大学生校园兼职|基于Java校园兼职平台的设计与实现
大学生校园兼职|基于Java校园兼职平台的设计与实现
249 0
|
安全 数据安全/隐私保护
同态加密含义以及应用场景
文章探讨了同态加密技术的含义、发展历程、技术路线以及在安全求交、隐匿查询、多方联合计算和建模等隐私计算场景中的应用,并分析了其在实际应用中面临的关键问题和研究发展方向,同时指出了同态加密可能导致的计算精度损失和效率降低。
1146 0
同态加密含义以及应用场景
|
10月前
|
云安全 弹性计算 人工智能
带你读《阿里云安全白皮书》(三)—— 数智化趋势下的安全挑战(2)
数智化发展带来了新的安全挑战,网络空间安全威胁日益严峻,包括网络攻击规模扩大、新型网络攻击手段不断涌现及国家级网络安全对抗日趋明显。这要求企业在保障敏捷的同时,提升安全防护水平,采用先进普惠的安全技术,实现敏捷高效的安全能力,并提供丰富全面的解决方案。
|
10月前
|
人工智能 Kubernetes 云计算
第五届CID大会成功举办,阿里云基础设施加速AI智能产业发展!
第五届中国云计算基础架构开发者大会(CID)于2024年10月19日在北京成功举办。大会汇聚了300多位现场参会者和超过3万名在线观众,30余位技术专家进行了精彩分享,涵盖高效部署大模型推理、Knative加速AI应用Serverless化、AMD平台PMU虚拟化技术实践、Kubernetes中全链路GPU高效管理等前沿话题。阿里云的讲师团队通过专业解读,为与会者带来了全新的视野和启发,推动了云计算技术的创新发展。
|
消息中间件 存储 Prometheus
Grafana Mimir:支持乱序的指标采集
Grafana Mimir:支持乱序的指标采集
155 4
|
数据采集 数据可视化 关系型数据库
基于Python flask MySQL的穷游网酒店数据采集与可视化大屏
本文介绍了一个基于Python Flask和MySQL的穷游网酒店数据采集与可视化大屏项目,该项目实现了酒店数据的采集、存储和前端可视化展示,使用户能够直观了解酒店数据分布和价格趋势。
190 1
|
前端开发 JavaScript 开发者
CSS进阶-CSS变量
【6月更文挑战第13天】本文介绍了CSS变量(Custom Properties)的基本概念、应用场景和常见问题。通过声明与使用示例,展示了如何定义和引用变量。文章讨论了兼容性、作用域、错误引用及JavaScript交互等易错点,并提供了相应的解决方案。此外,还分享了实践技巧,如模块化色彩系统、响应式设计和动画制作。通过学习,开发者能更好地利用CSS变量提高样式灵活性和维护性。
260 3
|
SQL 存储 关系型数据库
第11章‘数据库设计规范(2)
第11章‘数据库设计规范
257 0
|
SQL 关系型数据库 MySQL
五分钟,让你明白MySQL是怎么选择索引《死磕MySQL系列 六》
五分钟,让你明白MySQL是怎么选择索引《死磕MySQL系列 六》
487 0
五分钟,让你明白MySQL是怎么选择索引《死磕MySQL系列 六》