《计算广告:互联网商业变现的市场与技术》一一1.1 大数据与广告的关系-阿里云开发者社区

开发者社区> 异步社区> 正文

《计算广告:互联网商业变现的市场与技术》一一1.1 大数据与广告的关系

简介:
+关注继续查看

本节书摘来自异步社区出版社《计算广告:互联网商业变现的市场与技术》一书中的第1章,第1.1节,作者: 刘鹏 , 王超,更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.1 大数据与广告的关系

近年来,大数据思维和技术渐成显学。然而,大数据这一概念至今为止并没有一个内涵上准确的界定。在参考文献[56]中,作者用Volume(规模)、Variety(多样性)、Velocity(高速)和Value(价值),即所谓的4V特征来描述大数据问题的特性,但并没有给出这类问题的界定标准。然而,从实际操作的角度来看什么是大数据问题或许要比理论上的定义简单一些:如果有的数据处理问题无法通过数据采样的方法来降低处理的复杂程度,就必须利用一些专门为海量数据处理而设计的计算和存储技术(如MapReduce、NoSQL数据库等)来实现。于是,这样的问题也就从工程上归为大数据问题,图1-1阐释了这一视角。

image

在图1-1中,我们考察的是某一个有确定目标函数的数据处理问题。图中的三条曲线是三类有代表性的数据问题。

(1)C类问题。从工程方便的角度来看,如果通过数据采样能够显著降低数据处理的复杂程度,同时解决问题的效果(即目标函数)没有太大的下降,那么显然应该这样做。这类问题可以用图1-1中的C曲线来示意。由于可以通过很低的采样率解决问题,并不需要大规模分布式的计算架构,用传统的数据方案就可以解决,因此,这类问题应该归为传统数据处理问题,而非大数据问题。一般的统计报表、报告等往往属于这类问题。

(2)A类问题。另外有一些数据问题基本上不可能通过只处理一小部分数据来达到处理全量数据所能达到的效果,或者说随着数据采样率的降低,解决问题的收益会快速下降,这类问题是典型的大数据问题,用图1-1中的A曲线来示意。由于需要处理大规模的全量数据,传统的存储和计算架构都不再合适,必须寻找新的方案,这实际上是推动大数据技术发展的原动力。个性化推荐(personalizedrecommendation)和计算广告(computationaladvertising)需要用到每一个人的行为进行定制化推送,而无法只采样其中的一部分人来处理,因此可以认为是典型的大数据问题。大数据问题由于无法利用传统的计算架构和数据仓库来处理,因此才会产生Hadoop等新的基础设施和NoSQL数据存储等技术。

(3)B类问题。当然,实践当中大数据问题和一般数据处理问题并不是泾渭分明的。有一些问题,其处理效果随着数据量的上升有一定提高,但当数据大到一定规模以后,再增加数据量价值就不大了,这类问题可以用图1-1中的B曲线来示意。一个典型的例子是文本主题模型(topicmodel)。我们用1000万文档往往会得到比10万文档更稳定、更有意义的主题,然而用10亿文档和用1亿文档差别可能就会不那么明显。在解决这类问题时,往往是选取一个有较大规模但并非全量的数据集来处理。针对这种中等规模问题上的复杂算法,也产生了像Spark这样更加灵活高效的计算框架。

很显然,从以上观点出发,计算广告是非常典型的大数据应用。实际上,在以往相当长的一段时期里,我们认为唯一得到充分商业化和规模化的大数据应用就是计算广告。计算广告为各行各业大数据的落地提供了非常有价值的借鉴范本,下面几点尤其值得了解和关注。

(1)计算广告为规模化地将用户行为数据转化为可衡量的商业价值提供了完整产品线和解决方案,并且实际上创造了互联网行业大部分的营收。

(2)在线广告孕育和孵化了较为成熟的数据加工和交易产业链,并对其中的用户隐私边界有深入探讨,这值得所有涉及用户数据的互联网应用学习和借鉴。

(3)由于有了商业上的限制条件,计算广告的技术和产品逻辑比单纯的个性化系统更加复杂周密。因此,理解在线广告的产品和市场对于设计正确有效的商业产品大有益处。

由于以上这些原因,如果你是一位从事大数据或商业产品的产品经理、工程师或管理者,我们强烈建议你认真了解一下广告的产品和技术,相信你一定会有很大的收获,也会快捷地了解到这一领域真正有挑战的问题是什么。本着这样的目的,我们在本书后续部分中将广告市场的产品和技术演进作为一条明的主线,而将这一市场对数据的利用程度作为一条暗的主线来展开。希望读者能够通过阅读本书,具体地了解数据是如何通过广告市场规模化地创造商业价值的。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
SpringBoot-RabbitMQ01-入门介绍
AMQP (Advanced Message Queuing Protocol ,高级消息队列协议)是 个线路层的协议规范,而不是 API 规范(例如 JMS )。由于 AMQP 是一个线路层协议规范,因此它天然就是跨平台的,就像 SMTP HTTP 等协议 样,只要开发者按照规范的格式发送数据,任何平台都可以通过 AMQP进行消息交互。像目前流行的 StormMQ RabbitMQ 等都实现了 AMQP. ———————————————— 版权声明:本文为CSDN博主「波波烤鸭」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://bl
5 0
SpringDataRedis介绍
实际项目中我们一般都会使用Redis来作为我们的缓存组件,往往又会和Spring一块使用,虽然Redis官方提供的有Jedis等客户端工具,但是使用的时候还是有些不方便,这时SpringDataRedis出现了。
4 0
第一次胜过MobileNet的二值神经网络,-1与+1的三年艰苦跋涉
近日,苹果以 2 亿美元左右价格收购初创公司 Xnor.ai 的消息引起了社区极大的关注。作为一家以二值神经网络 Xnor-net 起家的人工智能初创公司,Xnor.ai 被苹果高价收购,也许预示着低功耗、高效能的二值神经网络技术将开启广阔的应用前景。
4 0
SpringBoot【SpringMVC+mybatis完成CRUD案例】
本文介绍SpringBoot整合SpringMVC和mybatis在IDEA中通过maven项目来对user表数据完成CRUD操作,前端使用Thymeleaf来实现。
6 0
面试:Java基础 3
面试:Java基础 3
4 0
Java实现链表结构
Java实现链表结构
4 0
SpringBoot-RabbitMQ02-原理介绍
本文来介绍下RabbitMQ的工作原理。在具体介绍之前最好对java的观察者模式有所了解,那么对于消息中间件就非常好理解了
6 0
+关注
异步社区
异步社区(www.epubit.com)是人民邮电出版社旗下IT专业图书旗舰社区,也是国内领先的IT专业图书社区,致力于优质学习内容的出版和分享,实现了纸书电子书的同步上架,于2015年8月上线运营。公众号【异步图书】,每日赠送异步新书。
11938
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载