《计算广告:互联网商业变现的市场与技术》一一1.1 大数据与广告的关系-阿里云开发者社区

开发者社区> 异步社区> 正文

《计算广告:互联网商业变现的市场与技术》一一1.1 大数据与广告的关系

简介:
+关注继续查看

本节书摘来自异步社区出版社《计算广告:互联网商业变现的市场与技术》一书中的第1章,第1.1节,作者: 刘鹏 , 王超,更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.1 大数据与广告的关系

近年来,大数据思维和技术渐成显学。然而,大数据这一概念至今为止并没有一个内涵上准确的界定。在参考文献[56]中,作者用Volume(规模)、Variety(多样性)、Velocity(高速)和Value(价值),即所谓的4V特征来描述大数据问题的特性,但并没有给出这类问题的界定标准。然而,从实际操作的角度来看什么是大数据问题或许要比理论上的定义简单一些:如果有的数据处理问题无法通过数据采样的方法来降低处理的复杂程度,就必须利用一些专门为海量数据处理而设计的计算和存储技术(如MapReduce、NoSQL数据库等)来实现。于是,这样的问题也就从工程上归为大数据问题,图1-1阐释了这一视角。

image

在图1-1中,我们考察的是某一个有确定目标函数的数据处理问题。图中的三条曲线是三类有代表性的数据问题。

(1)C类问题。从工程方便的角度来看,如果通过数据采样能够显著降低数据处理的复杂程度,同时解决问题的效果(即目标函数)没有太大的下降,那么显然应该这样做。这类问题可以用图1-1中的C曲线来示意。由于可以通过很低的采样率解决问题,并不需要大规模分布式的计算架构,用传统的数据方案就可以解决,因此,这类问题应该归为传统数据处理问题,而非大数据问题。一般的统计报表、报告等往往属于这类问题。

(2)A类问题。另外有一些数据问题基本上不可能通过只处理一小部分数据来达到处理全量数据所能达到的效果,或者说随着数据采样率的降低,解决问题的收益会快速下降,这类问题是典型的大数据问题,用图1-1中的A曲线来示意。由于需要处理大规模的全量数据,传统的存储和计算架构都不再合适,必须寻找新的方案,这实际上是推动大数据技术发展的原动力。个性化推荐(personalizedrecommendation)和计算广告(computationaladvertising)需要用到每一个人的行为进行定制化推送,而无法只采样其中的一部分人来处理,因此可以认为是典型的大数据问题。大数据问题由于无法利用传统的计算架构和数据仓库来处理,因此才会产生Hadoop等新的基础设施和NoSQL数据存储等技术。

(3)B类问题。当然,实践当中大数据问题和一般数据处理问题并不是泾渭分明的。有一些问题,其处理效果随着数据量的上升有一定提高,但当数据大到一定规模以后,再增加数据量价值就不大了,这类问题可以用图1-1中的B曲线来示意。一个典型的例子是文本主题模型(topicmodel)。我们用1000万文档往往会得到比10万文档更稳定、更有意义的主题,然而用10亿文档和用1亿文档差别可能就会不那么明显。在解决这类问题时,往往是选取一个有较大规模但并非全量的数据集来处理。针对这种中等规模问题上的复杂算法,也产生了像Spark这样更加灵活高效的计算框架。

很显然,从以上观点出发,计算广告是非常典型的大数据应用。实际上,在以往相当长的一段时期里,我们认为唯一得到充分商业化和规模化的大数据应用就是计算广告。计算广告为各行各业大数据的落地提供了非常有价值的借鉴范本,下面几点尤其值得了解和关注。

(1)计算广告为规模化地将用户行为数据转化为可衡量的商业价值提供了完整产品线和解决方案,并且实际上创造了互联网行业大部分的营收。

(2)在线广告孕育和孵化了较为成熟的数据加工和交易产业链,并对其中的用户隐私边界有深入探讨,这值得所有涉及用户数据的互联网应用学习和借鉴。

(3)由于有了商业上的限制条件,计算广告的技术和产品逻辑比单纯的个性化系统更加复杂周密。因此,理解在线广告的产品和市场对于设计正确有效的商业产品大有益处。

由于以上这些原因,如果你是一位从事大数据或商业产品的产品经理、工程师或管理者,我们强烈建议你认真了解一下广告的产品和技术,相信你一定会有很大的收获,也会快捷地了解到这一领域真正有挑战的问题是什么。本着这样的目的,我们在本书后续部分中将广告市场的产品和技术演进作为一条明的主线,而将这一市场对数据的利用程度作为一条暗的主线来展开。希望读者能够通过阅读本书,具体地了解数据是如何通过广告市场规模化地创造商业价值的。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
使用OpenApi弹性释放和设置云服务器ECS释放
云服务器ECS的一个重要特性就是按需创建资源。您可以在业务高峰期按需弹性的自定义规则进行资源创建,在完成业务计算的时候释放资源。本篇将提供几个Tips帮助您更加容易和自动化的完成云服务器的释放和弹性设置。
12076 0
大数据和人工智能的关系,超全解析
大数据拥抱云计算 在PaaS层中一个复杂的通用应用就是大数据平台。大数据是如何一步一步融入云计算的呢? 1数据不大也包含智慧 一开始这个大数据并不大。原来才有多少数据?现在大家都去看电子书,上网看新闻了,在我们80后小时候,信息量没有那么大,也就看看书、看看报,一个星期的报纸加起来才有多少字?如果你不在一个大城市,一个普通的学校的图书馆加起来也没几个书架,是后来随着信息化的到来,信息才会越来越多。
1650 0
第11章—使用对象关系映射持久化数据—SpringBoot+SpringData+Jpa进行查询修改数据库
SpringBoot+SpringData+Jpa进行查询修改数据库 JPA由EJB 3.0软件专家组开发,作为JSR-220实现的一部分。但它又不限于EJB 3.0,你可以在Web应用、甚至桌面应用中使用。
1089 0
为更强大而生的开源关系型数据库来了!阿里云RDS for MySQL 8.0 正式上线!
2019年5月29日15时,阿里云RDS for MySQL 8.0正式上线,使得阿里云成为紧跟社区步伐,发布MySQL最新版本的云厂商。RDS for MySQL 8.0 产品是阿里云推出的 MySQL 系列云产品之一,使用完全兼容 MySQL 8.0 的阿里云 AliSQL 8.0 分支,除了官方在 MySQL 8.0 推出的全新功能外,AliSQL 沉淀了许多在 Alibaba 集团电商业务和云上几十万客户在使用 MySQL 过程中遇到的问题和需求,以此来加固AliSQL, 提升 AliSQL 的性能和稳定性。
10699 0
支付宝工程师如何搞定关系数据库的“大脑”——查询优化器
本文将深入了解OceanBase在查询优化器方面的设计思路和历经近十年时间提炼出的工程实践哲学。
1234 0
Contoso 大学 - 6 – 更新关联数据
原文 Contoso 大学 - 6 – 更新关联数据 By Tom Dykstra, Tom Dykstra is a Senior Programming Writer on Microsoft's Web Platform & Tools Content Team.
712 0
+关注
异步社区
异步社区(www.epubit.com)是人民邮电出版社旗下IT专业图书旗舰社区,也是国内领先的IT专业图书社区,致力于优质学习内容的出版和分享,实现了纸书电子书的同步上架,于2015年8月上线运营。公众号【异步图书】,每日赠送异步新书。
12049
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载