《计算广告:互联网商业变现的市场与技术》一一1.1 大数据与广告的关系

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

本节书摘来自异步社区出版社《计算广告:互联网商业变现的市场与技术》一书中的第1章,第1.1节,作者: 刘鹏 , 王超,更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.1 大数据与广告的关系

近年来,大数据思维和技术渐成显学。然而,大数据这一概念至今为止并没有一个内涵上准确的界定。在参考文献[56]中,作者用Volume(规模)、Variety(多样性)、Velocity(高速)和Value(价值),即所谓的4V特征来描述大数据问题的特性,但并没有给出这类问题的界定标准。然而,从实际操作的角度来看什么是大数据问题或许要比理论上的定义简单一些:如果有的数据处理问题无法通过数据采样的方法来降低处理的复杂程度,就必须利用一些专门为海量数据处理而设计的计算和存储技术(如MapReduce、NoSQL数据库等)来实现。于是,这样的问题也就从工程上归为大数据问题,图1-1阐释了这一视角。

image

在图1-1中,我们考察的是某一个有确定目标函数的数据处理问题。图中的三条曲线是三类有代表性的数据问题。

(1)C类问题。从工程方便的角度来看,如果通过数据采样能够显著降低数据处理的复杂程度,同时解决问题的效果(即目标函数)没有太大的下降,那么显然应该这样做。这类问题可以用图1-1中的C曲线来示意。由于可以通过很低的采样率解决问题,并不需要大规模分布式的计算架构,用传统的数据方案就可以解决,因此,这类问题应该归为传统数据处理问题,而非大数据问题。一般的统计报表、报告等往往属于这类问题。

(2)A类问题。另外有一些数据问题基本上不可能通过只处理一小部分数据来达到处理全量数据所能达到的效果,或者说随着数据采样率的降低,解决问题的收益会快速下降,这类问题是典型的大数据问题,用图1-1中的A曲线来示意。由于需要处理大规模的全量数据,传统的存储和计算架构都不再合适,必须寻找新的方案,这实际上是推动大数据技术发展的原动力。个性化推荐(personalizedrecommendation)和计算广告(computationaladvertising)需要用到每一个人的行为进行定制化推送,而无法只采样其中的一部分人来处理,因此可以认为是典型的大数据问题。大数据问题由于无法利用传统的计算架构和数据仓库来处理,因此才会产生Hadoop等新的基础设施和NoSQL数据存储等技术。

(3)B类问题。当然,实践当中大数据问题和一般数据处理问题并不是泾渭分明的。有一些问题,其处理效果随着数据量的上升有一定提高,但当数据大到一定规模以后,再增加数据量价值就不大了,这类问题可以用图1-1中的B曲线来示意。一个典型的例子是文本主题模型(topicmodel)。我们用1000万文档往往会得到比10万文档更稳定、更有意义的主题,然而用10亿文档和用1亿文档差别可能就会不那么明显。在解决这类问题时,往往是选取一个有较大规模但并非全量的数据集来处理。针对这种中等规模问题上的复杂算法,也产生了像Spark这样更加灵活高效的计算框架。

很显然,从以上观点出发,计算广告是非常典型的大数据应用。实际上,在以往相当长的一段时期里,我们认为唯一得到充分商业化和规模化的大数据应用就是计算广告。计算广告为各行各业大数据的落地提供了非常有价值的借鉴范本,下面几点尤其值得了解和关注。

(1)计算广告为规模化地将用户行为数据转化为可衡量的商业价值提供了完整产品线和解决方案,并且实际上创造了互联网行业大部分的营收。

(2)在线广告孕育和孵化了较为成熟的数据加工和交易产业链,并对其中的用户隐私边界有深入探讨,这值得所有涉及用户数据的互联网应用学习和借鉴。

(3)由于有了商业上的限制条件,计算广告的技术和产品逻辑比单纯的个性化系统更加复杂周密。因此,理解在线广告的产品和市场对于设计正确有效的商业产品大有益处。

由于以上这些原因,如果你是一位从事大数据或商业产品的产品经理、工程师或管理者,我们强烈建议你认真了解一下广告的产品和技术,相信你一定会有很大的收获,也会快捷地了解到这一领域真正有挑战的问题是什么。本着这样的目的,我们在本书后续部分中将广告市场的产品和技术演进作为一条明的主线,而将这一市场对数据的利用程度作为一条暗的主线来展开。希望读者能够通过阅读本书,具体地了解数据是如何通过广告市场规模化地创造商业价值的。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
3天前
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
21 2
|
23天前
|
存储 分布式计算 数据可视化
大数据常用技术与工具
【10月更文挑战第16天】
81 4
|
5天前
|
存储 分布式计算 NoSQL
【赵渝强老师】大数据技术的理论基础
本文介绍了大数据平台的核心思想,包括Google的三篇重要论文:Google文件系统(GFS)、MapReduce分布式计算模型和BigTable大表。这些论文奠定了大数据生态圈的技术基础,进而发展出了Hadoop、Spark和Flink等生态系统。文章详细解释了GFS的架构、MapReduce的计算过程以及BigTable的思想和HBase的实现。
|
1月前
|
分布式计算 大数据 Java
大数据-87 Spark 集群 案例学习 Spark Scala 案例 手写计算圆周率、计算共同好友
大数据-87 Spark 集群 案例学习 Spark Scala 案例 手写计算圆周率、计算共同好友
49 5
|
1月前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
48 3
|
1月前
|
存储 数据采集 监控
大数据技术:开启智能决策与创新服务的新纪元
【10月更文挑战第5天】大数据技术:开启智能决策与创新服务的新纪元
|
1月前
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
58 0
|
6天前
|
SQL 存储 算法
比 SQL 快出数量级的大数据计算技术
SQL 是大数据计算中最常用的工具,但在实际应用中,SQL 经常跑得很慢,浪费大量硬件资源。例如,某银行的反洗钱计算在 11 节点的 Vertica 集群上跑了 1.5 小时,而用 SPL 重写后,单机只需 26 秒。类似地,电商漏斗运算和时空碰撞任务在使用 SPL 后,性能也大幅提升。这是因为 SQL 无法写出低复杂度的算法,而 SPL 提供了更强大的数据类型和基础运算,能够实现高效计算。
|
9天前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
21 3