计算广告与流处理技术综述

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 案例与解决方案汇总页:阿里云实时计算产品案例&解决方案汇总 1.计算广告背景 广告仍然是互联网公司的主要变现手段,其市场规模2017年已达3000亿元,据统计全球互联网市值前十的公司广告收入占比高达40%,可见其重要性。

案例与解决方案汇总页:
阿里云实时计算产品案例&解决方案汇总

1.计算广告背景

广告仍然是互联网公司的主要变现手段,其市场规模2017年已达3000亿元,据统计全球互联网市值前十的公司广告收入占比高达40%,可见其重要性。在这种情况下,与互联网广告相关的技术,我们称之为计算广告,也是最为成熟,市场规模最大的大数据应用领域。

互联网广告领域经过长期发展,分工逐渐精细化,除了各种代理商之外,还出现了ADN、SSP、ADX、DSP等各种平台,市场结构极为复杂,成为了一个巨大的生态。LUMA Partners针对北美市场绘制了一幅全景图,如下。
image

从经济学上看,上面复杂的市场结构可以认为是社会化大生产的产物,而广告的本质其实非常简单,无非是在合适的上下文中寻求受众与广告的匹配,追求媒体、用户和广告主的三方共赢。

image

2.计算广告技术架构

互联网广告从诞生那一刻起就与技术紧密相关,这也是互联网广告相比传统线下广告更有优势的地方,通过大数据&机器学习等技术,互联网广告能够在个性化技术的基础上实现更精准的受众定位,不断提高受众与广告的匹配度,让合适的人在合适的上下文中看到合适的广告,达成三方共赢。

而经过长期的发展,计算广告技术已经逐渐成熟,其基本架构图如下:

image

注:这只是原理性架构图,因为市场结构的复杂性,很多公司可能只有其中若干部分。更为详细的介绍请参考《计算广告》——刘鹏

大概说一下这个架构的流程:

  • 用户在媒体浏览网页时,系统会通过一些技术手段抽取当前页面的标签;
  • 广告投放机根据用户的标示找到预先做好的用户标签,然后根据用户标签找到对应的适合的广告候选列表;
  • 系统根据预先训练好的点击预测模型快速计算各广告的eCPM,eCPM的计算依赖两部分,一部分依赖离线训练好的CTR模型预估点击率,一部分是考虑不同广告的点击价值,综合这两个方面,最终对广告进行排序;
  • 最后根据广告分配策略来选出展示的广告,这里不仅仅要考虑本次最优,还要综合考虑整个平台的全局最优;

上面便是计算广告的主流程。

为了保障主流程,系统还需要其他模块。比如离线数据处理模块在线数据处理模块以及数据通道

每次投放产生的日志,对接的其他数据以及自己抓取的数据均通过数据通道传给离线数据处理模块和在线数据处理模块。

大家可以看到广告投放的基本流程是确定的,但每次决策会随着场景的不同有不同的结果,其决策依据便来源于离线数据处理模块和在线处理模块,可以说这两部分是整个计算广告系统的神经中枢,也是决定计算广告系统效果的关键部分

2.1 离线数据处理

前面提到了离线数据处理和在线数据处理都是为了决策者服务,而决策者包含两类,一类是人,一类是机器。这部分的技术主要是离线大数据技术,比如Hadoop、Spark、Hive等。

2.1.1 为人决策提供服务

为人决策服务的,便是大家所熟悉的传统大数据处理技术,如数据仓库等,产出报表、业务大屏或提供OLAP分析服务;
关于这部分可以参考数据仓库介绍与实时数仓案例

2.2.2 为机器决策提供服务

这部分直接服务于广告投放主流程,从流程中可以看到包括:

  • 受众定向,计算受众标签;
  • 上下文定向,判断当前环境
  • 点击率预估,相当于寻找受众跟广告的匹配度
  • 分配规划,平衡广告主利益,最大化平台的收益

这就覆盖了广告过程中各个角色,受众、广告主、环境、匹配度、平台收益等。使用的技术包括离线大数据处理技术与机器学习、数据挖掘等。

2.2 在线数据处理

整个广告的决策是一个在线的过程,传统的离线技术有时候很难满足,这时便单独抽取处了一个在线处理模块作为补充。这部分的技术主要是流处理技术,如实时计算(Flink)。

在线处理环节主要包括:

  • 在线反作弊,广告本质上是在卖流量,那么流量作假便能直接获取收益,据ANA统计,大约有37%的在线广告点击是假的,可见在线反作弊模块的重要性,效果不好将造成巨大资金浪费。
  • 在线计费,很多广告系统是程序化交易(如DSP),每次点击都会扣除广告主相应的费用,这要求系统能够快速的完成结算,扣除费用,并下线费用不足的广告。计费需要扣除作弊流量。
  • 在线受众定向,受众定向主要是计算用户的各种标签,有时用户短期内的行为更有参考价值,产出的短期标签更有效,比如受众突然看到某篇文章进而对某类产品产生了兴趣。这在效果类广告上更加明显。关于长短期兴趣标签可以参考基于实时计算(Flink)打造一个简单的实时推荐系统
  • 在线点击反馈,可以根据用户在线点击情况去调整CTR模型以更好的预估点击率。
  • 实时索引,广告是一种商业行为,广告主会根据当前广告的效果调整广告策略,那么每次调整后都需要尽快生效,否则将有可能造成资金浪费,所以需要实时把广告的更新或发布都建到广告索引中去。
  • 实时广告链接检测,根据访问日志快速判断某些广告链接是否失效,如果失效则快速将其下线,防止资损。

2.3 离线处理与在线处理总结

其实不管离线处理还是在线处理,本质都是为广告的在线决策和人的决策服务,并没有明显边界。

大数据以离线计算开始,所以很多应用实施在了离线引擎上,但随着在线引擎的发展,其实越来越多的业务都可以在线化,比如离线处理中为人决策的部分,其实可以改造成实时报表,甚至实时数仓,另外在线机器训练也越来越普及,在线的好处显而易见,可以想象将来在线处理部分会逐步扩张。

3.总结

这里只是概念性的做一个介绍,上面的系统也是一种抽象化的系统,真实的系统可能并不包含上面完整的范围。

比如有些厂商只做纯粹的DSP平台,那么其没有直接用户;还有一些厂商就是单纯的ADN,只有流量,那么其便没有复杂的决策流程;另外还有一些厂商既有ADN又有DSP,或者是既有媒体又有DSP……等等

但无论如何,从实时计算的角度来看,有几个关键环节是必须要有的,在线流量反作弊、在线计费、在线反馈、在线索引、在线广告链接检测等

相信随着技术的发展,实时计算版图将进一步扩张。

参考文章:

数据仓库介绍与实时数仓案例
基于实时计算(Flink)打造一个简单的实时推荐系统

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
25天前
|
机器学习/深度学习 人工智能 算法框架/工具
【深度学习】OneFlow深度框架:数据流图与异步计算的科技革新
【深度学习】OneFlow深度框架:数据流图与异步计算的科技革新
21 2
|
1月前
|
数据采集 机器学习/深度学习
谷歌创新框架:从非结构化数据,实现多模态学习
【6月更文挑战第13天】谷歌推出LANISTR框架,旨在多模态学习中整合非结构化数据,如语言、图像和结构化数据。通过掩码技术和多模态编码器,学习统一的多模态表示,擅长处理缺失模态数据,具备强泛化能力。然而,大规模预训练需大量资源,性能依赖数据质量,且解释性和可控性尚待改善。[论文链接](https://arxiv.org/pdf/2305.16556)
23 1
|
2月前
|
机器学习/深度学习 SQL 人工智能
人工智能平台PAI产品使用合集之如何通过机器学习PAI 的Alink实现大量数据两两计算相关性
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
2月前
|
机器学习/深度学习 运维 算法
流计算中的流式机器学习是什么?请解释其作用和常用算法。
流计算中的流式机器学习是什么?请解释其作用和常用算法。
74 0
|
10月前
|
数据挖掘
数据分析十大模型之漏斗模型(V2.0全新升级版)
数据分析十大模型之漏斗模型(V2.0全新升级版)
|
机器学习/深度学习 存储 运维
论文阅读--异常检测中实时大数据处理的研究挑战
论文阅读--异常检测中实时大数据处理的研究挑战
|
机器学习/深度学习 分布式计算 搜索推荐
【推荐系统】推荐系统数据流的经典技术架构+微软、阿里、微软等10大深度学习CTR模型最全演化图谱
【推荐系统】推荐系统数据流的经典技术架构+微软、阿里、微软等10大深度学习CTR模型最全演化图谱
374 0
【推荐系统】推荐系统数据流的经典技术架构+微软、阿里、微软等10大深度学习CTR模型最全演化图谱
《千亿特征流式学习在大规模推荐排序场景的应用》电子版地址
千亿特征流式学习在大规模推荐排序场景的应用
48 0
《千亿特征流式学习在大规模推荐排序场景的应用》电子版地址
|
分布式计算 资源调度 分布式数据库
流式计算典型系统技术分析|学习笔记
快速学习流式计算典型系统技术分析
142 0
流式计算典型系统技术分析|学习笔记
|
缓存 分布式计算 算法
推荐系统中所使用的混合技术介绍
在推荐系统实际运用中,各种混合技术是其中一项极为重要的核心技术。在工程实践中我们发现,混合技术对提升推荐效果、改进推荐系统的性能等都有重要意义,因此本文对该专题进行如下的一些总结和介绍。
472 0
推荐系统中所使用的混合技术介绍