计算广告与流处理技术综述

简介: 案例与解决方案汇总页:阿里云实时计算产品案例&解决方案汇总 1.计算广告背景 广告仍然是互联网公司的主要变现手段,其市场规模2017年已达3000亿元,据统计全球互联网市值前十的公司广告收入占比高达40%,可见其重要性。

案例与解决方案汇总页:
阿里云实时计算产品案例&解决方案汇总

1.计算广告背景

广告仍然是互联网公司的主要变现手段,其市场规模2017年已达3000亿元,据统计全球互联网市值前十的公司广告收入占比高达40%,可见其重要性。在这种情况下,与互联网广告相关的技术,我们称之为计算广告,也是最为成熟,市场规模最大的大数据应用领域。

互联网广告领域经过长期发展,分工逐渐精细化,除了各种代理商之外,还出现了ADN、SSP、ADX、DSP等各种平台,市场结构极为复杂,成为了一个巨大的生态。LUMA Partners针对北美市场绘制了一幅全景图,如下。
image

从经济学上看,上面复杂的市场结构可以认为是社会化大生产的产物,而广告的本质其实非常简单,无非是在合适的上下文中寻求受众与广告的匹配,追求媒体、用户和广告主的三方共赢。

image

2.计算广告技术架构

互联网广告从诞生那一刻起就与技术紧密相关,这也是互联网广告相比传统线下广告更有优势的地方,通过大数据&机器学习等技术,互联网广告能够在个性化技术的基础上实现更精准的受众定位,不断提高受众与广告的匹配度,让合适的人在合适的上下文中看到合适的广告,达成三方共赢。

而经过长期的发展,计算广告技术已经逐渐成熟,其基本架构图如下:

image

注:这只是原理性架构图,因为市场结构的复杂性,很多公司可能只有其中若干部分。更为详细的介绍请参考《计算广告》——刘鹏

大概说一下这个架构的流程:

  • 用户在媒体浏览网页时,系统会通过一些技术手段抽取当前页面的标签;
  • 广告投放机根据用户的标示找到预先做好的用户标签,然后根据用户标签找到对应的适合的广告候选列表;
  • 系统根据预先训练好的点击预测模型快速计算各广告的eCPM,eCPM的计算依赖两部分,一部分依赖离线训练好的CTR模型预估点击率,一部分是考虑不同广告的点击价值,综合这两个方面,最终对广告进行排序;
  • 最后根据广告分配策略来选出展示的广告,这里不仅仅要考虑本次最优,还要综合考虑整个平台的全局最优;

上面便是计算广告的主流程。

为了保障主流程,系统还需要其他模块。比如离线数据处理模块在线数据处理模块以及数据通道

每次投放产生的日志,对接的其他数据以及自己抓取的数据均通过数据通道传给离线数据处理模块和在线数据处理模块。

大家可以看到广告投放的基本流程是确定的,但每次决策会随着场景的不同有不同的结果,其决策依据便来源于离线数据处理模块和在线处理模块,可以说这两部分是整个计算广告系统的神经中枢,也是决定计算广告系统效果的关键部分

2.1 离线数据处理

前面提到了离线数据处理和在线数据处理都是为了决策者服务,而决策者包含两类,一类是人,一类是机器。这部分的技术主要是离线大数据技术,比如Hadoop、Spark、Hive等。

2.1.1 为人决策提供服务

为人决策服务的,便是大家所熟悉的传统大数据处理技术,如数据仓库等,产出报表、业务大屏或提供OLAP分析服务;
关于这部分可以参考数据仓库介绍与实时数仓案例

2.2.2 为机器决策提供服务

这部分直接服务于广告投放主流程,从流程中可以看到包括:

  • 受众定向,计算受众标签;
  • 上下文定向,判断当前环境
  • 点击率预估,相当于寻找受众跟广告的匹配度
  • 分配规划,平衡广告主利益,最大化平台的收益

这就覆盖了广告过程中各个角色,受众、广告主、环境、匹配度、平台收益等。使用的技术包括离线大数据处理技术与机器学习、数据挖掘等。

2.2 在线数据处理

整个广告的决策是一个在线的过程,传统的离线技术有时候很难满足,这时便单独抽取处了一个在线处理模块作为补充。这部分的技术主要是流处理技术,如实时计算(Flink)。

在线处理环节主要包括:

  • 在线反作弊,广告本质上是在卖流量,那么流量作假便能直接获取收益,据ANA统计,大约有37%的在线广告点击是假的,可见在线反作弊模块的重要性,效果不好将造成巨大资金浪费。
  • 在线计费,很多广告系统是程序化交易(如DSP),每次点击都会扣除广告主相应的费用,这要求系统能够快速的完成结算,扣除费用,并下线费用不足的广告。计费需要扣除作弊流量。
  • 在线受众定向,受众定向主要是计算用户的各种标签,有时用户短期内的行为更有参考价值,产出的短期标签更有效,比如受众突然看到某篇文章进而对某类产品产生了兴趣。这在效果类广告上更加明显。关于长短期兴趣标签可以参考基于实时计算(Flink)打造一个简单的实时推荐系统
  • 在线点击反馈,可以根据用户在线点击情况去调整CTR模型以更好的预估点击率。
  • 实时索引,广告是一种商业行为,广告主会根据当前广告的效果调整广告策略,那么每次调整后都需要尽快生效,否则将有可能造成资金浪费,所以需要实时把广告的更新或发布都建到广告索引中去。
  • 实时广告链接检测,根据访问日志快速判断某些广告链接是否失效,如果失效则快速将其下线,防止资损。

2.3 离线处理与在线处理总结

其实不管离线处理还是在线处理,本质都是为广告的在线决策和人的决策服务,并没有明显边界。

大数据以离线计算开始,所以很多应用实施在了离线引擎上,但随着在线引擎的发展,其实越来越多的业务都可以在线化,比如离线处理中为人决策的部分,其实可以改造成实时报表,甚至实时数仓,另外在线机器训练也越来越普及,在线的好处显而易见,可以想象将来在线处理部分会逐步扩张。

3.总结

这里只是概念性的做一个介绍,上面的系统也是一种抽象化的系统,真实的系统可能并不包含上面完整的范围。

比如有些厂商只做纯粹的DSP平台,那么其没有直接用户;还有一些厂商就是单纯的ADN,只有流量,那么其便没有复杂的决策流程;另外还有一些厂商既有ADN又有DSP,或者是既有媒体又有DSP……等等

但无论如何,从实时计算的角度来看,有几个关键环节是必须要有的,在线流量反作弊、在线计费、在线反馈、在线索引、在线广告链接检测等

相信随着技术的发展,实时计算版图将进一步扩张。

参考文章:

数据仓库介绍与实时数仓案例
基于实时计算(Flink)打造一个简单的实时推荐系统

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
2月前
|
SQL 人工智能 Apache
Apache Flink 2.2.0: 推动实时数据与人工智能融合,赋能AI时代的流处理
Apache Flink 2.2.0 发布,增强AI能力,支持ML_PREDICT与VECTOR_SEARCH,提升物化表、批处理及PyFlink性能,优化连接器与调度,助力实时智能数据处理。
237 0
|
XML Java 测试技术
Spring IOC—基于注解配置和管理Bean 万字详解(通俗易懂)
Spring 第三节 IOC——基于注解配置和管理Bean 万字详解!
862 26
|
消息中间件 存储 供应链
数据仓库介绍与实时数仓案例
1.数据仓库简介 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。
44964 237
|
SQL 存储 分布式计算
流批一体技术简介
本文由阿里云 Flink 团队苏轩楠老师撰写,旨在向 Flink 用户整体介绍 Flink 流批一体的技术和挑战。
51502 3
流批一体技术简介
|
运维 资源调度 定位技术
【技术大图】手把手教你搭建生信分析高性能计算平台
生物医药行业产生PB级海量数据,需专业生信分析平台支持。本技术地图涵盖平台搭建全流程:从架构设计、关键技术解析,到标准化分析流程介绍及部署优化策略,助力IT团队高效构建生信算力平台。立即下载完整版!
668 1
|
关系型数据库 测试技术 分布式数据库
PolarDB:中国云原生数据库的领军者
数据库社区“墨天轮”公布了2024年最新一期中国数据库流行度排行榜,阿里云瑶池旗下的自研云原生数据库PolarDB夺冠
|
安全 Shell 网络安全
Charles - 夜神模拟器证书安装App抓包
Charles - 夜神模拟器证书安装App抓包 前言 一、软件安装 1.Openssl安装 1.1下载安装 1.2配置环境变量 1.3查看openssl版本,输入命令:openssl version 2.夜神模拟器安装 1.1 下载安装 1.2工具准备,MT管理器 3.Charles安装 二、Charles 安装证书,抓包 1.Charles破解 2.安装证书并导出 3.开启代理模式 4.证书格式化 5.通过MT管理器将证书配置到模拟器中 6.模拟器WiFi填入Charles代理的IP和端口 7.抓包示例
2018 0
Charles - 夜神模拟器证书安装App抓包
|
监控 数据可视化 前端开发
入职必会-开发环境搭建25-Apifox下载和安装
Apifox 是一款专业的 API 设计与管理工具,旨在帮助开发人员和团队更高效地创建、测试和管理 API。以下是关于 Apifox 的一些主要特点和功能。
744 0
入职必会-开发环境搭建25-Apifox下载和安装
|
运维 监控 网络安全
云计算时代的运维新思维:从反应式到主动式的转变
【8月更文挑战第22天】在云计算的浪潮中,传统运维模式已无法满足现代企业的需求。本文将探讨如何从被动应对问题的反应式运维,转变为主动预防问题的主动式运维,以提升运维效率和服务质量。
528 0
|
机器学习/深度学习 人工智能 运维
探索AI在软件测试中的应用和影响
【2月更文挑战第17天】随着人工智能(AI)的飞速发展,其在各个领域的应用已经引起了广泛的关注。特别是在软件测试领域,AI技术的引入不仅改变了测试方法,提高了测试效率,还为测试质量提供了新的保障。本文旨在探讨AI在软件测试中的应用及其对传统软件测试的影响,以期为软件测试行业提供新的思路。
1061 2