方案_数据集介绍|学习笔记

简介: 快速学习方案_数据集介绍

开发者学堂课程【2020版大数据实战项目之DMP广告系统(第四阶段)方案_数据集介绍】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/679/detail/11796


方案_数据集介绍


内容介绍:

一、数据集生成

二、数据集概况


一、数据集生成

image.png

讲了很多业务以及技术流程的知识,接下来说一说数据集是什么。现在要用到一个数据集,这个数据集是进行数据处理需要用到的,回顾一下需要做什么事情。首先报表生成跟数据集没有关系,什么数据集都能生成报表。但是对外需要提供特殊的服务和业务。比如说要为 DSP 提供标签化服务,也就是说跟用户进行打标签,要按照标签进行用户识别。需要什么样的数据才能够进行标签化服务,并且对外提供,让 DSP 进行查询。

第一点,提供 RTB 的竞价数据,竞价数据指媒体相关的数据。在美国就有一个标准化机构,他们制定了一整套 RTB 的接口方案,可以看看 RTB 的过程当中 HTTP 服务的调用。 RTB 的请求是否要进行出价,这两个请求其实都会包含很多数据,比如说一次 RTB 的竞价,这次竞价的请求,会包含媒体的相关数据,还包含了 adexchange 补充的数据,还包含了用户相关的数据。所以 DSP 在接受到 RTB 请求, DSP 可以拿到 RTB 的请求数据,去调用 DSP 进行数据查询。 DSP 如果要对用户进行打标签,他要收集一些数据,通过一些干净或者不干净的手段收集用户数据。

主要的数据差不多是这两大类。第一大类来源于以往竞价记录和收集到的用户数据。第二类,竞价记录是 RTB 的竞价数据和用户数据。这两类数据是重要的。竞价记录来自于以往的交易,来自于以往的竞价,也就是 DSP 提供给我们的。再接下来用户数据有可能是来自于第三方的,也有可能是自己收集的,但是那些做 DMP 的小机构其实没多少的金额,所以他们没有多少用户量,自己收集用户数据的可能性不大,这是数据的收集。其中用户的数据可能有多个来源,所以就是多个数据集,对于这多个数据集,要执行一次 join 操作,形成一个统一的数据,针对于统一数据集来进行相应的使用。对应的业务系统的数据收集过来,也是要进行统一,这是数据集的生成。最终使用叫做 pmp.json 的数据集,数据集叫什么名无所谓,但是大家要知道数据集是合并过的一个数据集,包含了竞价数据和用户数据。


二、数据集概况

接下来看一看数据集概况。

image.png

首先这是一个 Json ,数据集当中大概有1万条这样的 json ,第一条数据是session ID 这是会话的 ID,还包含了一些广告的 ID,包含了广告订单的ID,还包含了 APP ,也就是媒体的信息,包含了要展示在哪个IP上,还包含了经纬度的信息,还有 Network 相关运营商的信息。这一部分是用户相关的数据, RTB 过程当中,其实也有用户的数据,就不再详细的去说。但是数据集确实包含了好多数据维度,十几种数据项的维度还是非常丰富的,数据量3000多条,不算小。

简单解析一下这个数据集当中可能包含哪些字段,首先第一个字段 IP 设备的真实 IP 是你想说的,会话标识,广告主是什么样的广告主,广告 ID 是什么样的广告 ID,还有广告平台商的 ID ,还有 RTB 的 SDK 版本号,还有数据请求的方式。进行一次 RTB 竞价时,广告的展示心里是预期的,明白要进行请求还是要响应和需要进行广告的展示,对于不同的请求大家肯定是明白的,所以这一次请求是请求竞价、请求展示,还是请求点击。。

还有广告价格最终成交的价格是多少,平台商赚了多少钱,什么时候请求的,是哪个媒体请求的,媒体这一次请求的广告展示在什么样的一个安卓的机器上,机器设备型号是什么。还有屏幕的密度会影响展示广告的精度,有一些广告在不同的密度下,显得会过大或者过小,有时候不够精细。还有屏幕的宽度,高度也用于进行广告展示的时候,进行判断。运营商也会影响你的策略。

接下来看一下广告位类型。整个流程是这样的。有一个用户,对这个用户有一个程序,比如说这个程序在用户的手机,就是小米的手机。小米的手机有一个 banner 条, banner 条就是大家打开美团的时候,第一栏会滚动图片,这个就是 banner 条,一般是放广告的地方。这个时候用户打开 APP ,广告的 SDK 就会去通知我们 adexchange ,做了一个 RTB 的操作,就会发起一次竞价请求,这个竞价请求是不是发到了 DSP ,然后 DSP 会去查询 DMP ,整个流程就是这样。所以广告最终的 DMP 说可以去投,这时广告主就给钱,给了 DSP 就扣了广告主的钱,广告主的广告发给对应用户的设备进行展示。

广告展示的位置会影响竞价的价格,展示在版上价格更高。广告位的类型名称跟前面是一样的,一个是类型,一个是名称。还有设备类型,设备类型也会影响你的广告展示的竞价策略。比如说有一些广告,苹果就是比安卓的贵。因为苹果的手机大部分来看是比安卓的要贵的。有相应的收入能力才会去购买贵价的手机。有可能你使用的设备类型不同,会对你戴一些有色眼镜眼镜去看,例如使用华为P30,要为这种用户提供更高价格更高质量的广告。

RTB 的竞价,通过成功价格,能看到以往这种广告类型的成功价格应该是多少,如果要做一些国际广告,和国际的 adexchange 进行交互时,结算的币种有可能是美元。

MAC、IDFA 就是广告码,然后有一些识别码,都可以唯一标注一个用户,比如说 imei 能唯一标注一个用户。MAC 地址也能唯一标注一个用户。包含一部分用户的数据,比如说用户的邮箱,电话号码,姓名,年龄,但是这些数据不用太多关注,只需要通过这用户的标识进行行为判断即可。

相关文章
|
4月前
|
机器学习/深度学习 监控 数据可视化
【超详细】MMLab分类任务mmclassification:环境配置说明、训练、预测及模型结果可视化展示(3)
【超详细】MMLab分类任务mmclassification:环境配置说明、训练、预测及模型结果可视化展示
|
2月前
评估数据集CGoDial问题之构建一个新的OpenIE评测范式的问题如何解决
评估数据集CGoDial问题之构建一个新的OpenIE评测范式的问题如何解决
|
2月前
|
SQL 自然语言处理
评估数据集CGoDial问题之TKK框架提升模型泛化能力的问题如何解决
评估数据集CGoDial问题之TKK框架提升模型泛化能力的问题如何解决
|
3月前
|
数据采集 机器学习/深度学习 数据可视化
关于Python数据分析项目的简要概述:从CSV加载数据,执行数据预处理,进行数据探索,选择线性回归模型进行训练,评估模型性能并优化,最后结果解释与可视化。
【7月更文挑战第5天】这是一个关于Python数据分析项目的简要概述:从CSV加载数据,执行数据预处理(填充缺失值,处理异常值),进行数据探索(可视化和统计分析),选择线性回归模型进行训练,评估模型性能并优化,最后结果解释与可视化。此案例展示了数据科学的典型流程。
57 2
|
5月前
|
缓存 人工智能 数据可视化
LLM 大模型学习必知必会系列(十一):大模型自动评估理论和实战以及大模型评估框架详解
LLM 大模型学习必知必会系列(十一):大模型自动评估理论和实战以及大模型评估框架详解
LLM 大模型学习必知必会系列(十一):大模型自动评估理论和实战以及大模型评估框架详解
|
4月前
|
数据可视化 计算机视觉 Python
【超详细】MMLab分类任务mmclassification:环境配置说明、训练、预测及模型结果可视化展示(2)
【超详细】MMLab分类任务mmclassification:环境配置说明、训练、预测及模型结果可视化展示
|
4月前
|
机器学习/深度学习 数据采集 人工智能
【机器学习】CLIP模型在有限计算资源下的性能探究:从数据、架构到训练策略
【机器学习】CLIP模型在有限计算资源下的性能探究:从数据、架构到训练策略
268 0
|
4月前
|
机器学习/深度学习 数据可视化 算法
【超详细】MMLab分类任务mmclassification:环境配置说明、训练、预测及模型结果可视化展示(1)
【超详细】MMLab分类任务mmclassification:环境配置说明、训练、预测及模型结果可视化展示
|
5月前
|
算法 数据处理 异构计算
CatBoost高级教程:分布式训练与大规模数据处理
CatBoost高级教程:分布式训练与大规模数据处理【2月更文挑战第15天】
563 14
|
5月前
|
机器学习/深度学习 分布式计算 算法
R语言 RevoScaleR的大规模数据集决策树模型应用案例
R语言 RevoScaleR的大规模数据集决策树模型应用案例
下一篇
无影云桌面