方案_数据集介绍|学习笔记

简介: 快速学习方案_数据集介绍

开发者学堂课程【2020版大数据实战项目之DMP广告系统(第四阶段)方案_数据集介绍】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/679/detail/11796


方案_数据集介绍


内容介绍:

一、数据集生成

二、数据集概况


一、数据集生成

image.png

讲了很多业务以及技术流程的知识,接下来说一说数据集是什么。现在要用到一个数据集,这个数据集是进行数据处理需要用到的,回顾一下需要做什么事情。首先报表生成跟数据集没有关系,什么数据集都能生成报表。但是对外需要提供特殊的服务和业务。比如说要为 DSP 提供标签化服务,也就是说跟用户进行打标签,要按照标签进行用户识别。需要什么样的数据才能够进行标签化服务,并且对外提供,让 DSP 进行查询。

第一点,提供 RTB 的竞价数据,竞价数据指媒体相关的数据。在美国就有一个标准化机构,他们制定了一整套 RTB 的接口方案,可以看看 RTB 的过程当中 HTTP 服务的调用。 RTB 的请求是否要进行出价,这两个请求其实都会包含很多数据,比如说一次 RTB 的竞价,这次竞价的请求,会包含媒体的相关数据,还包含了 adexchange 补充的数据,还包含了用户相关的数据。所以 DSP 在接受到 RTB 请求, DSP 可以拿到 RTB 的请求数据,去调用 DSP 进行数据查询。 DSP 如果要对用户进行打标签,他要收集一些数据,通过一些干净或者不干净的手段收集用户数据。

主要的数据差不多是这两大类。第一大类来源于以往竞价记录和收集到的用户数据。第二类,竞价记录是 RTB 的竞价数据和用户数据。这两类数据是重要的。竞价记录来自于以往的交易,来自于以往的竞价,也就是 DSP 提供给我们的。再接下来用户数据有可能是来自于第三方的,也有可能是自己收集的,但是那些做 DMP 的小机构其实没多少的金额,所以他们没有多少用户量,自己收集用户数据的可能性不大,这是数据的收集。其中用户的数据可能有多个来源,所以就是多个数据集,对于这多个数据集,要执行一次 join 操作,形成一个统一的数据,针对于统一数据集来进行相应的使用。对应的业务系统的数据收集过来,也是要进行统一,这是数据集的生成。最终使用叫做 pmp.json 的数据集,数据集叫什么名无所谓,但是大家要知道数据集是合并过的一个数据集,包含了竞价数据和用户数据。


二、数据集概况

接下来看一看数据集概况。

image.png

首先这是一个 Json ,数据集当中大概有1万条这样的 json ,第一条数据是session ID 这是会话的 ID,还包含了一些广告的 ID,包含了广告订单的ID,还包含了 APP ,也就是媒体的信息,包含了要展示在哪个IP上,还包含了经纬度的信息,还有 Network 相关运营商的信息。这一部分是用户相关的数据, RTB 过程当中,其实也有用户的数据,就不再详细的去说。但是数据集确实包含了好多数据维度,十几种数据项的维度还是非常丰富的,数据量3000多条,不算小。

简单解析一下这个数据集当中可能包含哪些字段,首先第一个字段 IP 设备的真实 IP 是你想说的,会话标识,广告主是什么样的广告主,广告 ID 是什么样的广告 ID,还有广告平台商的 ID ,还有 RTB 的 SDK 版本号,还有数据请求的方式。进行一次 RTB 竞价时,广告的展示心里是预期的,明白要进行请求还是要响应和需要进行广告的展示,对于不同的请求大家肯定是明白的,所以这一次请求是请求竞价、请求展示,还是请求点击。。

还有广告价格最终成交的价格是多少,平台商赚了多少钱,什么时候请求的,是哪个媒体请求的,媒体这一次请求的广告展示在什么样的一个安卓的机器上,机器设备型号是什么。还有屏幕的密度会影响展示广告的精度,有一些广告在不同的密度下,显得会过大或者过小,有时候不够精细。还有屏幕的宽度,高度也用于进行广告展示的时候,进行判断。运营商也会影响你的策略。

接下来看一下广告位类型。整个流程是这样的。有一个用户,对这个用户有一个程序,比如说这个程序在用户的手机,就是小米的手机。小米的手机有一个 banner 条, banner 条就是大家打开美团的时候,第一栏会滚动图片,这个就是 banner 条,一般是放广告的地方。这个时候用户打开 APP ,广告的 SDK 就会去通知我们 adexchange ,做了一个 RTB 的操作,就会发起一次竞价请求,这个竞价请求是不是发到了 DSP ,然后 DSP 会去查询 DMP ,整个流程就是这样。所以广告最终的 DMP 说可以去投,这时广告主就给钱,给了 DSP 就扣了广告主的钱,广告主的广告发给对应用户的设备进行展示。

广告展示的位置会影响竞价的价格,展示在版上价格更高。广告位的类型名称跟前面是一样的,一个是类型,一个是名称。还有设备类型,设备类型也会影响你的广告展示的竞价策略。比如说有一些广告,苹果就是比安卓的贵。因为苹果的手机大部分来看是比安卓的要贵的。有相应的收入能力才会去购买贵价的手机。有可能你使用的设备类型不同,会对你戴一些有色眼镜眼镜去看,例如使用华为P30,要为这种用户提供更高价格更高质量的广告。

RTB 的竞价,通过成功价格,能看到以往这种广告类型的成功价格应该是多少,如果要做一些国际广告,和国际的 adexchange 进行交互时,结算的币种有可能是美元。

MAC、IDFA 就是广告码,然后有一些识别码,都可以唯一标注一个用户,比如说 imei 能唯一标注一个用户。MAC 地址也能唯一标注一个用户。包含一部分用户的数据,比如说用户的邮箱,电话号码,姓名,年龄,但是这些数据不用太多关注,只需要通过这用户的标识进行行为判断即可。

相关文章
|
3月前
|
机器学习/深度学习 人工智能 算法
最大熵逆强化学习:理论基础、数学推导与工程实现
本文重点讨论逆强化学习(Inverse Reinforcement Learning, IRL),这是模仿学习的重要分支,其核心目标是基于演示数据学习能够最大化期望奖励的最优策略。
86 0
|
4月前
|
数据采集 缓存 自然语言处理
NLP驱动网页数据分类与抽取实战
本文探讨了使用NLP技术进行网页商品数据抽取时遇到的三大瓶颈:请求延迟高、结构解析慢和分类精度低,并以目标站点goofish.com为例,展示了传统方法在采集商品信息时的性能问题。通过引入爬虫代理降低封禁概率、模拟真实用户行为优化请求,以及利用关键词提取提升分类准确性,实现了请求成功率从65%提升至98%,平均请求耗时减少72.7%,NLP分类错误率下降73.6%的显著优化效果。最终,代码实现快速抓取并解析商品数据,支持价格统计与关键词分析,为构建智能推荐模型奠定了基础。
NLP驱动网页数据分类与抽取实战
|
开发框架 前端开发 Swift
SwiftUI的优缺点
SwiftUI的优缺点
552 0
|
JavaScript Java 测试技术
基于Java的政府项目管理平台的设计与实现(源码+lw+部署文档+讲解等)
基于Java的政府项目管理平台的设计与实现(源码+lw+部署文档+讲解等)
147 0
|
Prometheus 运维 监控
云原生时代如何用 Prometheus 实现性能压测可观测-Metrics 篇
可观测性包括 Metrics、Traces、Logs3 个维度。可观测能力帮助我们在复杂的分布式系统中快速排查、定位问题,是分布式系统中必不可少的运维工具。
云原生时代如何用 Prometheus 实现性能压测可观测-Metrics 篇
|
算法
Halcon拟合系列(3)直线拟合的实现步骤和相关算子
Halcon拟合系列(3)直线拟合的实现步骤和相关算子
2519 0
Halcon拟合系列(3)直线拟合的实现步骤和相关算子
|
存储 Ubuntu Cloud Native
【云原生 | 05】Docker中容器的创建与启停
首先Docker会检查本地是否存在基础镜像,如果本地还没有该镜像的话,那么Docker就会连接官方维护的Docker Hub Registry,查看Docker Hub中是否有该镜像。Docker一旦找到该镜像,就会下载该镜像并将其保存到本地宿主机中。 随后,Docker在文件系统内部用这个镜像创建了一个新容器。该容器拥有自己的网络、IP地址,以及一个用来和宿主机进行通信的桥接网络接口。..................
253 0
【云原生 | 05】Docker中容器的创建与启停
|
定位技术 Android开发 开发者
有些人无法在Google Play上找到我的应用,怎么办?
在Google Play上发布过应用的开发者也许都遇到过这种情况。用户抱怨说,用平板电脑在Google Play上找不到你的应用,但是用手机上(或者其它的设备)就可以找到。经过数小时苦苦寻一个合理的解释,最后还是放弃了。
378 0
有些人无法在Google Play上找到我的应用,怎么办?