带你读《2022技术人的百宝黑皮书》——基于特征全埋点的精排ODL实践总结(3)

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 带你读《2022技术人的百宝黑皮书》——基于特征全埋点的精排ODL实践总结(3)

带你读《2022技术人的百宝黑皮书》——基于特征全埋点的精排ODL实践总结(2) https://developer.aliyun.com/article/1246867?groupCode=taobaotech



UT行为日志解析


首先根据event_id,args,arg1以及trackkey,trackinfo等字段从UT日志流中过滤出业务所需的曝光和点击日志,并按一定格式写入TT用于在PyPorsche构建event。


以下是解析得到曝光日志并写入TT流的Blink代码片段,table中的字段可以根据实际需要更改:


create table r_ihome_lapp_content_expo
(
 pvid VARCHAR,
 user_id VARCHAR,
 item_id VARCHAR,
 server_timestamp VARCHAR
) with (
 type='tt',
 topic='dwd_ihome_lapp_content_expo_sample',
 accessKey=''
);
INSERT INTO r_ihome_lapp_content_expo
select * FROM XXX WHERE YYY;


特征全埋点


在上一环节可以获取到业务场景内产生的曝光TT流和点击TT流,但ODL模型的训练除了需要userid,itemid,label等基本信息外,还需要对应user侧,item侧以及context侧特征。利用AMC特征中心的特征全埋点功能可以对线上参与打分的现场特征进行完整记录并落盘到TT中。


ODL 训练样本生成


上述两个环节完成后可以得到业务内的曝光点击以及全埋点特征TT流,接下来还需要将这些流数据按一定的规则进行关联,并产生最终可供ODL模型训练使用的流样本。


PyPorsche将ODL样本构建拆分为3个主要流程,分别为:

1. event流程构建

2. 流式样本骨架构建

3. ODL swift 样本构建


每一个流程环节只需要编写若干行Python代码即可完成开发。


带你读《2022技术人的百宝黑皮书》——基于特征全埋点的精排ODL实践总结(4) https://developer.aliyun.com/article/1246864?groupCode=taobaotech

相关实践学习
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
相关文章
|
机器学习/深度学习 数据采集 算法
【MATLAB】BiGRU神经网络回归预测算法
【MATLAB】BiGRU神经网络回归预测算法
1080 0
|
缓存 Java 数据库连接
|
机器学习/深度学习 算法 UED
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法。本文介绍 A/B 测试的基本概念、步骤及其在模型评估、算法改进、特征选择和用户体验优化中的应用,同时提供 Python 实现示例,强调其在确保项目性能和用户体验方面的关键作用。
414 6
|
存储 监控 关系型数据库
MySQL自增ID耗尽解决方案:应对策略与实践技巧
在MySQL数据库中,自增ID(AUTO_INCREMENT)是一种特殊的属性,用于自动为新插入的行生成唯一的标识符。然而,当自增ID达到其最大值时,会发生什么?又该如何解决?本文将探讨MySQL自增ID耗尽的问题,并提供一些实用的解决方案。
467 1
|
Kubernetes 负载均衡 调度
【Docker 专栏】Docker Swarm 与 Kubernetes 的选型指南
【5月更文挑战第8天】Docker Swarm 和 Kubernetes 是两大容器编排工具,各有优势。Docker Swarm 简单易用,适合小到中型规模,与 Docker 生态系统集成紧密;而 Kubernetes 功能强大,扩展性好,适用于大规模、复杂场景。选择时需考虑团队技术能力、应用需求及现有技术栈。Kubernetes 学习曲线较陡,Docker Swarm 则较平缓。
920 7
【Docker 专栏】Docker Swarm 与 Kubernetes 的选型指南
|
JavaScript Java
视频,音视频一个用Springboot + Vue开发的仿B站项目
视频,音视频一个用Springboot + Vue开发的仿B站项目
|
存储 Kubernetes 调度
K8s Pod亲和性、污点、容忍度、生命周期与健康探测详解(上)
本文全面探讨了Kubernetes集群中Pod的四种关键机制——Pod亲和性、污点(Taints)、容忍度(Tolerations)、生命周期以及健康探测,为读者提供了深入理解并有效应用这些特性的指南。
|
存储 SQL 关系型数据库
MySQL数据库:深入解析与应用实例
MySQL数据库:深入解析与应用实例
1439 0
|
算法
带你读《2022技术人的百宝黑皮书》——基于特征全埋点的精排ODL实践总结(1)
带你读《2022技术人的百宝黑皮书》——基于特征全埋点的精排ODL实践总结(1)
189 0
带你读《2022技术人的百宝黑皮书》——基于特征全埋点的精排ODL实践总结(1)
|
机器学习/深度学习 编解码 并行计算
深度学习的图像超分技术综述-输入单张图像(SISR)和输入多张图像的基于参考的图像(RefSR)
深度学习的图像超分技术综述-输入单张图像(SISR)和输入多张图像的基于参考的图像(RefSR)
776 0