带你读《2022技术人的百宝黑皮书》——基于特征全埋点的精排ODL实践总结(2) https://developer.aliyun.com/article/1246867?groupCode=taobaotech
UT行为日志解析
首先根据event_id,args,arg1以及trackkey,trackinfo等字段从UT日志流中过滤出业务所需的曝光和点击日志,并按一定格式写入TT用于在PyPorsche构建event。
以下是解析得到曝光日志并写入TT流的Blink代码片段,table中的字段可以根据实际需要更改:
create table r_ihome_lapp_content_expo ( pvid VARCHAR, user_id VARCHAR, item_id VARCHAR, server_timestamp VARCHAR ) with ( type='tt', topic='dwd_ihome_lapp_content_expo_sample', accessKey='' ); INSERT INTO r_ihome_lapp_content_expo select * FROM XXX WHERE YYY;
特征全埋点
在上一环节可以获取到业务场景内产生的曝光TT流和点击TT流,但ODL模型的训练除了需要userid,itemid,label等基本信息外,还需要对应user侧,item侧以及context侧特征。利用AMC特征中心的特征全埋点功能可以对线上参与打分的现场特征进行完整记录并落盘到TT中。
ODL 训练样本生成
上述两个环节完成后可以得到业务内的曝光点击以及全埋点特征TT流,接下来还需要将这些流数据按一定的规则进行关联,并产生最终可供ODL模型训练使用的流样本。
PyPorsche将ODL样本构建拆分为3个主要流程,分别为:
1. event流程构建
2. 流式样本骨架构建
3. ODL swift 样本构建
每一个流程环节只需要编写若干行Python代码即可完成开发。
带你读《2022技术人的百宝黑皮书》——基于特征全埋点的精排ODL实践总结(4) https://developer.aliyun.com/article/1246864?groupCode=taobaotech