带你读《2022技术人的百宝黑皮书》——基于特征全埋点的精排ODL实践总结(7) https://developer.aliyun.com/article/1246860?groupCode=taobaotech
流程调度
在实验阶段以7天为周期对ODL模型进行重新加载批模型参数初始化和在线学习。一个完整的ODL任务涉及到了
1. 批模型训练并产出模型版本
2. ODL模型从批模型加载参数初始化并创建新版本
3. ODL模型新版本和参数更新的topic配置推送到rtp,等待RTP进行模型索引构建和切换
4. ODL训练任务启动,定期推送更新的参数至RTP
整个流程涉及到了不同任务的调度和对RTP索引构建和业务切换状态的监控,AOP pipeline对上述业务逻辑进行了抽象并提供了一套api供算法同学串联起全流程并定期调度。
在线参数生效监控
当一切流程正常运行后,可以通过AOP-模型管理中的增量版本菜单查看线上参数是否生效以及生效的时间。
参数更新的状态包括3种:
1. FINISHED:已发送且确认上线完成,该状态下会产出生效时间
2. PUSH_ONLINE:已发送待确认
3. SWITCH_TIMEOUT:超过6个小时没切换完成
注意如果修改过odl_model_update的emb_size_thd可能导致该功能无法正常产生结果。这是因为模型部署时RTP会按一定规则产生sparse和dense两种索引,修改该参数会导致对一些变量检测时查了另外的索引,从而无法获取的对应变量的更新状态。
带你读《2022技术人的百宝黑皮书》——基于特征全埋点的精排ODL实践总结(9) https://developer.aliyun.com/article/1246855?groupCode=taobaotech