TorchEasyRec的dbmtl 模型 config 详解

简介: DBMTL(Deep Bayesian Multi-Target Learning)是阿里开源的多任务学习模型,显式建模任务因果依赖(如CTR→CVR)。基于TorchEasyRec实现,采用共享Bottom MLP+双Tower结构,CVR Tower融合CTR中间表征,体现贝叶斯条件关系。

配置文件是:https://github.com/alibaba/TorchEasyRec/blob/master/examples/dbmtl_taobao.config


一、什么是 DBMTL

DBMTL = Deep Bayesian Multi-Target Learning,是一种多任务学习模型。

核心思想是利用贝叶斯任务关系建模——任务之间不是独立的,而是有因果依赖的。比如用户先"点击"才可能"购买",CVR 依赖于 CTR。

二、数据与特征

数据源

训练数据: odps://{PROJECT}/tables/taobao_multitask_sample_v1_train
评估数据: odps://{PROJECT}/tables/taobao_multitask_sample_v1/ds=20170513

从 MaxCompute 读取淘宝多任务样本数据,使用 FG_DAG 模式(C++ DAG 引擎处理特征)。

标签(双目标)


label_fields: "clk"   ← 是否点击(CTR 任务)
label_fields: "buy"   ← 是否购买(CVR 任务)

特征一览(16 个特征,全部 embeddingdim=16)

特征名 类型 含义 桶数/哈希
user_id IdFeature user 用户 ID 1,141,730
cms_segid IdFeature user 用户人群分段 98
cms_group_id IdFeature user 用户人群组 14
final_gender_code IdFeature user 性别 3
age_level IdFeature user 年龄段 8
pvalue_level IdFeature user 消费档次 5
shopping_level IdFeature user 购物频次等级 5
occupation IdFeature user 职业 3
new_user_class_level IdFeature user 新用户等级 6
adgroup_id IdFeature item 广告组 ID 846,812
cate_id IdFeature item 商品类目 12,961
campaign_id IdFeature item 营销活动 ID 423,438
customer IdFeature item 广告主 255,877
brand IdFeature item 品牌 461,498
price RawFeature item 价格(98 个分桶边界离散化) 99 桶
pid IdFeature context 广告资源位 hashbucket=20 |

9 个 user 特征 + 6 个 item 特征 + 1 个 context 特征,所有特征放入一个 "all" 特征组。

三、模型结构


image.png



对应配置中的各层:

① 共享底层 Bottom MLP

bottom_mlp { hidden_units: [512] }


所有特征 embedding 拼接后(256维)→ 512 维隐层。这是 CTR 和 CVR 共享的表征。

② CTR Tower(点击预测)

tower_name: "ctr"

label_name: "clk"

mlp { hidden_units: [256, 128, 64] }

loss: binary_cross_entropy

metric: auc



512 → 256 → 128 → 64 → 1,预测点击概率。

③ CVR Tower(购买预测)— 贝叶斯关系建模

tower_name: "cvr"

label_name: "buy"

mlp { hidden_units: [256, 128, 64] }       ← 本 tower 没有配 mlp!

relation_tower_names: "ctr"                  ← 依赖 CTR tower

relation_mlp { hidden_units: [64] }

loss: binary_cross_entropy

metric: auc (thresholds: 1000)


这是 DBMTL 的核心特点:CVR tower 没有配置自己的 mlp,所以直接用 bottom_mlp 的 512 维输出。然后:

  1. 将 bottom_mlp 输出(512维)与 CTR tower 的 MLP 输出(64维)做 concat(576维)
  2. 通过 relation_mlp [64] 融合(576 → 64)
  3. 线性层输出购买概率

这体现了贝叶斯因果链:P(buy) = P(buy|click) × P(click),CVR 的预测依赖 CTR 的中间表征。

四、训练参数

参数 含义
batch_size 8192 每批样本数
num_epochs 1 训练 1 轮
num_workers 8 数据加载并行度
sparse_optimizer Adagrad (lr=0.001) Embedding 参数优化器
dense_optimizer Adam (lr=0.001) MLP 参数优化器
学习率调度 constant 固定学习率

稀疏/稠密分离优化是推荐系统标准做法:Embedding 参数稀疏更新用 Adagrad,MLP 参数稠密更新用 Adam。

五、与普通多任务模型的区别

模型 任务关系
SharedBottom 共享底层,任务独立输出
MMoE 多专家 + 门控,任务独立但自适应选择专家
DBMTL 显式建模任务因果链(CTR → CVR),后续任务拼接前序任务的输出

配置中注释掉的 expert_mlpnum_expert 说明 DBMTL 也可以在 bottom 层加 MMoE,但这个例子选择了更简单的 shared bottom MLP 方案。

相关文章
|
2月前
|
存储 搜索推荐 Python
TorchRec大量使用Jagged Tensor
Jagged Tensor(锯齿张量)是专为变长序列设计的紧凑存储格式,用values+lengths/offsets替代padding,显著节省内存与计算。广泛应用于推荐系统中用户行为、多值标签等不等长特征处理,如HSTU模型中的拼接、拆分与矩阵乘法操作。
308 8
|
机器学习/深度学习 分布式计算 DataWorks
EasyRec 使用介绍|学习笔记
快速学习 EasyRec 使用介绍。
2155 0
|
6天前
|
机器学习/深度学习 人工智能 网络架构
深度解析:Transformer 的“灵魂”——QKV 变换的物理直觉
本文用图书馆检索等生活隐喻,从物理意义与认知科学角度解析Transformer中QKV设计的精妙本质:解耦查询(q)、键(k)、值(v)三重角色,实现语义分离、避免自注意力“自恋”,模拟人类动态信息路由的认知过程。(239字)
189 13
|
2月前
|
人工智能 安全 API
深度解析 Claude Code 在 Prompt / Context / Harness 的设计与实践
文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。
3205 75
深度解析 Claude Code 在 Prompt / Context / Harness 的设计与实践
|
3天前
|
SQL JSON 关系型数据库
企业级多模态分析计算引擎选型:阿里云 AnalyticDB MySQL 统一分析平台方案
阿里云AnalyticDB MySQL版是PB级云原生实时数据仓库,首创多模态统一分析引擎,单SQL原生支持SQL分析、向量检索、全文搜索与JSON分析,替代3–5套独立系统,综合成本降50%+,运维复杂度降80%,适用于AI+数据融合、多源异构统一查询等企业级场景。
110 17
企业级多模态分析计算引擎选型:阿里云 AnalyticDB MySQL 统一分析平台方案
|
2月前
|
存储 人工智能 安全
深度解析 OpenClaw 在 Prompt / Context / Harness 三个维度中的设计哲学与实践
本文的核心思路是从Prompt、Context和Harness这三个维度展开,分析OpenClaw的设计思路,提炼出其中可复用的方法论,来思考如何将这些精华的设计哲学应用到我们自己的Agent系统设计和业务落地中去。(文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。)
1786 38
深度解析 OpenClaw 在 Prompt / Context / Harness 三个维度中的设计哲学与实践
|
30天前
|
JSON 测试技术 API
GLM-5.1上线一个多月了,现在讨论变少了,我反而想聊聊它
实测显示GLM-5.1在指令遵从度和任务延续性上表现突出,虽与顶尖模型存在约5%性能差距,但性价比优势显著,已成为开发者工具箱中的重要选项。
410 6
|
26天前
|
人工智能 运维 数据安全/隐私保护
微信智能体 OpenClaw 2.7.1 部署与故障排查全解
OpenClaw(小龙虾)是专注微信私域自动化的开源AI智能体,支持本地、云端、命令行三模式部署,简化微信接入,保障连接稳定与数据安全,适用于客服、运营、助理等场景,附一键装机包及完整部署指南。
|
2月前
|
机器学习/深度学习 搜索推荐 数据处理
PAI-Rec推荐开发平台:企业级智能推荐解决方案,驱动业务全域增长
PAI-Rec是阿里云一站式推荐系统平台,集成多路召回、多目标精排(如DBMTL)、GPU加速推理与灵活迭代能力,已助力电商、直播、音视频等多行业提升点击率、转化率与ROI,实现高效、低成本、可自主演进的智能推荐。
379 16
|
2月前
|
人工智能 缓存 前端开发
SDD-RIPER 团队落地指南:如何让整个团队在一周内跑通大模型编程
本文给你一套可执行的团队落地方案:从安装到试点到全面推开,一周内让整个团队跑通大模型编程,并且质量可控、效果可量化。(文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。)
2110 19

热门文章

最新文章