TorchEasyRec中mc_ebc 和EmbeddingBagCollection 有什么区别?

简介: mc_ebc(Managed Collision Embedding Bag Collection)是TorchEasyRec中支持冲突管理的嵌入表集合,基于EmbeddingBagCollection扩展,通过动态追踪ID、智能分配槽位及ZCH策略,显著降低哈希冲突。含mc_ebc_user等变体,并含分布式修复函数。

mc_ebc 是 Managed Collision Embedding Bag Collection 的缩写。

  • ebc = EmbeddingBagCollection:torchrec 的标准嵌入表集合
  • mc = ManagedCollision(管理冲突):torchrec 的一种特殊 Embedding 机制,用于自动处理哈希冲突

ManagedCollision 的作用

普通 EmbeddingBagCollection 使用固定大小的 hash bucket(num_buckets),不同 ID 哈希到同一个 bucket 时会发生冲突,共享同一个 embedding 向量。

ManagedCollisionEmbeddingBagCollection 在此基础上增加了一层冲突管理策略(ManagedCollisionCollection),能够:

  • 动态追踪哪些 ID 实际出现过
  • 智能分配 embedding 槽位,减少高频 ID 的哈希冲突
  • 支持 ZCH(Zero Collision Hashing)等策略

在代码中的使用

从 embedding.py 可以看到模型中同时存在两类 Embedding:

ebc        普通 EmbeddingBagCollection(固定哈希)
mc_ebc     ManagedCollisionEmbeddingBagCollection(冲突管理)

在 INPUT_TILE=3 模式下还会进一步拆分出 user 侧:mc_ebc_user。

dist_util.py 中 mcebc_input_dist 函数的目的

_mc_ebc_input_dist 是一个 monkey-patch 修复函数(见注释 fix missing create_mean_pooling_callback of mc-ebc input_dist),用于修复 torchrec 在分布式场景下 mc_ebc 的 input_dist(输入分发)阶段缺少 mean_pooling_callback 初始化的问题。

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
26天前
|
人工智能 弹性计算 自然语言处理
阿里云轻量应用服务器部署OpenClaw,以及OpenClaw Web页面集成图文教程
本文介绍了在购买阿里云轻量应用服务器部署OpenClaw应用镜像的步骤、费用说明及配置流程,以及OpenClaw Web页面集成教程,包括如何配置OpenClaw、创建AI助手、实现Web页面集成等。此外,还解答了如何重启OpenClaw网关、查看端口号、更改调用模型等常见问题。通过本文,用户可快速掌握OpenClaw从本地部署到Web集成的完整路径。
|
2月前
|
开发者 Python
Python 中鲜为人知的 `else` 子句:不止用于条件判断
Python 中鲜为人知的 `else` 子句:不止用于条件判断
327 150
|
26天前
|
人工智能 API 开发工具
Coding Plan百科:阿里云百炼Coding Plan订阅套餐介绍、购买链接及使用注意事项解析
阿里云百炼Coding Plan是面向AI编程的订阅制服务,开通百炼官网:https://t.aliyun.com/U/fPVHqY 现仅售Pro版(200元/月),限量抢购(每日9:30开售)。整合Qwen、Kimi、GLM等多模型,提供每月9万次请求额度,支持主流AI开发工具。开通百炼可免费领7000万Tokens。注意:Lite版已下架,首月优惠活动暂停,不支持退款。
1485 7
|
2月前
|
安全 PHP
PHP 技巧:5 个提升代码质量的实用写法
PHP 技巧:5 个提升代码质量的实用写法
224 144
|
2月前
|
人工智能 监控 安全
全球身份诈骗高发态势、技术机理与全维度防御体系研究
本文系统剖析身份诈骗五大类型(钓鱼、账户劫持、SIM置换、合成身份、社交信息滥用)的技术机理与产业化趋势,提出覆盖事前预防、事中监测、事后处置的闭环防御体系,并提供可工程化落地的代码示例,实测攻击成功率降至4.7%以下。(239字)
106 2
|
24天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
本文介绍了Claude Code终端AI助手的使用指南,主要内容包括:1)常用命令如版本查看、项目启动和更新;2)三种工作模式切换及界面说明;3)核心功能指令速查表,包含初始化、压缩对话、清除历史等操作;4)详细解析了/init、/help、/clear、/compact、/memory等关键命令的使用场景和语法。文章通过丰富的界面截图和场景示例,帮助开发者快速掌握如何通过命令行和交互界面高效使用Claude Code进行项目开发,特别强调了CLAUDE.md文件作为项目知识库的核心作用。
20223 61
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
|
8天前
|
机器学习/深度学习 数据采集 人工智能
跨越鸿沟:传统产品经理如何迈向AI产品经理的黄金赛道
跨越鸿沟:传统产品经理如何迈向AI产品经理的黄金赛道
|
3天前
|
弹性计算 数据可视化
阿里云服务器管理控制台(后台)在哪登录?统一阿里云后台链接入口整理,一键直达
阿里云服务器管理控制台是ECS与轻量应用服务器的统一可视化后台,支持重启、远程连接、重装系统等操作。主入口为控制台首页(home.console.aliyun.com),亦可直连ECS官网:https://t.aliyun.com/U/AZBUsA 或轻量官网:https://t.aliyun.com/U/dwftch
138 8
|
4天前
|
人工智能 JavaScript 数据可视化
阿里云/本地部署Hermes Agent/OpenClaw+免费大模型配置+Cherry Studio可视化安装教程,零代码玩转AI Agent
2026年,AI Agent生态的内卷已从“功能竞争”转向“门槛降低”——OpenClaw(曾用名Clawdbot)作为开源AI代理框架的标杆产品,凭借强大的自动化能力圈粉无数,但传统命令行部署模式让大量零基础用户望而却步。而Cherry Studio v1.7.17及以上版本的推出,彻底打破这一壁垒:通过可视化界面实现OpenClaw一键安装,自动检测并补全依赖环境,无需手动输入复杂命令,小白也能在10分钟内完成部署。
214 4
|
15天前
|
存储 缓存 数据库
【开源剪映小助手】核心功能详解
CapCut Mate 是基于 Python 的剪映自动化工具,通过 FastAPI 提供 RESTful 接口,支持草稿管理、媒体处理、效果编辑与视频生成全流程自动化。采用分层模块化架构,具备双文件模板兼容、智能缓存、异步渲染及完善故障排查能力。(239字)

热门文章

最新文章