备案控制台

开发者社区 ModelScope模型即服务文章正文

DiffusionBERT项目原作解读：掩码预训练语言模型的扩散生成探索

2023-05-19 304

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

交互式建模 PAI-DSW，每月250计算时 3个月

模型训练 PAI-DLC，100CU*H 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

简介： DiffusionBERT项目原作解读：掩码预训练语言模型的扩散生成探索

扩散模型在图像生成任务上取得了较好的生成质量和令人满意的控制能力，因此在学术界和商业界都获得许多关注。然而，扩散模型的应用和理论工作都集中在连续空间上的 2D 图像生成，其他数据类型上的应用仍然在发展初期。文本的扩散生成面临的一个核心问题即如何将现有的连续扩散模型理论应用到离散的文本序列，目前存在两种主流的解决方案：将文本映射到连续空间或者采用广义的离散扩散过程。

机器之心最新一期线上分享邀请到了复旦大学卓博计划入选者贺正夫，为大家解读他们近期的工作 DiffusionBERT。

在这项工作中，作者们注意到离散扩散过程和 MLM 预训练模型的相似性，并利用预训练模型完成扩散生成过程，并针对其生成特性做出了两点针对性改进：首先去除了传统扩散模型 backbone 中的时间步模块，不为预训练模型引入任何新参数；再来，针对文本扩散生成过程的特点，重新调整了训练中的扩散过程，使其更接近采样阶段的输入分布。在无条件生成任务上的实验证明，DiffusionBERT 有远超现有扩散模型的收敛速度，并取得了更好的生成质量和多样性。

-开发达人-

目录

相关文章

楠竹11

|

10月前

|

自然语言处理

论文介绍：语言模型如何解释语言模型中的神经元

【2月更文挑战第22天】论文介绍：语言模型如何解释语言模型中的神经元

楠竹11

56 2 2

论文介绍：语言模型如何解释语言模型中的神经元

楠竹11

|

2月前

|

人工智能机器人

LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划

纽约大学Gaoyue Zhou等人提出DINO World Model（DINO-WM），利用预训练视觉特征构建世界模型，实现零样本规划。该方法具备离线训练、测试时行为优化和任务无关性三大特性，通过预测未来补丁特征学习离线行为轨迹。实验表明，DINO-WM在迷宫导航、桌面推动等任务中表现出强大的泛化能力，无需依赖专家演示或奖励建模。论文地址：https://arxiv.org/pdf/2411.04983v1。

楠竹11

62 21 21

sp_fyf_2024

|

5月前

|

机器学习/深度学习人工智能自然语言处理

【大语言模型-论文精读】谷歌-BERT：用于语言理解的预训练深度双向Transformers

【大语言模型-论文精读】谷歌-BERT：用于语言理解的预训练深度双向Transformers

sp_fyf_2024

354 1 1

sp_fyf_2024

|

5月前

|

自然语言处理达摩院数据挖掘

[大语言模型-论文精读] 阿里巴巴-通过多阶段对比学习实现通用文本嵌入

[大语言模型-论文精读] 阿里巴巴-通过多阶段对比学习实现通用文本嵌入

sp_fyf_2024

121 1 1

sp_fyf_2024

|

5月前

|

数据采集机器学习/深度学习人工智能

[大语言模型-论文精读] 利用多样性进行大型语言模型预训练中重要数据的选择

[大语言模型-论文精读] 利用多样性进行大型语言模型预训练中重要数据的选择

sp_fyf_2024

125 0 0

sp_fyf_2024

|

5月前

|

机器学习/深度学习人工智能算法

[大语言模型-论文精读] Diffusion Model技术-通过时间和空间组合扩散模型生成复杂的3D人物动作

[大语言模型-论文精读] Diffusion Model技术-通过时间和空间组合扩散模型生成复杂的3D人物动作

sp_fyf_2024

77 0 0

楠竹11

|

7月前

|

人工智能自动驾驶测试技术

ECCV 2024：是真看到了，还是以为自己看到了？多模态大模型对文本预训练知识的过度依赖该解决了

【8月更文挑战第19天】多模态大模型（MLLMs）能依据视觉输入生成回应，但常过度依赖文本预训练知识，忽略视觉信息，导致回应与图像不符的问题。新论文提出“Bootstrapped Preference Optimization (BPO)”方法，通过引入含偏差的样本进行偏好学习，以减少文本偏倚的影响并提高模型可靠性。实验表明该方法有效改善了模型性能，但在构建偏好数据集方面仍面临挑战。论文链接: https://arxiv.org/pdf/2403.08730

楠竹11

78 2 2

Deephub

|

9月前

|

编解码机器人测试技术

2024年6月计算机视觉论文推荐：扩散模型、视觉语言模型、视频生成等

6月还有一周就要结束了，我们今天来总结2024年6月上半月发表的最重要的论文，重点介绍了计算机视觉领域的最新研究和进展。

Deephub

220 8 8

楠竹11

|

9月前

|

机器学习/深度学习自然语言处理

解决Transformer根本缺陷，CoPE论文爆火：所有大模型都能获得巨大改进

【6月更文挑战第9天】CoPE论文提出了一种新方法，解决Transformer模型位置处理缺陷，通过上下文依赖的位置编码增强序列元素识别，改进选择性复制、计数等任务，提升语言建模和编码任务的困惑度。但CoPE增加模型复杂性，可能受模型大小和数据量限制，且过度依赖上下文可能引入偏见。[https://arxiv.org/pdf/2405.18719]

楠竹11

118 6 6

楠竹11

|

10月前

|

机器学习/深度学习人工智能自然语言处理

论文介绍：自我对弈微调——将弱语言模型转化为强语言模型的新方法

【5月更文挑战第17天】论文《自我对弈微调》提出了一种新方法，名为SPIN，用于在无需额外人工标注数据的情况下增强大型语言模型（LLM）。SPIN利用自我对弈机制，让模型通过与自身历史版本交互生成自我训练数据，实现性能提升。该方法在多个基准数据集上表现出色，超越了传统监督微调和直接偏好优化。SPIN还为生成对抗网络研究提供了新思路，展示了自我对弈在强化学习和深度学习中的潜力。实验表明，SPIN有效提升了模型性能，为未来研究奠定了基础。[[arxiv](https://arxiv.org/abs/2401.01335v1)]

楠竹11

98 3 3

ModelScope模型即服务

热门文章

最新文章

阿里云通义千问向全社会开放！

通义万相Wan2.1视频模型开源！视频生成模型新标杆，支持中文字效+高质量视频生成

高效部署通义万相Wan2.1：ComfyUI文生/图生视频实战，工作流直取！

WeaveFox：蚂蚁集团推出 AI 前端智能研发平台，能够根据设计图直接生成源代码，支持多种客户端和技术栈

Trae 接入 Claude 3.7：AI 编程工具界的“卷王”，完全免费使用！

Qwen2.5-Max：阿里通义千问超大规模 MoE 模型，使用超过20万亿tokens的预训练数据

阿里开源AI视频生成大模型 Wan2.1：14B性能超越Sora、Luma等模型，一键生成复杂运动视频

深度评测 | 仅用3分钟，百炼调用满血版 Deepseek-r1 API，百万Token免费用，简直不要太爽。

高效部署通义万相Wan2.1：使用Gradio搭建WebUI体验实战

DeepSeek开源周第五弹之一！3FS：支撑V3/R1模型数据访问的高性能分布式文件系统

Chat2SVG – 文本描述实现高质量矢量图形的生成框架

Kiss3DGen：基于图像扩散模型的3D资产生成框架

TheoremExplainAgent – AI教学双智能体，数理化定理自动转动画

PodAgent：港中文、微软、小红书联合推出的播客生成框架

SpatialVLA：上海AI Lab联合上科大推出的空间具身通用操作模型

Archon – 开源 AI 智能体框架，自主生成代码构建 AI 智能体

AVD2：清华联合复旦等机构推出的自动驾驶事故视频理解与生成框架

QwQ-32B开源！更小尺寸，仅1/20参数性能比肩满血R1

阿里通义开源推理模型新王者！QwQ-32B：性能直逼671B的DeepSeek-R1

有没有推荐的图生图大模型；自己本地部署，然后API实现传图生图

相关课程

更多

【深度有趣】上海交大博士带你玩转GAN生成对抗网络

计算机视觉类比赛汇总

神经网络与深度学习

机器学习基础与回归算法

创空间应用训练个性化模型

神经网络概览及算法详解

相关电子书

更多

基于神经网络的语言合成

深度学习论文实现：空间变换网络-第一部分

机器能理解上下文吗 RNN和LSTM神经网络的原理及应用

相关实验场景

更多

如何快速训练大模型

使用PAI+LLaMA Factory微调Qwen2-VL模型，搭建文旅领域知识问答机器人

AI克隆声音，基于函数计算部署GPT-Sovits语音生成模型

使用PAI-快速开始，低代码实现大语言模型微调和部署

AIGC Stable Diffusion文生图Lora模型微调实现虚拟上装

推荐系统入门之使用ALS算法实现打分预测

下一篇

通义万相：视觉生成大模型再进化