DiffusionBERT项目原作解读:掩码预训练语言模型的扩散生成探索

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: DiffusionBERT项目原作解读:掩码预训练语言模型的扩散生成探索


扩散模型在图像生成任务上取得了较好的生成质量和令人满意的控制能力,因此在学术界和商业界都获得许多关注。然而,扩散模型的应用和理论工作都集中在连续空间上的 2D 图像生成,其他数据类型上的应用仍然在发展初期。文本的扩散生成面临的一个核心问题即如何将现有的连续扩散模型理论应用到离散的文本序列,目前存在两种主流的解决方案:将文本映射到连续空间或者采用广义的离散扩散过程。

机器之心最新一期线上分享邀请到了复旦大学卓博计划入选者贺正夫,为大家解读他们近期的工作 DiffusionBERT。

在这项工作中,作者们注意到离散扩散过程和 MLM 预训练模型的相似性,并利用预训练模型完成扩散生成过程,并针对其生成特性做出了两点针对性改进:首先去除了传统扩散模型 backbone 中的时间步模块,不为预训练模型引入任何新参数;再来,针对文本扩散生成过程的特点,重新调整了训练中的扩散过程,使其更接近采样阶段的输入分布。在无条件生成任务上的实验证明,DiffusionBERT 有远超现有扩散模型的收敛速度,并取得了更好的生成质量和多样性。

相关文章
|
2月前
|
机器学习/深度学习 人工智能 编解码
[大语言模型-论文精读] 词性对抗性攻击:文本到图像生成的实证研究
[大语言模型-论文精读] 词性对抗性攻击:文本到图像生成的实证研究
39 0
|
2月前
|
机器学习/深度学习 人工智能 算法
[大语言模型-论文精读] Diffusion Model技术-通过时间和空间组合扩散模型生成复杂的3D人物动作
[大语言模型-论文精读] Diffusion Model技术-通过时间和空间组合扩散模型生成复杂的3D人物动作
26 0
|
4月前
|
人工智能 自动驾驶 测试技术
ECCV 2024:是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了
【8月更文挑战第19天】多模态大模型(MLLMs)能依据视觉输入生成回应,但常过度依赖文本预训练知识,忽略视觉信息,导致回应与图像不符的问题。新论文提出“Bootstrapped Preference Optimization (BPO)”方法,通过引入含偏差的样本进行偏好学习,以减少文本偏倚的影响并提高模型可靠性。实验表明该方法有效改善了模型性能,但在构建偏好数据集方面仍面临挑战。论文链接: https://arxiv.org/pdf/2403.08730
49 2
|
6月前
|
人工智能 vr&ar 计算机视觉
CVPR 2024:让图像扩散模型生成高质量360度场景,只需要一个语言模型
【6月更文挑战第20天】CVPR 2024研究表明,结合语言模型的图像扩散模型能高效生成360度全景图像,减少对标注数据的依赖。该框架利用语言模型的语义信息引导细节丰富的图像生成,解决了传统方法的标注难题。然而,方法的准确性和计算资源需求是挑战。这一进展推动了VR/AR图像生成技术的发展。[论文链接](https://arxiv.org/pdf/2406.01843)**
76 6
|
7月前
|
人工智能 计算机视觉
论文介绍:MDTv2——提升图像合成能力的掩码扩散变换器
【5月更文挑战第18天】MDTv2是掩码扩散变换器的升级版,旨在增强图像合成模型DPMs处理语义关系的能力。通过掩码操作和不对称扩散变换,MDTv2能学习图像的完整语义信息,提升学习效率和图像质量。MDTv2采用优化的网络结构和训练策略,如长快捷方式、密集输入和时间步适应损失权重,实现SOTA性能,FID分数达到1.58,训练速度比DiT快10倍。尽管计算成本高和泛化能力待验证,MDTv2为图像合成领域开辟了新方向。[链接: https://arxiv.org/abs/2303.14389]
193 1
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
论文介绍:自我对弈微调——将弱语言模型转化为强语言模型的新方法
【5月更文挑战第17天】论文《自我对弈微调》提出了一种新方法,名为SPIN,用于在无需额外人工标注数据的情况下增强大型语言模型(LLM)。SPIN利用自我对弈机制,让模型通过与自身历史版本交互生成自我训练数据,实现性能提升。该方法在多个基准数据集上表现出色,超越了传统监督微调和直接偏好优化。SPIN还为生成对抗网络研究提供了新思路,展示了自我对弈在强化学习和深度学习中的潜力。实验表明,SPIN有效提升了模型性能,为未来研究奠定了基础。[[arxiv](https://arxiv.org/abs/2401.01335v1)]
73 3
|
7月前
|
机器学习/深度学习
YOLOv8改进 | 2023主干篇 | RepViT从视觉变换器(ViT)的视角重新审视CNN
YOLOv8改进 | 2023主干篇 | RepViT从视觉变换器(ViT)的视角重新审视CNN
406 1
YOLOv8改进 | 2023主干篇 | RepViT从视觉变换器(ViT)的视角重新审视CNN
|
7月前
|
机器学习/深度学习 编解码
YOLOv5改进 | 2023主干篇 | RepViT从视觉变换器(ViT)的视角重新审视CNN
YOLOv5改进 | 2023主干篇 | RepViT从视觉变换器(ViT)的视角重新审视CNN
315 0
|
7月前
|
机器学习/深度学习 自然语言处理 算法
【深度学习】常用算法生成对抗网络、自编码网络、多层感知机、反向传播等讲解(图文解释 超详细)
【深度学习】常用算法生成对抗网络、自编码网络、多层感知机、反向传播等讲解(图文解释 超详细)
111 0
|
机器学习/深度学习 存储 缓存
深度学习应用篇-计算机视觉-视频分类8:时间偏移模块(TSM)、TimeSformer无卷积视频分类方法、注意力机制
深度学习应用篇-计算机视觉-视频分类8:时间偏移模块(TSM)、TimeSformer无卷积视频分类方法、注意力机制
深度学习应用篇-计算机视觉-视频分类8:时间偏移模块(TSM)、TimeSformer无卷积视频分类方法、注意力机制

热门文章

最新文章