扩散模型在图像生成任务上取得了较好的生成质量和令人满意的控制能力,因此在学术界和商业界都获得许多关注。然而,扩散模型的应用和理论工作都集中在连续空间上的 2D 图像生成,其他数据类型上的应用仍然在发展初期。文本的扩散生成面临的一个核心问题即如何将现有的连续扩散模型理论应用到离散的文本序列,目前存在两种主流的解决方案:将文本映射到连续空间或者采用广义的离散扩散过程。
机器之心最新一期线上分享邀请到了复旦大学卓博计划入选者贺正夫,为大家解读他们近期的工作 DiffusionBERT。
在这项工作中,作者们注意到离散扩散过程和 MLM 预训练模型的相似性,并利用预训练模型完成扩散生成过程,并针对其生成特性做出了两点针对性改进:首先去除了传统扩散模型 backbone 中的时间步模块,不为预训练模型引入任何新参数;再来,针对文本扩散生成过程的特点,重新调整了训练中的扩散过程,使其更接近采样阶段的输入分布。在无条件生成任务上的实验证明,DiffusionBERT 有远超现有扩散模型的收敛速度,并取得了更好的生成质量和多样性。