推荐:OpenAI 的 DALL·E 迎来升级,不止文本生成图像,还可二次创作。
论文 6:Rethinking Document-level Neural Machine Translation
- 作者:Zewei Sun 、 Mingxuan Wang 等
- 论文链接:https://arxiv.org/abs/2010.08961
摘要:一篇由字节跳动 AI-Lab 火山翻译团队、南京大学与加州圣塔芭芭拉分校共同发表在 ACL 2022 的长文 —— Rethinking Document-level Neural Machine Translation。
这篇论文重新审视了篇章机器翻译领域的过往工作,针对当下流行的研究趋势进行了反思,并提出回归到经典简洁的 Transformer 模型解决篇章翻译问题,通过多分解度的训练方案取得了 SOTA 的效果。最后,这篇文章也贡献了一份新的数据集,旨在推动整个领域的发展。
本文介绍了一种新的篇章级别神经机器翻译的方法:「篇章到篇章」(Doc2Doc)的翻译。
首先,我们需要定义这个任务:令表示一个包含 M 句话的源端篇章,篇章翻译的目标是将从语言x翻译到语言,其中表示第句话的长度。
区别于「篇章到句子」的翻译,字节 AI Lab 的研究者提出了一项新的训练方式——「篇章到篇章」的翻译。将整篇文档作为一个完整的序列送入模型中:
其中 D_x 是源端的完整序列信息,y<i 是目标端的历史信息。
推荐:字节 AI Lab 提出篇章到篇章的机器翻译新思路。
论文 7:StyTr^2 :Image Style Transfer with Transformers
- 作者:Yingying Deng 、 Fan Tang 等
- 论文链接:https://arxiv.org/abs/2105.14576
摘要:图像风格化是一个有趣且实用的课题,它可以使用参考的风格图像来呈现内容图像,多年以来在学术界被广泛研究,并已在包括短视频领域在内的业界得到大规模的落地应用。例如,移动互联网用户可以通过快手主站、极速版、一甜相机和快影等一系列 APP,体验包括手绘、水彩、油画和 Q 版萌系风格在内的各种人像风格化特效。
本文针对基于 CNN 的风格化方法存在的内容表达存在偏差的问题,提出了一种新颖的图像风格化算法,即 StyTr^2。
为了利用 Transformer 捕获长期依赖关系的能力来实现图像风格化,本文设计了图 2 中结构,模型主要包括三部分:内容 Transformer 编码器,风格 Transformer 编码器和 Transformer 解码器。内容 Transformer 编码器和风格 Transformer 编码器分别用来编码内容域和风格域的图片的长程信息,这种编码方式可以有效避免细节丢失问题。Transformer 解码器用来将内容特征转换为带有风格图片特征的风格化结果。
图 2 网络结构
此外,本文针对传统位置编码提出两个重要问题。第一,对于图像生成任务,在计算 PE(位置编码)时,是否应该考虑图像语义? 传统的 PE 是根据按照逻辑排序的句子来设计的,而图像序列是根据图像内容语义来组织的。假设两个图像补丁之间的距离为 d(.,.) 。如图 3(a) 右边部分所示,d((0 , 3 ), (1 , 3 )) (红色和绿色块) 之间的差异与 d(( 0 , 3 ), (3 , 3 )) (红色和青色 块) 之间的差异应该是相似的,因为风格化任务要求相似的内容补丁有相似的风格化结果。第二,当输入图像尺寸呈指数级增大时,传统的正弦位置编码是否仍然适用于视觉任务? 如 3(a) 所示,当图像大小发生变化时,相同语义位置的补丁 (用蓝色小矩形表示) 之间的相对距离会发生显著变化,这不适合视觉任务中的多尺度输入要求。
图 3 CAPE 计算示意图
为此,本文提出了内容感知的位置编码 (Content-Aware Positional Encoding,CAPE),它具有尺度不变且与内容语义相关的特点,更适合于风格化任务。
推荐:快手联合中科院自动化所提出基于 Transformer 的图像风格化方法。
ArXiv Weekly Radiostation