重点开源了 CSANMT 连续语义增强机器翻译,这是我们最新研发的高质量神经机器翻译(NMT)模型,获得了 ACL2022 杰出论文奖。
CSANMT 模型由编码器(Encoder)、解码器(Decoder)和语义编码器(Semantic Encoder)三个单元构成。语义编码器可以在连续分布式语义空间捕捉源语言与目标语言的相似性,从而更加充分、更加高效地利用双语训练数据,不仅可以显著提升了翻译质量,而且能够有效改善了模型的泛化能力和鲁棒性。
首批开源的 CSANMT 模型包括中英、英中、英法 、法英、英西、西英等语向的模型,后续还将开源覆盖欧洲、东亚、东南亚等区域主要语种的 CSANMT 翻译模型。我们将对模型进行持续迭代优化,确保性能和体验处于业内领先水平。