日前,国际AI顶级会议ACL 2022论文收录及获奖信息正式揭晓:
阿里巴巴25篇论文被接受,其中达摩院的机器翻译工作《Learning to generalize to More: Continuous Semantic Augmentation for Neural Machine Translation》从全球3000多篇投稿论文中脱颖而出,获得杰出论文奖,这也是国内唯一一篇第一作者为中国企业的获奖论文。
神经机器翻译是目前的主流AI翻译技术,需要从大量双语数据中学习翻译能力。
然而双语数据有限且获取成本很高,翻译质量的提升遇到诸多困难,数据稀缺的场景问题更加凸显。
针对这一问题,该论文突破了传统离散语义空间数据增强方法:
以有限的训练样本为锚点,学习连续语义分布以建模全局的句子空间,并据此构建神经机器翻译引擎,有效提升数据的利用效率,显著改善模型的泛化能力和鲁棒性。
实验结果显示,该技术在多个公开数据集上均取得了最佳效果:
在使用同等双语数据的前提下:该技术相比传统方法,连续语义增强能够显著提升翻译质量。
只使用少量双语数据的情况下:该技术也能充分学习,达到与传统方法使用全部双语数据同等的效果。
目前,该技术已应用于AliExpress国际化电商翻译场景,为全球商家提供精准的多语种翻译服务,并显著提升商品转化效率。
阿里达摩院机器翻译工作斩获ACL 2022杰出论文奖
截至当前,达摩院机器翻译技术团队已在AI顶级会议/期刊发表机器翻译相关学术论文50余篇,在国际顶级机器翻译大赛WMT 2018、WMT2021的多个评测任务取得第一;曾获得浙江省科技进步二等奖,入选工信部新一代人工智能产业创新重点任务揭榜优胜单位。
/ END /