机器同传技术及应用
- 从机器翻译到机器同传
- 同传关键问题与解决方案
- 中英语音翻译数据集——BSTC
- 同传研究和落地问题探讨
从机器翻译到机器同传
信息传递效率高:3-4秒延迟
任务难度大:15-20分钟需要休息
- 源语言:监听、记忆、理解
- 目标语言:组织、修正、表达
同传关键问题与解决方案
- 难点一、语音识别错误带来噪声
- 难点二、平衡翻译效果和时延的Policy
同传模型举例——以信息单元为粒度的同传模型
同传关键问题与解决方案
语音识别错误带来噪声 => 更鲁棒的ASR
高翻译准确和低延时之间矛盾 => Policy
平衡翻译质量与延时——Policy
https://github.com/PaddlePaddle/PaddleNLP/blob/develop/examples/simultaneous_translation/stacl/
中英语音翻译数据集——BSTC
同传研究和落地问题探讨