新冠状病毒疫情爆发,对人类的生命健康构成威胁,在中国尤其严重。 世界卫生组织呼吁国际社会现阶段应该把新冠病毒视为“头号公敌”。抗击疫情不仅仅是我们中国的事情。在世界范围内,关于病毒的研究,疫苗的进展,疫情的变化,相关研究论文每天都在不断出现。截止当地时间2月4日,至少已有77篇新型冠状病毒相关的英文研究文章发表。打破语言壁垒,第一时间同步国内外疫情研究最新进展,达摩院翻译团队紧急上线了公益平台--"新冠医疗领域专业翻译平台"。 免费提供中-英,英-中医疗领域的专业文档翻译,助力专业医疗人士抗疫。
专业医疗翻译引擎
此次上线的公益引擎,是基于当前最好的中英双向翻译模型进行迭代优化。我们采用先进的自动语料过滤技术收集大量高质量的医疗领域数据,并结合部分通用领域数据对模型进行参数精调,使得新翻译引擎能很好地适配医学专业领域场景,同时最大程度保留对其他领域的翻译性能。另外,我们采用了达摩院最新的干预技术来融合最新的疫情相关知识库双语术语,确保专业词汇的翻译准确度。在医疗领域的公开测试集上,新翻译引擎的总体翻译效果相比原来翻译模型提升了7%。
机器翻译核心算法
阿里翻译目前主要采用基于深度神经网络的翻译模型,采用seq-to-seq的翻译模型框架以句子级别作为输入,以subword 为最小翻译单元,逐句生成译文。我们采用了最先进的Deep Transformer网络架构,利用深层神经网络和self-attention机制提升模型能力,并在网络结构设计上高度并行化,显著了加速模型的训练收敛速度。 其次,充分利用语言学知识,融入更多的语言学先验知识有助于提升翻译系统质量。我们将句法、词性、词缀等信息融入翻译模型中,使生成的翻译更加符合语法、词法规范。
双语语料打分技术
通过对收集的双语语料进行质量自动评估,我们能够从大量带噪音的双语数据中收集到高质量领域数据,更好地实现模型的领域适应。以下是整个模型的架构:
- 图中右边部分:是模型的主要部分,一个预训练的双语专家模型(Bilingual Expert Model),这个模型与transformer NMT模型非常类似,但由于这个任务不是一个生成任务,因此我们将目标端改成了双向的transformer 模型。 这个模型可以有效的抽取出原文和译文的双向语言特征,这部分训练完成后会输出一个强大的双语语言模型。
- 图中左边部分:这是一个基于Bi-LSTM的质量评估模型,其中融合了从双语专家模型中获取的特征以及一些单词分布匹配特征,这些特征都能有效的预测语料质量。
机器翻译干预技术
自研神经网络翻译干预技术,有效利用外部先验知识提升翻译专业性并快速修正翻译错误,能够及时修复线上badcase,并满足定制化的翻译需求。具体来说,我们实现了线上翻译干预模块,能够实现较为顺滑的整句干预和片段干预。该技术广泛应用于电商、语音、沟通等翻译场景。对于医疗场景,阿里翻译通过这个技术能自然地融合最新的医疗双语知识库,确保专业词汇的翻译准确度。同时这项技术也支持用户自我定制术语的需求。
疫情专业词典支持
由于领域的特殊性,医学文献和报告中存在大量专业性较强的专用术语,给科研工作者和临床医生在阅读外文文献时造成了很大的理解障碍。而且,由于医学涉及专业领域广,细分学科多,即使对本专业英语熟悉的医生,在涉及跨科室、跨领域、跨学科的医学词汇时也会感到力不从心。针对这一痛点,公益平台收录了覆盖临床、生物、医药等十余个细分领域,规模超过50万的医学专业术语词典,并实时收录目前疫情相关的新增热门词汇及翻译,方便用户自主搜索。同时支持用户自主添加新的术语翻译,实时共享疫情最新检索热词。
疫情专业文献共享
新冠疫情爆发以来,一线科研人员和临床医生都很关注国内外对新冠病毒的解读和疫情发展、防控、治疗等方面的进展。目前公益平台收录来自新英格兰NEMJ、柳叶刀Lancet、Nature、Science、Journal of medical virology(JMV)、Journal of clinical medicine(JCM)等权威期刊,覆盖流行病学、病毒学、临床医学等领域近20篇论文,并给出中英文对照翻译文稿,免费提供用户阅读和下载,方便科研人员及时了解国内外疫情动态。同时,平台支持用户自主上传论文和自动生成译文,建立文献共享机制,方便更多文献的收录和查询。
功能优化
由于大部分文献都是以PDF的格式进行分享和传播的,所以阿里翻译专门针对PDF格式的文档翻译进行了优化。主要进行了如下优化:
- PDF文字解析:PDF文字解析,一般有采用OCR方式,或者直接解析PDF的方式。阿里翻译经过多个方案的对比调研之后,发现将PDF格式转换为Word的docx格式,可以更好的支持翻译之后文档的排版还原,所以采用了将PDF文件转换为docx文件,从而解析docx文件的方式,进行文档翻译。
- 保留排版样式:保留源PDF文件的内容排版,这样源文件和翻译之后的文件,对比查看,可以提升文献的阅读体验。阿里翻译在提取docx文件的文本内容的时候,同时保留文本所在位置等信息,从而在获取文本译文之后,结合源文本的位置信息,可以生成排版和源文件一样的翻译之后的文件。
- 文档支持Web和H5预览:同样,优化用户查看文档的阅读体验,我们使用了阿里云智能媒体管理(Intelligent Media Management,简称 IMM)支持文档的预览功能。
新冠医疗领域专业翻译平台入口:
电脑网页版:https://medtrans.damo.alibaba.com/medtrans.htm
手机钉钉版:
欢迎大家访问,使用和拍砖。任何意见和问题,欢迎到我们下面的交流群访问: