如何让机器拥有人类的智慧?| 论文访谈间 #09

简介:

在神经机器翻译(Neural Machine Translation, NMT)中,由于机器不具有人类的智慧,因此常常会犯一些低级的错误。例如,在中-英翻译中,原中文句子含有 10 个词,而机器却有时翻译出一个含有 50 个词的句子或者是只含有 2 个词的句子。 不管内容如何,在人类看来这样的翻译很显然是不对的。那么如何能让机器拥有人类的智慧,从而避免这种低级的错误呢?近日,我们有幸采访到了清华大学的张嘉成,介绍他发表在 ACL2017 上的工作 - Prior Knowledge Integration for Neural Machine Translation using Posterior Regularization。 


我们常常将“人类的智慧”称为“先验知识(prior knowledge)”。如何将“先验知识”融合到机器学习模型中?该工作沿用了 Kuzman Ganchev 等人在 2010 年提出的“后验正则化(Posterior Regularization, PR)”方法。该方法可以表示为公式 (1),(2)。其中公式 (2) 代表先验知识的约束;公式 (1) 表示为使得模型求出的后验分布 P(y|x) 和先验分布 q(y) 尽可能地接近,将两者的 KL 距离作为模型目标函数的正则项。但是这个方法难以直接应用到 NMT 领域,原因有两点:1)对于不同的先验知识,很难给出一个固定的 b 作为边界值;2)训练目标是一个 max-min 问题,需要通过 EM 算法求解,难以通过基于导数的优化方法训练。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


因此在张嘉成等人的工作中,他们将公式 (2) 中的约束集合替换为对数线性模型表示的先验分布,如公式 (3),(4) 所示。公式 (4) 中的 ϕ(x,y) 代表“特征函数”,对于不同句对 (x, y),先求出其特征值并乘以权重参数 γ,再经过 softmax 得到先验分布 Q(y|x),该分布即为原方法中的 q(y)。经过这种改进,使得模型可以直接利用基于导数的优化方法训练,而不需使用 EM 算法进行求解。同时,特征函数 ϕ(x,y) 可以有不同的定义,因此增大了模型的通用性和可扩展性。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


为引入不同的先验知识,文章中采用了 4 类特征: 


1. 双语词典特征:人的先验知识中包含词和词的对应关系,例如,爱-love。因此,对于双语词典 D 中的任意一个词对 <x, y>,该特征值定义为公式 (5)。含义为,如果该词对出现在翻译句对中,则记 1。也就是对于一个翻译句对,该特征表示“原句和翻译句中出现的词对的数量”。目的是鼓励按照词典进行翻译。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


2. 短语表特征:同样,人还知道词组和词组的对应关系,例如:纽约- New York。因此这个特征的定义和双语词典特征类似,如公式(6)所示。对于外部短语表中的任意短语对<x ̃, y ̃>, 如果出现在翻译句对中,则记1。也就是对于一个翻译句对,该特征表示“原句和翻译句中出现的短语对的数量”。目的是鼓励按照短语表进行翻译。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

3. 覆盖度惩罚特征:人的先验知识认为原句中的词都会提供信息量,都应该参与翻译。文章沿用了 Yonghui Wu 等人在提出的覆盖度惩罚的定义,如公式 (7) 所示。其中 α_ij 是 NMT 注意力机制中第 j 个目标词对第 i 个源端词的注意力,因此在很少得到注意的源端词处惩罚较大。目的是惩罚源语言中没有被充分翻译的词。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


4. 长度比例特征:例如,人知道一般情况下英文句长度约为对应中文句的 1.2 倍。因此文章定义了公式 (8) 所示的长度比例特征,目的是鼓励翻译长度落在合理的范围内。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


最后,因为在训练过程中不可能穷尽所有可能的翻译,因此采用了近似的方法,采样一部分可能的翻译进行 KL 距离的估计,如公式 (9) 所示。在解码时,采用“重排序”的方法,即先使用 NMT 得到 k 个候选翻译,然后使用特征对其进行重新打分,选择得分最高的作为最终翻译结果。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


文章中使用的数据集是 1.25M 的中英句对,实验显示该模型能有效地增强翻译效果,可以提升 2+ 的 BLEU 值,如下图所示。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


作者表示该工作的创新点在于利用后验正则化思想,将离散的先验知识融入 NMT 框架中 。同时,改进了原后验正则化方法,使其可以直接基于导数优化,并能利用上不同的先验知识。对于该工作尚存在的不足,作者认为权重参数因为具有先验知识重要性的物理意义,应该存在比训练得到更优的获取方案。


来源:paperweekly


原文链接

相关文章
|
19天前
|
人工智能
GPT-4被证实具有人类心智登Nature!AI比人类更好察觉讽刺和暗示
【6月更文挑战第5天】Nature发表的论文显示,GPT-4在心智理论任务中表现出色,特别是在识别讽刺上超越了人类。然而,在理解失礼行为和相关社会意识方面,GPT-4逊于人类,而LLaMA2-Chat在此类情境中表现更佳。尽管如此,GPT-4在失礼行为可能性测试中展现出高超的理解力。该研究强调了AI在模拟人类心理状态方面的进步与局限性。[链接](https://www.nature.com/articles/s41562-024-01882-z)
43 1
|
自然语言处理
ChatGPT懂常识吗?中科院最新论文解答
ChatGPT懂常识吗?中科院最新论文解答
|
机器学习/深度学习 人工智能 算法
以自动储备池学习机器实现高维场景预测,陈洛南/刘锐团队合作研究登Nature子刊
在实际应用中,仅用近期的短期数据来描述或预测一个复杂系统未来的状态对数据挖掘与分析方法提出了更大的挑战。所以,在本文中,研究者们提出了一种新型 ARNN 框架,它能够把高维空间数据映射到目标变量的未来时间信息,使得通过高维短序列时间序列数据的预测成为可能。
400 0
以自动储备池学习机器实现高维场景预测,陈洛南/刘锐团队合作研究登Nature子刊
|
机器学习/深度学习 人工智能 安全
机器之心对话张亚勤:机器学习对安全领域而言是把双刃剑
为了应对日益增长的安全威胁,该公司还在加大其对应各方面的研究投入,其中在人工智能方面的投入尤其突出。机器之心在拉斯维加斯最近举办的 DEF CON 黑客大会上采访了百度公司总裁张亚勤博士,本文为相关内容的中文版。
139 0
机器之心对话张亚勤:机器学习对安全领域而言是把双刃剑
|
机器学习/深度学习 人工智能 自然语言处理
机器之心独家对话田渊栋:无监督学习具有超过人类的发展潜力
近期,机器之心对田渊栋进行了一次独家专访。关于人工智能、个人经历以及前沿技术研究的进展,田博士分享了诸多鲜为人知的故事和观点。
347 0
机器之心独家对话田渊栋:无监督学习具有超过人类的发展潜力
|
机器学习/深度学习 人工智能 自然语言处理
机器之心独家对话吴恩达:很多技术其实是中国最先开始应用的
吴恩达,百度首席科学家、百度大脑项目负责人。在最近的百度语音开放平台三周年主题活动上,机器之心对这位与 Geoffrey Hinton、Yoshua Bengio、Yann LeCun 齐名的人工智能专家进行了专访,深度了解了百度的人工智能研究、吴恩达的人工智能之路,以及更多的有关人工智能技术的话题。
251 0
机器之心独家对话吴恩达:很多技术其实是中国最先开始应用的
|
机器学习/深度学习 人工智能 自然语言处理
机器之心对话NIPS 2016最佳论文作者:如何打造新型强化学习观?(附演讲和论文)
当地时间 12 月 5 日,机器学习和计算神经科学的国际顶级会议第 30 届神经信息处理系统大会(NIPS 2016)在西班牙巴塞罗那开幕。本届最佳论文奖(Best Paper Award)获奖论文是 Value Iteration Networks。
机器之心对话NIPS 2016最佳论文作者:如何打造新型强化学习观?(附演讲和论文)
|
机器学习/深度学习 人工智能 监控
机器之心独家对话Clarifai创始人:从图像识别到无限可能
Clarifai 是机器之心较早关注的人工智能创业公司之一。在今年 10 月 25 日,Clarifai 宣布完成 3000 万美元 B 轮融资。新闻发布的几天后,机器之心受到 Clarifai 邀请,观看 CEO Matthew Zeiler 进行新产品及技术演示,并对 Zeiler 进行了专访。
504 0
机器之心独家对话Clarifai创始人:从图像识别到无限可能
|
机器学习/深度学习 人工智能 资源调度
CNN可解释性再受关注,人类真能理解机器的思想吗? | 一周AI最火论文
CNN可解释性再受关注,人类真能理解机器的思想吗? | 一周AI最火论文
279 0
|
机器学习/深度学习 人工智能 算法
什么是机器学习?机器变得越来越聪明,不再是科幻电影
机器学习(ML)是教导计算机系统根据一组数据进行预测的过程。通过为系统提供一系列的试验和错误场景,机器学习研究人员致力于创建 可以分析数据,回答问题并自行做出决定的人工智能系统。
2580 0
什么是机器学习?机器变得越来越聪明,不再是科幻电影