AI公开课：18.05.16 周明博士(MSRA副院长)—北大AI第十一讲之《语言智能的进展》课堂笔记—

AI公开课：18.05.16 周明博士(MSRA副院长)—北大AI第十一讲之《语言智能的进展》课堂笔记——你了解语言智能

2021-10-28 170

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 周明博士，微软亚洲研究院副院长、国际计算语言学协会（ACL）候任主席、中国计算机学会理事、中文信息技术专委会主任、中国中文信息学会常务理事、哈尔滨工业大学、天津大学、南开大学、北航等多所学校博士导师。周明博士1991年获哈尔滨工业大学博士学位。1991-1993年清华大学博士后，随后留校任副教授。1996-1999访问日本高电社公司领导中日机器翻译研究。他是中国第一个中英翻译系统CEMT-I（哈工大1989年）、日本最有名的中日机器翻译产品J-北京（日本高电社1998年）的研制者。1999年，周明博士加入微软亚洲研究院，不久开始负责自然语言研究组。他带领团队进行了微软输入法、英库词典（必应词典

深度学习里的Attention model其实模拟的是人脑的注意力模型，举个例子来说，当我们观赏一幅画时，虽然我们可以看到整幅画的全貌，但是在我们深入仔细地观察时，其实眼睛聚焦的就只有很小的一块，这个时候人的大脑主要关注在这一小块图案上，也就是说这个时候人脑对整幅图的关注并不是均衡的，是有一定的权重区分的。这就是深度学习里的Attention Model的核心思想。

AM刚开始也确实是应用在图像领域里的，AM在图像处理领域取得了非常好的效果！于是，就有人开始研究怎么将AM模型引入到NLP领域。最有名的当属“Neural machine translation by jointly learning to align and translate”这篇论文了，这篇论文最早提出了Soft Attention Model，并将其应用到了机器翻译领域。

Soft Attention Model：这里其实是上面图的拆解，“Neural machine translation by jointly learning to align and translate”这篇论文提出了soft Attention Model，并将其应用到了机器翻译上面。其实，所谓Soft，意思是在求注意力分配概率分布的时候，对于输入句子X中任意一个单词都给出个概率，是个概率分布。

其实有Soft AM，对应也有一个Hard AM。既然Soft是给每个单词都赋予一个单词对齐概率，那么如果不这样做，直接从输入句子里面找到某个特定的单词，然后把目标句子单词和这个单词对齐，而其它输入句子中的单词硬性地认为对齐概率为0，这就是Hard Attention Model的思想。Hard AM在图像里证明有用，但是在文本里面用处不大，因为这种单词一一对齐明显要求太高，如果对不齐对后续处理负面影响很大。

但是，斯坦福大学的一篇paper“Effective Approaches to Attention-based Neural Machine Translation”提出了一个混合Soft AM 和Hard AM的模型，论文中，他们提出了两种模型：Global Attention Model和Local Attention Model，Global Attention Model其实就是Soft Attention Model，Local Attention Model本质上是Soft AM和 Hard AM的一个混合。一般首先预估一个对齐位置Pt，然后在Pt左右大小为D的窗口范围来取类似于Soft AM的概率分布。