6 月 1 日,在微软亚洲研究院(MSRA)的自然语言处理(NLP)主题沟通会上,副院长周明博士以《自然语言处理前沿技术》为主题,分享了不少 NLP 研究心得。
周明博士,图片来自微软亚洲研究院微信
周明博士已经在 NLP 领域钻研近 30 年,并已于去年当选国际计算语言学协会(ACL)候任主席。在过去的研究生涯中,周明博士已发表了 120 余篇重要会议和期刊论文(包括 50 篇以上的 ACL 文章),拥有 40 余项国际发明专利。
从 NLP 是什么、MSRA 在 NLP 方向上的最新进展以及 NLP 技术的未来发展方向三部分,周明博士对 NLP 技术进行了全方位解读。机器之心取其精华,以飨读者。
NLP 是人工智能的开端,语言智能是人工智能皇冠上的明珠
数据的大幅增强、计算力的大幅提升、深度学习实现端对端的训练,这些都是人工智能领域迎来第三次浪潮的原因。
在周明博士看来,促成这股浪潮的还有落地场景的出现。实实在在的场景如搜索引擎、自动驾驶汽车等,给了用户使用和反馈(如搜索引擎的使用者会为搜索引擎提供训练数据)的空间,系统就可以使用这些数据不断提升。
在以计算、记忆为基础的「运算智能」之上,是以听觉、视觉、触觉为代表的「感知智能」,反映在人工智能技术上为语音识别和图像识别。再之上则是「认知智能」,包含语言、知识和推理。金字塔的顶端,则是创造智能。
「语言智能是人工智能皇冠上的明珠」,周明博士说道。
作为国际计算语言学协会(ACL)候任主席、NLP 领域资深研究者,周明博士特别强调语言智能在人工智能领域的标志意义。「语言智能是人工智能皇冠上的明珠,如果语言智能能够突破,与他同属认知智能的知识和推理就会得到长足的发展,整个人工智能体系就会得到很好的推进,也有更多的场景可以落地。」
作为最早设立的部门之一,微软亚洲研究院 NLP 研究组已经发表了超过 200 篇顶级会议文章,其中 ACL 论文超过 100 篇,COLING、EMNLP 论文超过 50 篇,IJCAI、AAAI、KDD、SIGIR 论文超过 50 篇。拥有超过 100 项专利,与 10 所高校建立联合实验室,并与超过 16 个高校建立合作。
其与中科院计算所合作开发的手语翻译系统,还曾得到过 CEO 萨提亚·纳德拉(Satya Nadella)上任后首次嘉奖。
机器翻译、ChatBot…… MSRA NLP 有这四方向进展
机器翻译
自 2007 年微软基于统计的翻译系统上线,到 2012 年在 21 世纪大会上展示实时语音翻译系统,再到 2015 年 Skype Translator 实时语音翻译技术上线、2016 年 Microsoft Translator Live Feature(现场翻译功能)的推出,微软从未放弃过在机器翻译技术、产品方向上的探索。
目前微软采用的是基于神经网络的机器翻译方法。通过对源语言句子使用 LSTM 进行双向编码,再通过 Attention 模型体现不同隐节点对翻译某个目标词的作用,逐词生成目标语言直到句尾。
对于中间的某个阶段可能会出现多个翻译,微软采用的方法是通过 beam search 方法保留最佳翻译。神经网络翻译中其中最重要的技术是对源语言的编码,以及体现不同词汇翻译不同作用的 Attention 模型。
MSRA 在机器翻译上主要有如下 2 项进展,均发表在 ACL 上:
1、引入语言知识
编码过程往往将源语言和目标语言看作字符串,并没有体会语言内在的句法知识和修饰关系。通过将语言知识引入到神经网络的编码,可以得到更佳的翻译。(具体指标见下图)
2、引入领域知识(Domain Knowledge)
很多领域拥有知识图谱的,可以纳入到传统的神经网络机器翻译中,以规划语言理解的过程。基于的假设是不同语言的知识图谱可能是一致的,将输入句子映射到知识图谱,再基于知识图谱增强解码过程,使得译文得到进一步改善。
在分享会现场,微软亚洲研究院的研究员张冬冬还展示了微软在机器翻译上的最新进展——演讲翻译,所有人在进入统一虚拟会议室时都可以接收到母语言的演讲内容(文字、语音),可以帮助提升跨语言会议交流效率。
演讲翻译系统浏览器页面,演讲者的口述内容会被转换为聆听者设定的语言
对话即平台
由于人们已经逐渐习惯在手机上聊天的体验,同时手机屏幕很小,相对来说语音的交流会更加自然。因此微软认为图形界面的下一代将是 CaaP,所谓「对话即平台」(Conversation as Platform,CaaP)。
作为 CaaP 的技术基础,通用的对话引擎架构往往有两层,下层为面向任务的对话、信息服务和问答、通用聊天三个分别满足使用者不同需求的系统,上层则为调度系统。通过调度系统完成任务的分类和分配,下层系统会根据不同的需求指向不同的 Bot,从而为用户提供流畅的交流体验。
通用对话引擎结构示意图
为了更快速、更高效的开发 Bot,微软推出了 Bot Framework。开发者只用几行语句,就能开发出满足自己需求的 Bot。其中该框架抽取意图和重要信息的功能,由 LUIS(Language Understanding Intelligent Service,微软语言理解服务)提供。
在与敦煌研究院合作的过程中,MSRA 通过使用微软的聊天对话技术为敦煌研究院快速开发了相应的客服、聊天系统,并能轻松集成于同一平台。
阅读理解
在语言之外,领域知识和常识往往在 NLP 中有非常重要的作用,阅读理解正是检测一个系统是否具备常识的最佳方式之一。
2016 年,斯坦福大学推出「NLP 领域的 ImageNet」——SQuAD 阅读理解测试集,通过给定一篇文章并准备相应问题,由算法给出问题的答案。该数据集共有 536 篇文章,107785 个相应问题,并包含训练、开发、测试三部分,评判标准分为精确匹配和部分匹配两部分。
自去年 9 月至今,MSRA 一直在该数据集的测试结果上名列第一,指标为 76.922,但距离人类 82 左右的指标还有一定距离。
SQuAD 测试集测试结果,第一位、第四位均为 MSRA 团队开发的算法系统
中国文化
MSRA 一直在考虑如何将机器翻译与中国文化相结合,因此推出了一系列如微软对联、微软字谜、微软绝句等产品。
不久前 MSRA 还推出了诗歌创作功能,即用户提交照片后可以得到与其意境相符的自由体诗歌,并已率先登陆小冰平台。
NLP 的未来会如何?
在周明博士看来,未来 5-10 年,NLP 技术走向成熟,并将迎来过去 60 年发展最迅速的时期。变化将会体现在如下 6 个部分:
- 口语机器翻译完全普及:效果会得到提升,但并不意味着同声翻译、专业文献彻底解决;
- 自然语言会话达到实用:在常见场景下,人类可以通过人机对话完成某些任务,与智能设备交流,但不代表任何任务和不同语言都能达到实用;
- 智能客服+人工客服完美结合大大提高效率:问答、简单的任务解决基本可以解决,复杂情况依然无法解决,需要人类智能和人工智能的结合;
- 自动写诗、新闻、小说、流行歌曲流行起来:输入数据后可以立刻生成新闻稿,人类只需要进行校正,或面向不同的需求进行适用更改;
- 语音助手、物联网、智能硬件、智能家居普及;
- 与其它 AI 技术共同在金融、法律、教育、医疗等垂直领域得到广泛应用。
通过对趋势的分析,MSRA 也制定了未来的研究方向,包括:
- 通过用户画像实现个性化服务:人类的对话是有对象的,目前机器还做不到;
- 通过可解释的学习洞察人类智能机理:是否会出现可解释的人工智能,可以进行修正和 debug,快速调整系统,目前还没有很好的解决;
- 通过知识与深度学习结合提升学习效率;
- 通过迁移学习实现领域自适应;
- 通过强化学习实现自我演化:即通过显式和隐式反馈不断提升系统;
- 通过无监督学习充分利用未标注数据。
在问答环节中,周明博士还回答了机器之心关心的 NLP 领域问题,比如 GAN 这种流行的学习方法对 NLP 领域是否有很大帮助?在周明博士看来,GAN 对于机器翻译、信息检索的确会带来帮助,微软也正在研究使用 GAN 来提升机器翻译。但目前 GAN 与 NLP 的结合仍处在开始阶段,「并没有突飞猛进」。