我们自称智人(Homo sapiens),因为自身独特的智能对我们来说非常重要。数千年来,我们一直试图理解人类如何思考,如何利用仅有的少量物质就能感知、理解、预测和操纵一个远大于自身且比自身复杂得多的世界。另一方面,我们也希望将这些智能赋予更多的物体,比如说——机器。
自人工智能在1956年达特茅斯会议上首次提出,让机器完成更多的智力工作成为科学家努力的方向。其中一个重要的目标就是希望机器能够与人类进行更加自然高效的交流,希望机器读懂人类深奥的语言,同时以一种我们习惯的方式进行交互,而解决这个问题的两个技术就是自然语言处理和语音合成。
众多科技巨头正在这方面进行布局,2013年谷歌以超过3000万美元收购了新闻阅读应用开发商Wavii。Wavii擅长自然语言处理技术,可以通过扫描互联网发现新闻,并给出一句话摘要;微软将自然语言处理技术应用在了智能助手小冰、Cortana上,取得了不错的效果,通过机器翻译使Skype具备了实时翻译功能;自然语言处理技术是Facebook智能助手M背后的核心技术之一,其产品负责人称「我们对M做的事情可以让我们更好地理解自然语言处理。」国内公司科大讯飞在去年年底发布了自然语言处理云平台,很早推出语音合成产品,在中文领域的自然语言处理和语音合成方面有着深厚积累。
近期,百度新闻客户端也上线了语音播报新闻摘要的新功能,用户在浏览新闻时可通过下滑屏幕进入到语音阅读模式,借助于自然语言处理技术和语音合成技术为用户朗读新闻,百度新闻成为第一款将自然语言处理和语音合成结合在一起的新闻客户端。
自然语言处理:机器如何看懂人话?
现代语言学与人工智能在大约相同的时间诞生,并且一起长大, 交叉于一个称为自然语言处理的混合领域。自然语言处理主要关注如何让机器理解人类的语言,主要包括信息检索、信息抽取、文本摘要等,信息检索用来在网络上寻找和排名相关的段落,信息提取用来识别具体对象和搜索的实际答案,文本摘要将它以一种简洁的方式呈现给用户。而解决这些问题的一个共同要素是采用语言模型来预测语言表达的概率分布。
一个自然语言处理系统并不了解人类处理文本的方式,但是它却可以用非常复杂与成熟的手段巧妙处理文本,例如自动识别一份文档中所有被提及的人与地点;识别文档的核心议题;或者在一堆仅人类可读的合同中,将各种条款与条件提取出来并制作成表格。
以百度新闻的语音播报为例,借助于自然语言处理技术生成新闻的摘要,在信息严重过载的今天,无异帮助用户提高了信息获取的效率。
百度新闻此次使用单文档摘要模块,能够给定的文档中提炼出最重要的信息,从而作为摘要用于描述文档的主要内容。本模块基于机器学习的方法抽取关键句子,同时采用子句压缩技术,对句子进行简写。用户可以根据任务的需要选择此模块包含的三个模型:长摘要模型,微摘要模型,短摘要模型。
- 长摘要,是常见的抽取式摘要,此模型直接从正文中选择出若干句子组成摘要。
- 短摘要,在长摘要的基础上增加了句子压缩的功能。句子压缩能够对句子进行简化保留句子的核心部分。
- 微摘要,既使用的句子压缩功能,同时增加了列表类摘要的提取和连贯性策略。
对于下面的网页,根据其标题(蓝框部分)和正文(红框部分),百度新闻能够生成下列摘要:
长摘要:克里米亚塞瓦斯托波尔军事机场被俄罗斯军队控制。塞瓦斯托波尔是前苏联黑海舰队所在地。在克里米亚塞瓦托斯波尔军事机场周边地区,俄罗斯士兵已经在待命。这些俄罗斯士兵戴着头盔,穿着护甲,另外还有人员运输车准备随时提供支援。一群不明身份的武装分子占领了克里米亚机场。据称,他们的目的是为了阻止乌克兰过渡政府总统所乘飞机在机场降落。据法新社最新报道,克里米亚机场现已恢复运营,飞机起降没有延误。武装人员在短暂控制后撤离。
短摘要:克里米亚塞瓦斯托波尔军事机场被俄罗斯军队控制。塞瓦斯托波尔是前苏联黑海舰队所在地。在克里米亚塞瓦托斯波尔军事机场周边地区,俄罗斯士兵已经在待命。这些俄罗斯士兵戴着头盔,穿着护甲,另外还有人员运输车准备随时提供支援。
微摘要:他们的目的是为了阻止乌克兰过渡政府总统所乘飞机在机场降落。
自然语言处理技术解决了机器理解人类语言这个阶段的问题,并生成了三种形式的摘要,从而帮助用户大大节约了获取信息的时间。而接下来的这个阶段便是将该摘要以一种更容易让人类接受的形式读出来,从而使用户可以在最短时间内获取到最有价值的信息。
语音合成:如何让机器与人的交流更加自然?
近代语音合成技术则是起源于贝尔实验室,涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,解决的主要问题是如何将文字信息转化为可听的声音信息。
语音播报新闻如何更具情感表现力,更接近真人朗读的听觉体验,从而使用户在通过语音获取信息时更加自然?百度新闻使用的语音合成技术这样实现:
首先,创新语料生产方式,提升数据规模。传统录音语料库的积累,往往以句子为单位,严格控制发声人录音的声调、节奏,导致文章的语义情感无法融入其中。而情感语音语料库的积累,以段落或者篇章为单位,允许发音人基于对文本的理解加入个人自然有感情的语音表达,使得语音中蕴含丰富的语义和情感。
其次,创新数据处理方式,提高数据处理效率。传统语料数据处理方式为手工精标,需要耗费大量人力。百度利用机器学习技术实现了数据的自动化处理,能够对大量包含情感的语料库快速进行标注,大大提高了语音合成数据处理的效率。
最后,创新韵律和声学建模技术,提高情感表现能力。百度采用了多层次双向LSTM韵律建模技术,实现从文本到韵律情感信息的直接端到端的高精度建模,同时利用多层双向LSTM-RNN模型对语义及长时信息的卓越声学建模能力,将丰富的语义相关信息加入到上下文中,构建文本与语音之间的深层次对应关系,生成富有表现力的模型,使合成的语音具有丰富的情感。
总之,自然语言处理解决的是「如何让机器读懂人类语言」的问题,语音合成解决的是「如何让机器像人类一样开口说话」的问题,这两者结合的结果就是机器与人之间形成一种最自然的交互方式。而这带来的直接结果就是我们在获取信息方面效率的极大提高。
人工智能相关技术近几年进展飞快,但许多人并未在太多产品中体验到技术带来的机器智能和效率的提高,而将自然语言处理和语音合成应用在新闻领域是一次独特的尝试。由于语言和信息对人类与生俱来的重要性,这两项技术的结合还会有不可估量的想象空间。
语言:机器与人最自然的交互方式
因为具有语言的能力,人类区别于其他物种。10万年前,人类知道了如何说话,7000年前,学会了如何书写。就像Magic Leap未来学家、科幻作家Neal Stephenson在《雪崩》中将语言比喻成人类大脑最底层的结构,而《人类简史》中也提到,人类是因为文化的出现,使自己不再与其他物种一起拥挤在基因进化的道路上,而是走上了文化进步的快车道。而文化起源的本质和承载方式就是语言。语言是我们最自然的交互方式、知识储备和表达媒介。
互联网上超过万亿条的信息网页,几乎所有这些页面都是用自然语言描述。更加重要的是,这些信息还在持续增加——人类因为自身的语言能力在源源不断的创造着通过自然语言进行表示的信息,信息数量增加的可能造成的一个结果就是我们获取某些核心信息的成本提高,而解决这个问题的方法就是机器的自然语言处理,使之能够读懂我们的信息,并帮我们进行信息筛选和知识总结,然后再借助于语音合成技术,将这些总结过的、有价值的信息以一种人类更能接受的方式传递出来,从而进一步增强了我们获取外部信息的效率。
《信息简史》一书中探寻了信息的本质,介绍了我们获取和传递信息的历史,从非洲部落的鼓点,到文本的发明,再到信息论建立带动的信息技术革命。部分科学家甚至认为,构成世界的基础不是物质,不是能量,而是信息。正如物理学家约翰•惠勒所说的「万物源自比特」。也正因如此,如今当信息如洪流般淹没了我们,使我们深陷信息焦虑、信息过载、信息疲劳的困扰中时,我们才会如此无助。
人工智能技术的发展让这个问题的解决称为可能,图像识别、语音识别可以让机器为我们去感知外部世界,将处理后的有价值的信息传递给我们。自然语言处理和语音合成则是去挑战人类最重要的技能——语言,希望创造一种机器与人最自然的交互方式。