我讲的内容可能跟刘博士有一部分是重复的。因为之前我们一直做语义理解,语音识别厂商一直在做语音,后来大家发现它们密不可分,所以一直在融合。我们现在在找语音方面的一些合作伙伴,语音厂商也往语义方面去做。
人工智能,对于普通的群众来说就是变形金刚,就是终结者。可是在产业界,我们就会想到自动驾驶,还有机器识别,还有类似的智能交互,还有AlphaGO。人工智能其实不是全能的,只是在某一个方向、某一个方面去解决一定的问题。我们怎么去定义人工智能?现在人工智能没有一个非常明确的定义,没有非常明确官方的定义,因为人工智能的范围实在是太广了。我们选了两个比较有代表性的,一个是斯坦福大学教授说的,人工智能是关于知识的学科;另一个是MIT说的,人工智能就是研究如何使电脑去做过去只有人才能做的智能工作。
人工智能是1956年诞生,1957年达到了第一次高峰,当时就已经提出了“神经网络”这些概念。1970年,据说人们对人工智能希望太高,如果说想要的东西实现不了,失望就会越大,人工智能进入了第一次的低谷。到了1986年,我们认为人工智能进入了第二次高峰,一直到了2000年还是一个低谷。最新的一轮,是从2014年开始,但实际上应该是从2006年左右在深度学习方面就有一些进展,因为深度学习相关的突破,特别是在语音识别方面。
为什么这轮人工智能能够起来?我们认为有三个因素。第一是计算能力的发展,比如CPU、GPU、FPGA等;还有是大数据;再有是算法的进步。关于量子这方面,我们有一个参考的数字,大家可以看下。现在的量子计算已经在二十几种算法上能够证明可以达到指数级,或者平方级的加速。比如一个300倍整数的分解,万亿次经典计算机可能需要15万年,但是万亿次量子计算机可能需要1秒钟。
我们前面提到了除了计算能力和大数据之外,算法是一个很重要的原因。机器学习有五个学派,这边列了一下。最近新出了一本书《大演算》,我们前面看到的五个机器学习的流派,每一个流派都有自己的核心思想,都可以解决一类的问题。《大演算》提出能不能把五个流派的思想融合起来,解决所有的问题,到目前为止还是一个设想。现在的机器学习有一个问题,针对每一个任务,必须要有相应的数据,才能训练出来解决这个任务的一个模型。在实际应用中,如果想适应所有可能的情况,这是做不到的。就像刘教授讲的一样,终身学习可能也是一个类似的概念,希望让机器自己去学习、去成长,可以去累计学习更多的知识,形成自己的知识体系,甚至有可能形成自己的思想。
算法是所有的一切?我们认为是不对的。深度学习的算法被证明在很多方面可以起到非常大的作用,但是并不能解决所有问题,至少必须依赖数据才能解决一定的应用。我们认为算法、数据、系统是密不可分的关系,最终才能够形成一个产业应用。
智能现在主要从三个方面来说,第一是计算智能,通过相关的统计分析可以实现。第二是感知智能,包括语音,还有传感器,各种各样的模式识别方向。第三是认知智能,这是最困难的,必须有语言知识、常识,还有推理相关的问题。
知识从哪里来?我们认为知识主要从几个方向获取,第一是进化,如果说一辈子不给他任何教导,学会的东西就有限,科学证明很多知识跟遗传是有关系的。所以通过进化,从生物的角度,很多知识是可以继承下来的。第二是经验,你去尝试做很多事情,做了之后可以获取经验,这个经验就有可能形成你的知识,形成到知识结构里面去。第三是文化,通过看书学习,或者通过受教育,通过各种各样的方法,得到你想要的知识,形成自己的知识体系。最后,如果说源算法能够实现,可能计算机可以实现知识的自动学习归纳过程,现在可以做一些辅助或者要求不是非常高的自动学习的方法。
各个科技巨头都投入AI的研究,国内的巨头也在进行投入,各个IM平台都在引入Bots开发的平台。
这是几个IT的咨询机构,他们对人工智能市场价值的评价。比如,埃森哲认为2035年人工智能会让生产率提高40%;麦肯锡认为,2055年50%的工作会实现自动化;Gartner认为,2020年85%的客户服务都由人工智能来。现在国家把人工智能作为一个国家战略。
人工智能可以做什么事情?现阶段来说,从基础资源这方面,计算能力还有数据,是人工智能发展必不可少的基础。在上面会有自然语言的处理,还有问答、语音、各种各样的技术,可以形成各种各样的产业运用。
我们的主题是“智能交互”。从我们的角度,我们2004年开始一直在做聊天的机器人,一直到了2010年,尝试在商业领域用智能问答解决一些问题,比如在智能客服领域做了比较多的工作。这两年因为有很多竞争对手出来在做类似的事情,我们在思考智能交互的方式未来会怎么发展?我们可以把智能交互划成三个层次,第一,基础交互可以解决一些简单、明确和重复的问题,比如普通的聊天问答,或者是简单的问题。第二,上面一个层次就是领域交互,因为会有非常多领域的逻辑和专用的词,需要在领域里面去解决交互的问题。第三,会有更深入的特定场景下复杂问题的处理。
基础交互主要需要包含问法识别、自动纠错、敏感词过滤、通用聊天等方面,比如,多种问法识别。比较成功的问答系统,需要识别各种不同的问,不管用户怎么问,都要能够准确识别他的意图。现在有几种不同的方式,有的通过搜索引擎的方式去做,有的通过关键字的方式去做,不管怎么样,都要想办法去解决用户不同问法识别的问题。第二是模糊问题的引导。有时用户意图并不非常明确,需要做出一定的引导。第三是通用聊天的知识。我们日常对话的这种方式,通用聊天用深度学习的模型,用一些训练数据,就可以实现比较通用的聊天的支持,不管怎样都能够组织出一个答案出来。然后是自动纠错。实际应用中,比如写了错别字,或者用了拼音,会有自动纠错的功能。最后是敏感词过滤。生产系统的应用,特别是在中国,如果没有敏感词过滤的功能是不行的,因为正式应用的话一定会有强烈的要求。
领域交互需要行业的经验,还有行业专用术语,专用的服务流程。
深度交互将来在智能交互上需要解决的,第一是多人对话的问题;第二是动态场景的问题;第三是多句组合意图;第四是深度推理;第五是有序问法;第六是知识图谱;第七是多意图理解;第八是意图推荐;第九是自动上下文;第十是动态载入。
这是比较详细一点的图,就不再讲了。
多轮对话,有一个例子,你去完成某一个事情,需要给你反复的交互多轮,才能得到所有的信息,最终帮你去办理业务,这是多轮对话的事例。动态场景,跟机器人交互时,比如进入了一个天气的场景,会实现自动地上下文、自动地处理与天气相关的信息。比如订票,识别到你进入到订票的场景,订票需要的出发地、目的地、时间、预定票的类型等信息,都必须通过主动地跟你交互,收集到后才能完成后续的处理。还有是多句组合意图,刚开始并没有实际的需求,之后根据交互内容可以识别出实际的需求。
需要实现一定的推理,比如他问你贵阳的气温是多少?接着又问比上海低多少?除了上下文处理之外,还需要取出上海的温度,然后与贵阳的温度做一个对比;后面又问比遵义高多少?但实际上遵义是比它低的,回答就会说“比遵义低2度”。
基于知识图谱的推理。现在的知识图谱可能准确率不是非常高,但是可以解决一定的问题。在实际应用中,你去做一个非常通用的知识图谱是不现实的,但是如果在一个限定领域里,通过一些知识图谱的方法,以人工辅助的方法去建立知识图谱,利用相关信息可以实现很多的推理,就像人物关系的推理。
这个也是一个示例,比如问华为生产商的总裁是谁?会找到是任正非,通过知识图谱可以实现一定程度上复杂关系的推理。
还有多意图的理解。他说“把空调打开,并且调到28度,把电视关了”,这里面有三个意图,怎么准确识别三个意图,并且把每一个意图都处理掉?需要一些方法去处理。有时一句话里有多个意图,但是需要有一个主要意图,可能说的两个意图是废话,只有一个是主要的,这个需要其他的方法处理。
还有自动上下文的关联,我们用了一种比较取巧的办法,即把知识用一个文体的形式去组织。在一个领域之内,可能会有一个比较通用的文体,把相关的属性全部继承过来,去做后续处理时,会把文体相关属性的关系都带进来,就可以形成自动的上下文处理机制。
下面这张图是我们在做一个医疗项目时遇到的问题,在医院里治疗某一种病都有不同的治疗方法。不同的病症,不同的治疗方法,有不同的参考价格。如果问治疗肝癌最经济的方式是什么?可以通过这个表格自动地找出来是哪一个。如果医院在某些信息有更新,只要更新这张表格,交互系统不需要做任何变动,就可以实时更新这些信息。
我前面讲的是自然语言处理,或者是语义相关,智能人机交互将来要实现的是全渠道、多模态的人机交互、综合文本,还有视觉和语音相关的信息,还有体感......形成综合的人机交互,在最终的结果中才能实现跟人一样的交互体验。
智能交互可以用在哪里?第一个方向是用在聊天机器人上,比如2004年时做的聊天机器人,还有小冰。第二个方向是语音助手、智能个人助理。第三个方向是智能客服机器人,不仅做简单的问答,我们在很多方向都在扩展,可以用在员工的培训、员工坐席内部的管理、员工服务。还有推荐营销、电话导航、电子渠道的智能客服,等等。还有智能机器人产业应用,现在还是初始阶段。还有智能车载、智能家居、一些智能终端,以及智能礼品。现在小朋友用的玩具,或者是早教的设备,也可以加入这种内容。还有智能办公,跟内部系统去做集成。还有智能法务,我们也会做一些探索的应用。还有在医疗方面,用自动的方法去做诊断,在中国是很难推行的,因为国家除了医生之外不允许提诊断这个事情,用智能方法只能做一些预诊,或者是给医生做一些辅助。还有在智慧城市方面相关的一些应用。
我也做一下广告,小i机器人一直在做一些语义理解,或者智能交互方面的事情,从2010年做商业化应用的探索。我们是做语义理解的引擎,实现自然语言的分析、深度的语义理解;还有知识推理,结合上下文和场景的信息,去做一些动态的答案生成,我们所有的一切都依赖于知识。
这是我们提出的知识组织的方式——知识的模型。
现在我们的系统在正式商用时,很多时候还是需要人去参与,让知识库有比较高的质量。在用户的实际生产系统中,他们会要求不能出任何错误,特别是像建设银行、民生银行,如果交互时机器人回答了骂人的话,或者是语气不太对的话,这就是一个生产事故,这在生产中是不允许发生的。这些情况我们都需要人去整理,避免这些情况的发生。我们现在的机器学习只是做一些辅助的手段,减轻工作量,人最终确认之后才用到生产系统中去。
我们现在主要以知识为核心,用相关的自然语言处理,或者是其他的方式,拓展到一些具体的应用。
(本报告根据速记整理)