知识图谱的独特之处——深度学习无法解决的人工智能
摘要:2018云栖大会上海峰会,阿里云高级算法专家林奈对特定领域知识图谱的构建及应用案例进行讲述,最近几年知识图谱有一些过气,但是由于一些知识性问题深度学习解决不了,所以知识图谱又开始慢慢的发展起来。本文主要介绍知识图谱和深度学习的不同,以及知识图谱的架构构建和知识引擎的应用。
数十款阿里云产品限时折扣中,赶快点击这里,领券开始云上实践吧
直播视频请点击
知识引擎
由于最近几年深度学习的发展,深度学习基本上等于人工智能,知识引擎变得有点过气。知识图谱和深度学习对人工智能有着不同的解决方案,深度学习解决不了一些知识性问题,但是知识图谱可以解决。
知识图谱最核心的事情就是把数据和知识整理成图的结构,图是由边加上点组成,每个点代表这个领域的实体,每个边代表实体和实体之间的关系。把数据和信息表示成知识图谱的形式就可以定义出一个叫做商品的实体类型。
如上图所示是一个实例,这个商品类型叫楼外楼的真包装卤肉,这个商品下有一个属性叫碳水化合物含量2.2g每100g。这样就建立了一个只有一个节点的知识图谱。第二部分就是通过推理发现一些新的知识,这个功能是人脑具备的功能,知识图谱也具备这个功能。根据上图的第一条数据和第三条知识,人脑很容易推出第三条知识楼外楼真空包装是无糖食品,知识图谱要做的就是如何发现这些新知识。
深度学习和知识图谱是两个完全不同的方法实现智能化,如智能聊天系统,深度学习是拿一些数据进行训练,训练成模型,然后再进行微调。知识图谱是把这里的所有知识罗列好整理成一个图谱,然后在图谱上进行推理,再把问题转化成图谱上的一个推理。与深度学习相比知识图谱非常的昂贵,需要花费大量的人力物力。但是知识图谱对深度学习有很大的候补作用,很多深度学习解决不了的问题,知识图谱可以解决。现在的很多自动问答系统是基于深度学习和知识图谱相结合。深度学习能解决端到端的问题,知识图谱解决知识类的问题。
知识引擎技术架构
一开始的数据是多元异构数据,可能是结构化开放知识库、半结构化领域数据和非结构化网页文档。知识引擎架构的构造一般需要三步,第一步需要进行知识建模,第二步是知识获取,第三部是知识融合,知识融合不是必须的,但是一般会用到,它是把两个或更多知识图谱链接起来。知识融合可以使知识图谱越来越大。
知识图谱核心技术
第一个是技术是核心节点的构建。如产品的构建,产品是真实世界的一个可收买单元。以一个小米4A的电视举例,这是一个线下可售卖单元,就是一款产品。这样一款产品在天猫淘宝等上有几百个卖家都在卖,这些卖家在淘宝上创建的链接就是商品。知识图谱要做的就是把这些商品聚齐起来,然后把同款的商品都找出来关联到产品节点上。很多商品都关联到一个产品节点上,这些商品就是同款的商品。这一块非常的难做到,我们需要做一个复杂的模型,来做大规模同款商品的训练。如果有新的产品可以自动的往上面进行挂载,聚合成一个产品库。如果把全网的产品都挂上去就可以查出最低的价格。
第二个技术就是推理技术,推理技术是知识引擎的一个前沿的研究领域,推理技术是学术界也没有攻克的研究领域。在工业界用的时候需要做大量的工作。
如上图所示,我们如何将“产地为某核污染区域的食品”进行搜索并下架是推理技术的一个有趣的应用。这一过程我们用到了三个过程,首先进行一级翻译,即把自然语言转换成推理的逻辑语言。第二步是最难的一步,把逻辑翻译转换成知识图谱上的一些节点和边的关系,所以我们需要找的是商品,商品的一个品类是食品,然后商品又和产地有一定得联系,把产地是辐射区的找出来。这样就把语言转换成了图谱上的查询。然后把找到商品进行下架,这些就是技术创造的生产力。
第三个技术是知识引擎的智能识别。
如上图所示是知识引擎的智能识别例子,即把一个语言变成图谱上的查询。第一部分是输入一句话,第二部分是语法词法的查询。第三部分是关键点,智能识别,我们可以从这句话中找出类目是围巾/丝巾/披肩,数量是一,卖点是漂亮,材质是真丝,产品词是丝巾。图谱上关键是对类目、材质和产品词的查询,就能查出所有丝巾。
阿里知识引擎的应用
管控的智能化
淘宝是一个电商平台,我们可以对商品进行智能化管控。当商品上架时,对商品信息进行审核,知识引擎每秒可以审核5000条商品的信息。如果识别出标识含有多个品牌词就不能上架。商品的在线售卖时,知识引擎可以每秒扫描2.2万张商品图片并对其进行审核。当商品图像有违禁词要对商品下架,知识引擎可以实现在线商品的巡检,六小时扫描全网近20亿多商品。
智能导购
智能导购能使消费者购物更简单。主要从卖点标签、热点挖掘和场景构建三个方面进行导购。第一个卖点标注是和行业知识相结合,把商品域的国家规定和国家标准进行整理,对商品打标。商品打标不是商品的标题,商品的标题是卖家自行定义的。商品打标需要卖家把商品的吊牌食品的包装袋上传,然后用OCR算法识别商品的信息。确定商品的真实信息后,可以把商品推荐给需要的用户。第二个是热点的挖掘,阿里主要是和热点、微博等合作,从上面可获得一些数据,这些数据可得到行业的方向标,可以得到时尚行业比较火的元素。阿里可能对这些元素的感知不是特别快,但是通过知识图谱对时讯新知识的推理和监控然后能找到这些热点。第三个是购物场景,当买家买东西时候,买家是在一个场景里,我们通过场景把商品关联起来,这样知识图谱在导购端就会更加的丰富。