带你走进知识图谱的世界

简介: 知识图谱最开始是Google为了优化搜索引擎提出来的,推出之后引起了业界轰动,随后其他搜索公司也纷纷推出了他们的知识图谱。知识图谱发展到今天,不仅是应用在搜索行业,已经是AI的基础功能了。那到底知识图谱是什么?有什么能力?怎么应用?这就是本文想要讨论的内容。

知识图谱的介绍

知识图谱最开始是Google为了优化搜索引擎提出来的,推出之后引起了业界轰动,随后其他搜索公司也纷纷推出了他们的知识图谱。知识图谱发展到今天,不仅是应用在搜索行业,已经是AI的基础功能了。那到底知识图谱是什么?有什么能力?怎么应用?这就是本文想要讨论的内容。

01 什么是知识图谱

1. 定义

官方定义:知识图谱是一种基于图的数据结构,由节点(point)和边(Edge)组成,每个节点表示一个“实体”,每条边为实体与实体之间的“关系”,知识图谱本质上是语义网络。

实体指的可以是现实世界中的事物,比如人、地名、公司、电话、动物等;关系则用来表达不同实体之间的某种联系。

img

由上图,可以看到实体有地名和人;大理属于云南、小明住在大理、小明和小秦是朋友,这些都是实体与实体之间的关系。

通俗定义:知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络,因此知识图谱提供了从“关系”的角度去分析问题的能力。

2. 可视化表现

如果我们在百度搜索“周杰伦的老婆”的时候,搜索结果不是周杰伦,而是直接返回了昆凌的信息卡片,为什么呢?

img

因为底层知识图谱已经有了周杰伦和昆凌是夫妻关系,所以可以理解到你要找的是昆凌,而不是周杰伦,这也说明了知识图谱有理解用户意图的能力。

img

02 知识图谱构建的关键技术

知识图谱构建的过程中,最主要的一个步骤就是把数据从不同的数据源中抽取出来,然后按一定的规则加入到知识图谱中,这个过程我们称为知识抽取

数据源的分为两种:结构化的数据和非结构化的数据。

结构化的数据是比较好处理的,难点在于处理非结构化的数据。而处理非结构化数据通常需要使用自然语言处理技术:实体命名识别、关系抽取、实体统一、指代消解等。

我们先来看下把这段文字变成知识图谱的方式表达的结果:

img

上图左边的文案就是一个非结构化的文本数据,就需要经过一系列的技术处理,才能转化为右边的知识图谱。具体是怎么实现的呢,接下来一一讨论。

1. 实体命名识别

img

提取文本中的实体,并对每个实体进行分类或打标签,比如把文中“1984年12月30日”记为“时间”类型;“克利夫兰骑士”和“迈阿密热火”记为“球队”类型,这个过程就是实体命名。

2. 关系抽取

img

关系抽取是把实体之间的关系抽取出来的一项技术,其中主要是根据文本中的一些关键词,如“出生”、“在”、“转会”等,我们就可以判断詹姆斯与地点俄亥俄州、与迈阿密热火等实体之间的关系。

3. 实体统一

img

在文本中可能同一个实体会有不同的写法,比如说“LBJ”就是詹姆斯的缩写,因此“勒布朗詹姆斯”和“LBJ”指的就是同一个实体,实体统一就是处理这样问题的一项技术。

4. 指代消解

img

指代消解跟实体统一类似,都是处理同一个实体的问题。比如说文本中的“他”其实指的就是“勒布朗詹姆斯”。所以指代消解要做的事情就是,找出这些代词,都指的是哪个实体。

指代消解和实体统一是知识抽取中比较难的环节。

03 知识图谱的存储

知识图谱主要有两种存储方式:一种是基于RDF的存储;另一种是基于图数据库的存储。

1. RDF(Resource Description Framework)

RDF一个重要的设计原则是数据的易发布以及共享,另外,RDF以三元组的方式来存储数据而且不包含属性信息。

2. 图数据库

图数据库主要把重点放在了高效的图查询和搜索上,一般以属性图为基本的表示形式,所以实体和关系可以包含属性。

3. RDF和图数据库的主要特点区别

img

关于知识图片的存储方式的内容比较专业,且没有实际操作过比较难理解,所以我就不在此展开讨论了,大家简单知道知识图谱有这么一项内容就行,若有需要的可以自行研究下。

下面我们把重点放在知识图片在金融领域的一些应用。

04 知识图谱在金融领域的应用

知识图谱在各行各业中的应用是比较普及的,并且有很重要的地位。下面我们跟大家一起讨论的是知识图谱在金融领域的一些应用,希望能通过这些例子给大家一点启发。

1. 反欺诈

假设银行要借钱给一个人,那要怎么判断这个人是真实用户还是欺诈的呢?

img

我们需要以人为核心,展开一系列的数据构建,比如说用户的基本信息、借款记录、工作信息、消费记录、行为记录、网站浏览记录等等。把这些信息整合到知识图谱中。从而整体进行预测和评分,用户欺诈行为的概率有多大。当然这个预测是需要通过机器学习,得到一个合理的模型,模型中可能会包括消费记录的权重、网站浏览记录的权重等等信息。

2. 不一致性验证

img

比如说不同的两个借款人,却填写了同一个电话号码,那说明这两个人中至少有一个是可疑的了,这时就需要重点关注了。

img

更复杂点的,可能需要知识图谱通过一些关系去推理了。比如说“借款人”跟小明和小秦都是母子关系,按推理的话小明跟小秦应该是兄弟关系,而在知识图谱上显示的是朋友关系,就有可能有异常了,因此也需要重点关注。

3. 客户失联管理

img

如果借款人失联了,通过知识图谱,是不是可以联系他的朋友,或兄弟,甚至是兄弟的妻子,去追踪失联人。

因此在失联的情况下,知识图谱可以挖掘更多失联人的联系人,从而提高催收效率。

4. 知识推理

img

如上左图(注意这里的箭头方向),小秦是大秦的儿子,大秦是老秦的儿子,从这这样的关系,我们就可以推理出,小秦是老秦的孙子,这样就能使知识图谱更加完善了。

img

如上左图,小明在腾讯上班,小秦也在腾讯上班,从这样的关系,我们可以推理出,小明和小秦是同事关系。

推理能力其实就是机器模仿人的一种重要的能力,可以从已有的知识中发现一些隐藏的知识。当然这样的能力离不开深度学习,而随着深度学习的不断成熟,我相信知识图谱的能力也会越来越强大。

graph - embedding 图编码

图数据库 Neo4j

neo4j 下载: https://neo4j.com/download-center/

Neo4j Demo https://grapheco.org/InteractiveGraph/dist/examples/example1.html

为什么用 neo4j ?用的人最多, 模板好找, 报错能查,就这么简单

官网 : neo4j.com

Neo4j 教程 https://www.w3cschool.cn/neo4j/neo4j_need_for_graph_databses.html

JDK安装 :https://www.oracle.com/java/technologies/downloads/

不支持 低版本的jdk 必须是10以上

启动 neo4j.bat console

网页访问localhost:7474

在这里插入图片描述

相关实践学习
阿里云图数据库GDB入门与应用
图数据库(Graph Database,简称GDB)是一种支持Property Graph图模型、用于处理高度连接数据查询与存储的实时、可靠的在线数据库服务。它支持Apache TinkerPop Gremlin查询语言,可以帮您快速构建基于高度连接的数据集的应用程序。GDB非常适合社交网络、欺诈检测、推荐引擎、实时图谱、网络/IT运营这类高度互连数据集的场景。 GDB由阿里云自主研发,具备如下优势: 标准图查询语言:支持属性图,高度兼容Gremlin图查询语言。 高度优化的自研引擎:高度优化的自研图计算层和存储层,云盘多副本保障数据超高可靠,支持ACID事务。 服务高可用:支持高可用实例,节点故障迅速转移,保障业务连续性。 易运维:提供备份恢复、自动升级、监控告警、故障切换等丰富的运维功能,大幅降低运维成本。 产品主页:https://www.aliyun.com/product/gdb
目录
相关文章
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习的浪潮之巅:探索人工智能的未来之路
在本文中,我们将一起踏上一场关于深度学习的奇妙之旅。从基本概念到最新应用,我们将一探究竟,看看这项技术如何改变了我们的生活和工作方式。无论你是科技爱好者,还是对人工智能充满好奇的新手,这篇文章都将为你揭开深度学习的神秘面纱,让你对这个令人兴奋的领域有更深入的了解。那么,让我们一起开始吧!
|
5月前
|
机器学习/深度学习 人工智能 大数据
人工智能:从梦想到现实
20世纪初,计算机科学先驱艾伦·图灵提出“图灵测试”,探讨机器是否能展现与人类无异的智能行为,激发了人工智能(AI)的无限想象。1956年的达特茅斯会议标志着AI研究的开端,历经起伏,至80年代专家系统与机器学习的出现推动了AI进入新阶段。21世纪以来,大数据、云计算及深度学习等技术的飞速发展使AI应用广泛,从智能家居到医疗诊断等多个领域发挥重要作用。尽管如此,AI的发展亦伴随着隐私保护、就业及伦理等社会议题,需相关政策引导以确保其健康发展。
|
机器学习/深度学习 存储 人工智能
人工智能的编年史——从开始到现在
人工智能的编年史——从开始到现在
303 0
人工智能的编年史——从开始到现在
|
机器学习/深度学习 人工智能 自动驾驶
2023年十大人工智能技术将发生转变
由于人工智能技术所具有的预测能力和提供的便利,人们正在迅速适应它。企业也同样对此趋之若鹜,要么是希望通过改善整体性能来获得更高的投资回报率,要么是不得已而为之。在这里,我们将讨论2023年将发生转变的十大人工智能技术。
209 0
2023年十大人工智能技术将发生转变
|
人工智能 搜索推荐 大数据
人工智能准备好乘风破浪了吗?
如何在组织中利用人工智能的力量?
95 0
人工智能准备好乘风破浪了吗?
|
机器学习/深度学习 传感器 人工智能
人工智能的未来:人工智能将如何改变世界?
人工智能正在塑造几乎所有行业的人类未来。其已经是大数据、机器人和物联网等新兴技术的主要驱动力,并将在可预见的未来继续扮演技术创新者的角色。
173 0
人工智能的未来:人工智能将如何改变世界?
AI:2020年7月10日世界人工智能大会WAIC青少年人工智能创新发展论坛《人工智能从娃娃抓起》
AI:2020年7月10日世界人工智能大会WAIC青少年人工智能创新发展论坛《人工智能从娃娃抓起》
|
人工智能 自动驾驶 机器人
会玩儿,这些人工智能“能文能武”
在AlphaGo成功挑战世界第一围棋选手柯洁后,眼下人工智能又公开挑战高考数学考试。但问题来了,从围棋到数学,人工智能涉足的领域看起来更偏向“理科生”的专长。
187 0
会玩儿,这些人工智能“能文能武”
|
人工智能 自然语言处理 自动驾驶
人工智能的十大应用
人工智能已经逐渐走进我们的生活,并应用于各个领域,它不仅给许多行业带来了巨大的经济效益,也为我们的生活带来了许多改变和便利。下面,将为大家分别介绍人工智能的一些主要应用场景。
5710 0
人工智能的十大应用
|
存储 机器学习/深度学习 人工智能
大家都在聊的人工智能,究竟是什么?
人工智能作为当下科技领域最热门的技术之一,吸引了众多行内和行外人士的关注。2020年人工智能的热度依然只增不减。该技术已成为活跃在科技领域的核心力量,融入社会的方方面面。但人工智能究竟是什么,可能并不是每个人都能讲清楚。今天就来和大家聊聊人工智能是什么,会给大家的生活带来怎样的变化。
821 0
大家都在聊的人工智能,究竟是什么?

热门文章

最新文章

下一篇
开通oss服务