知识图谱入门一：知识图谱介绍，Neo4j下载、安装基本使用

2023-01-18 1837

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 知识图谱入门一：知识图谱介绍，Neo4j下载、安装基本使用

一、知识图谱简介

1.1 引言

从一开始的Google搜索，到现在的聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统，无一不跟知识图谱相关。它在技术领域的热度也在逐年上升。

早在 2010 年微软就开始构建知识图谱，包括 Satori 和 Probase；2012 年，Google 正式发布了 Google Knowledge Graph，现在规模已超 700 亿。目前微软和 Google 拥有全世界最大的通用知识图谱，Facebook 拥有全世界最大的社交知识图谱，而阿里巴巴和亚马逊则分别构建了商品知识图谱。

图 1 业内布局

图 2 业内应用

本章以通俗易懂的方式来讲解知识图谱相关的知识、介绍从零开始搭建知识图谱过程当中需要经历的步骤以及每个阶段。本次组队学习还将动手实践一个关于kg在智能问答中的应用。

1.2 什么是知识图谱呢？

知识图谱是由 Google 公司在 2012 年提出来的一个新的概念。从学术的角度，我们可以对知识图谱给一个这样的定义：“知识图谱本质上是语义网络（Semantic Network）的知识库”。但这有点抽象，所以换个角度，从实际应用的角度出发其实可以简单地把知识图谱理解成多关系图（Multi-relational Graph）。

1.2.1 什么是图（Graph）呢？

图（Graph）是由节点（Vertex）和边（Edge）来构成，多关系图一般包含多种类型的节点和多种类型的边。

实体（节点）指的是现实世界中的事物比如人、地名、概念、药物、公司等，

关系（边）则用来表达不同实体之间的某种联系，比如人-“居住在”-北京、张三和李四是“朋友”、逻辑回归是深度学习的“先导知识”等等。

图 3 图（Graph）介绍

1.2.2 什么是 Schema 呢？

知识图谱另外一个很重要的概念是 Schema:

介绍：Schema（模式） 限定待加入知识图谱数据的格式；相当于某个领域内的数据模型，包含了该领域内有意义的概念类型以及这些类型的属性
作用：规范结构化数据的表达，一条数据必须满足Schema预先定义好的实体对象及其类型，才被允许更新到知识图谱中， 一图胜千言

图 4 Schema定义

图中的DataType限定了知识图谱节点值的类型为文本、日期、数字（浮点型与整型）

图中的Thing限定了节点的类型及其属性（即图1-1中的边）

举例说明：基于上图Schema构建的知识图谱中仅可含作品、地方组织、人物；其中作品的属性为电影与音乐、地方组织的属性为当地的商业（eg：饭店、俱乐部等）、人物的属性为歌手

1.3 知识图谱的价值在哪呢？

从图5中可以看出，知识图谱是人工智能很重要的一个分支, 人工智能的目标为了让机器具备像人一样理性思考及做事的能力 ->

在符号主义的引领下，知识工程（核心内容即建设专家系统）取得了突破性的进展 ->

在整个知识工程的分支下，知识表示是一个非常重要的任务 ->

而知识图谱又恰恰是知识表示的重要一环

图 5 学科概念

二、怎么构建知识图谱呢？

2.1 知识图谱的数据来源于哪里？

知识图谱的构建是后续应用的基础，而且构建的前提是需要把数据从不同的数据源中抽取出来。对于垂直领域的知识图谱来说，它们的数据源主要来自两种渠道：

第一种：业务本身的数据。这部分数据通常包含在公司内的数据库表并以结构化的方式存储，一般只需要简单预处理即可以作为后续AI系统的输入；

第二种：网络上公开、抓取的数据。这些数据通常是以网页的形式存在所以是非结构化的数据，一般需要借助于自然语言处理等技术来提取出结构化信息。

图 6 数据来源

比如在下面的搜索例子里，Bill Gates和Malinda Gate的关系就可以从非结构化数据中提炼出来，比如维基百科等数据源。

图 7 举例说明

2.2 信息抽取的难点在哪里？

信息抽取的难点在于处理非结构化数据。在下面的图中，我们给出了一个实例。左边是一段非结构化的英文文本，右边是从这些文本中抽取出来的实体和关系。

图 8 信息抽取的难点举例

2.3 构建知识图谱所涉及的技术？

在构建类似的图谱过程当中，主要涉及以下几个方面的自然语言处理技术：

实体命名识别（Name Entity Recognition）
关系抽取（Relation Extraction）
实体统一（Entity Resolution）
指代消解（Coreference Resolution）
…

2.4、知识图谱的具体构建技术是什么？

下面针对每一项技术解决的问题做简单的描述，至于这些是具体怎么实现的，不在这里一一展开。

2.4.1 实体命名识别（Named Entity Recognition）

实体命名识别（英语：Named Entity Recognition），简称NER

目标：就是从文本里提取出实体并对每个实体做分类/打标签；

举例说明：比如从上述文本里，我们可以提取出实体-“NYC”，并标记实体类型为 “Location”；我们也可以从中提取出“Virgil’s BBQ”，并标记实体类型为“Restarant”。

这种过程称之为实体命名识别，这是一项相对比较成熟的技术，有一些现成的工具可以用来做这件事情。

2.4.2 关系抽取（Relation Extraction）

关系抽取（英语：Relation Extraction），简称 RE

介绍：通过关系抽取技术，把实体间的关系从文本中提取出来；

举例说明：比如实体“hotel”和“Hilton property”之间的关系为“in”；“hotel”和“Time Square”的关系为“near”等等。

图 9 NER 和 RE 示例

2.4.3 实体统一（Entity Resolution）

实体统一（英语：Entity Resolution），简称 ER

介绍：对于有些实体写法上不一样，但其实是指向同一个实体；

举例说明：比如“NYC”和“New York”表面上是不同的字符串，但其实指的都是纽约这个城市，需要合并。

价值：实体统一不仅可以减少实体的种类，也可以降低图谱的稀疏性（Sparsity）；

2.4.4 指代消解（Disambiguation）

指代消解（英语：Disambiguation）
介绍：文本中出现的“it”, “he”, “she”这些词到底指向哪个实体，比如在本文里两个被标记出来的“it”都指向“hotel”这个实体。

图 10 ER 和 Disambiguation 示例

三、知识图谱的存储

知识图谱主要有两种存储方式：

一种是基于RDF的存储；
另一种是基于图数据库的存储。

图 11 RDF的存储和基于图数据库的存储的区别

四、Neo4J 介绍与安装

4.1 引言

“工欲善其事，必先利其器”，知识图谱作为一种特殊的图结构，自然需要专门的图数据库进行存储。

知识图谱由于其数据包含实体、属性、关系等，常见的关系型数据库诸如MySQL之类不能很好的体现数据的这些特点，因此知识图谱数据的存储一般是采用图数据库（Graph Databases）。而Neo4j是其中最为常见的图数据库。

4.2 Neo4J 下载

首先在 Neo4J官网下载 Neo4J。

Neo4J分为社区版和企业版：

企业版：收费，在横向扩展、权限控制、运行性能、HA等方面都比社区版好，适合正式的生产环境；
社区版：免费，普通的学习和开发采用免费社区版就好。

4.3 Neo4J 安装

在Mac或者Linux中，安装好jdk后，直接解压下载好的Neo4J包，运行命令

bin/neo4j start

windows系统下载好neo4j和jdk 1.8.0后，输入以下命令启动后neo4j

neo4j.bat console

图 12 Neo4j 运行结果

4.4 Neo4J Web 界面介绍

Neo4J提供了一个用户友好的 Web 界面，可以进行各项配置、写入、查询等操作，并且提供了可视化功能。类似ElasticSearch一样，我个人非常喜欢这种开箱即用的设计。

打开浏览器，输入http://127.0.0.1:7474/browser/，如下图 13 所示，界面最上方就是交互的输入框。

图 13 Neo4J Web界面

4.5 Cypher查询语言

Cypher：

介绍：是Neo4J的声明式图形查询语言，允许用户不必编写图形结构的遍历代码，就可以对图形数据进行高效的查询。

设计目的：类似SQL，适合于开发者以及在数据库上做点对点模式（ad-hoc）查询的专业操作人员。

其具备的能力包括：

创建、更新、删除节点和关系

通过模式匹配来查询和修改节点和关系 - 管理索引和约束等转载，原文链接：https://blog.csdn.net/weixin_44023658/article/details/112503294

参考资料

干货 | 从零到一学习知识图谱的技术与应用

手把手教你快速入门知识图谱 - Neo4J教程

python操作图数据库neo4j的两种方式

Neo4j之导入数据

schema 介绍

知识图谱Schema

美团大脑：知识图谱的建模方法及其应用

肖仰华. 知识图谱：概念与技术．北京：电子工业出版社, 2020．2－39．

知识图谱入门一：知识图谱介绍，Neo4j下载、安装基本使用

一、知识图谱简介

1.1 引言