知识图谱入门一:知识图谱介绍,Neo4j下载、安装基本使用

简介: 知识图谱入门一:知识图谱介绍,Neo4j下载、安装基本使用

一、知识图谱简介

1.1 引言

从一开始的Google搜索,到现在的聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统,无一不跟知识图谱相关。它在技术领域的热度也在逐年上升。


早在 2010 年微软就开始构建知识图谱,包括 Satori 和 Probase;2012 年,Google 正式发布了 Google Knowledge Graph,现在规模已超 700 亿。目前微软和 Google 拥有全世界最大的通用知识图谱,Facebook 拥有全世界最大的社交知识图谱,而阿里巴巴和亚马逊则分别构建了商品知识图谱。

                                                  图 1 业内布局

                                                 图 2 业内应用

本章以通俗易懂的方式来讲解知识图谱相关的知识、介绍从零开始搭建知识图谱过程当中需要经历的步骤以及每个阶段。本次组队学习还将动手实践一个关于kg在智能问答中的应用。

1.2 什么是知识图谱呢?

知识图谱是由 Google 公司在 2012 年提出来的一个新的概念。从学术的角度,我们可以对知识图谱给一个这样的定义:“知识图谱本质上是语义网络(Semantic Network)的知识库”。但这有点抽象,所以换个角度,从实际应用的角度出发其实可以简单地把知识图谱理解成多关系图(Multi-relational Graph)。

1.2.1 什么是图(Graph)呢?

图(Graph)是由节点(Vertex)和边(Edge)来构成,多关系图一般包含多种类型的节点和多种类型的边。


实体(节点)指的是现实世界中的事物比如人、地名、概念、药物、公司等,


关系(边)则用来表达不同实体之间的某种联系,比如人-“居住在”-北京、张三和李四是“朋友”、逻辑回归是深度学习的“先导知识”等等。

                                   图 3 图(Graph)介绍

1.2.2 什么是 Schema 呢?

知识图谱另外一个很重要的概念是 Schema:

  • 介绍:Schema(模式) 限定待加入知识图谱数据的格式;相当于某个领域内的数据模型,包含了该领域内有意义的概念类型以及这些类型的属性
  • 作用:规范结构化数据的表达,一条数据必须满足Schema预先定义好的实体对象及其类型,才被允许更新到知识图谱中, 一图胜千言

                                                                           图 4 Schema定义

图中的DataType限定了知识图谱节点值的类型为文本、日期、数字(浮点型与整型)


图中的Thing限定了节点的类型及其属性(即图1-1中的边)


举例说明:基于上图Schema构建的知识图谱中仅可含作品、地方组织、人物;其中作品的属性为电影与音乐、地方组织的属性为当地的商业(eg:饭店、俱乐部等)、人物的属性为歌手

1.3 知识图谱的价值在哪呢?

从图5中可以看出,知识图谱是人工智能很重要的一个分支, 人工智能的目标为了让机器具备像人一样理性思考及做事的能力 ->


在符号主义的引领下,知识工程(核心内容即建设专家系统)取得了突破性的进展 ->


在整个知识工程的分支下,知识表示是一个非常重要的任务 ->


而知识图谱又恰恰是知识表示的重要一环

                                                 图 5 学科概念

二、怎么构建知识图谱呢?

2.1 知识图谱的数据来源于哪里?

知识图谱的构建是后续应用的基础,而且构建的前提是需要把数据从不同的数据源中抽取出来。对于垂直领域的知识图谱来说,它们的数据源主要来自两种渠道:


第一种:业务本身的数据。这部分数据通常包含在公司内的数据库表并以结构化的方式存储,一般只需要简单预处理即可以作为后续AI系统的输入;

第二种:网络上公开、抓取的数据。这些数据通常是以网页的形式存在所以是非结构化的数据,一般需要借助于自然语言处理等技术来提取出结构化信息。

                                                图 6 数据来源

比如在下面的搜索例子里,Bill Gates和Malinda Gate的关系就可以从非结构化数据中提炼出来,比如维基百科等数据源。

                                           图 7 举例说明

2.2 信息抽取的难点在哪里?

信息抽取的难点在于处理非结构化数据。在下面的图中,我们给出了一个实例。左边是一段非结构化的英文文本,右边是从这些文本中抽取出来的实体和关系。

                                      图 8 信息抽取的难点举例

2.3 构建知识图谱所涉及的技术?

在构建类似的图谱过程当中,主要涉及以下几个方面的自然语言处理技术:

  • 实体命名识别(Name Entity Recognition)
  • 关系抽取(Relation Extraction)
  • 实体统一(Entity Resolution)
  • 指代消解(Coreference Resolution)

2.4、知识图谱的具体构建技术是什么?

下面针对每一项技术解决的问题做简单的描述,至于这些是具体怎么实现的,不在这里一一展开。

2.4.1 实体命名识别(Named Entity Recognition)

实体命名识别(英语:Named Entity Recognition),简称NER


目标:就是从文本里提取出实体并对每个实体做分类/打标签;


举例说明:比如从上述文本里,我们可以提取出实体-“NYC”,并标记实体类型为 “Location”;我们也可以从中提取出“Virgil’s BBQ”,并标记实体类型为“Restarant”。


这种过程称之为实体命名识别,这是一项相对比较成熟的技术,有一些现成的工具可以用来做这件事情。

2.4.2 关系抽取(Relation Extraction)

关系抽取(英语:Relation Extraction),简称 RE


介绍:通过关系抽取技术,把实体间的关系从文本中提取出来;


举例说明:比如实体“hotel”和“Hilton property”之间的关系为“in”;“hotel”和“Time Square”的关系为“near”等等。

                                      图 9 NER 和 RE 示例

2.4.3 实体统一(Entity Resolution)

实体统一(英语:Entity Resolution),简称 ER


介绍:对于有些实体写法上不一样,但其实是指向同一个实体;


举例说明:比如“NYC”和“New York”表面上是不同的字符串,但其实指的都是纽约这个城市,需要合并。


价值:实体统一不仅可以减少实体的种类,也可以降低图谱的稀疏性(Sparsity);

2.4.4 指代消解(Disambiguation)

  • 指代消解(英语:Disambiguation)
  • 介绍:文本中出现的“it”, “he”, “she”这些词到底指向哪个实体,比如在本文里两个被标记出来的“it”都指向“hotel”这个实体。

                                图 10 ER 和 Disambiguation 示例

三、知识图谱的存储

  • 知识图谱主要有两种存储方式:
  • 一种是基于RDF的存储;
  • 另一种是基于图数据库的存储。

                         图 11 RDF的存储 和 基于图数据库的存储 的区别

四、Neo4J 介绍与安装

4.1 引言

“工欲善其事,必先利其器”,知识图谱作为一种特殊的图结构,自然需要专门的图数据库进行存储。


知识图谱由于其数据包含实体、属性、关系等,常见的关系型数据库诸如MySQL之类不能很好的体现数据的这些特点,因此知识图谱数据的存储一般是采用图数据库(Graph Databases)。而Neo4j是其中最为常见的图数据库。

4.2 Neo4J 下载

首先在 Neo4J官网 下载 Neo4J。

Neo4J分为社区版和企业版:

  • 企业版:收费,在横向扩展、权限控制、运行性能、HA等方面都比社区版好,适合正式的生产环境;
  • 社区版:免费,普通的学习和开发采用免费社区版就好。

4.3 Neo4J 安装

  • 在Mac或者Linux中,安装好jdk后,直接解压下载好的Neo4J包,运行命令
bin/neo4j start
  • windows系统下载好neo4j和jdk 1.8.0后,输入以下命令启动后neo4j
neo4j.bat console

图 12 Neo4j 运行结果

4.4 Neo4J Web 界面 介绍

Neo4J提供了一个用户友好的 Web 界面,可以进行各项配置、写入、查询等操作,并且提供了可视化功能。类似ElasticSearch一样,我个人非常喜欢这种开箱即用的设计。


打开浏览器,输入http://127.0.0.1:7474/browser/,如下图 13 所示,界面最上方就是交互的输入框。

                                    图 13 Neo4J Web界面

4.5 Cypher查询语言

Cypher:


介绍:是Neo4J的声明式图形查询语言,允许用户不必编写图形结构的遍历代码,就可以对图形数据进行高效的查询。


设计目的:类似SQL,适合于开发者以及在数据库上做点对点模式(ad-hoc)查询的专业操作人员。


其具备的能力包括:


创建、更新、删除节点和关系


通过模式匹配来查询和修改节点和关系 - 管理索引和约束等转载,原文链接:https://blog.csdn.net/weixin_44023658/article/details/112503294

参考资料

干货 | 从零到一学习知识图谱的技术与应用


手把手教你快速入门知识图谱 - Neo4J教程


python操作图数据库neo4j的两种方式


Neo4j之导入数据


schema 介绍


知识图谱Schema


美团大脑:知识图谱的建模方法及其应用


肖仰华. 知识图谱:概念与技术.北京:电子工业出版社, 2020.2-39.

相关实践学习
阿里云图数据库GDB入门与应用
图数据库(Graph Database,简称GDB)是一种支持Property Graph图模型、用于处理高度连接数据查询与存储的实时、可靠的在线数据库服务。它支持Apache TinkerPop Gremlin查询语言,可以帮您快速构建基于高度连接的数据集的应用程序。GDB非常适合社交网络、欺诈检测、推荐引擎、实时图谱、网络/IT运营这类高度互连数据集的场景。 GDB由阿里云自主研发,具备如下优势: 标准图查询语言:支持属性图,高度兼容Gremlin图查询语言。 高度优化的自研引擎:高度优化的自研图计算层和存储层,云盘多副本保障数据超高可靠,支持ACID事务。 服务高可用:支持高可用实例,节点故障迅速转移,保障业务连续性。 易运维:提供备份恢复、自动升级、监控告警、故障切换等丰富的运维功能,大幅降低运维成本。 产品主页:https://www.aliyun.com/product/gdb
目录
相关文章
|
5月前
|
敏捷开发 人工智能 测试技术
从 0 开始构建知识图谱的 5 个启动建议
Gartner 在《2023 年人工智能技术成熟度曲线》报告中,建议企业可以考虑采取以下行动来开启知识图谱:
|
9天前
|
机器学习/深度学习 并行计算 PyTorch
深度学习环境搭建笔记(一):detectron2安装过程
这篇博客文章详细介绍了在Windows环境下,使用CUDA 10.2配置深度学习环境,并安装detectron2库的步骤,包括安装Python、pycocotools、Torch和Torchvision、fvcore,以及对Detectron2和PyTorch代码的修改。
30 1
深度学习环境搭建笔记(一):detectron2安装过程
|
2月前
|
存储 NoSQL 数据库
揭秘Django与Neo4j:构建智能知识图谱的终极指南
揭秘Django与Neo4j:构建智能知识图谱的终极指南
80 0
|
5月前
|
自然语言处理 算法 API
在Python中进行自然语言处理,安装必要的库
在Python中进行自然语言处理,安装必要的库
48 1
|
自然语言处理 NoSQL Java
Neo4j导入思知OwnThink开源的知识图谱
导入OwnThink开源的亿级知识三元组到 Neo4j中
Neo4j导入思知OwnThink开源的知识图谱
|
机器学习/深度学习 自然语言处理 算法
词!自然语言处理之词全解和Python实战!
词!自然语言处理之词全解和Python实战!
146 0
|
存储 自然语言处理 数据可视化
NLP 与 Python:构建知识图谱实战案例
网络图是一种数学结构,用于表示点之间的关系,可通过无向/有向图结构进行可视化展示。它是一种将相关节点映射的数据库形式。 知识库是来自不同来源信息的集中存储库,如维基百科、百度百科等。 知识图谱是一种采用图形数据模型的知识库。简单来说,它是一种特殊类型的网络图,用于展示现实世界实体、事实、概念和事件之间的关系。2012年,谷歌首次使用“知识图谱”这个术语,用于介绍他们的模型。
317 0
|
存储 SQL 人工智能
Neo4j入门实战,以三国英雄关系为例入门Neo4j知识图谱
Neo4j入门实战,以三国英雄关系为例入门Neo4j知识图谱
1520 0
Neo4j入门实战,以三国英雄关系为例入门Neo4j知识图谱
|
测试技术 Python
HTMLReport使用1 | HTMLReport简介和安装
HTMLReport使用1 | HTMLReport简介和安装
178 0
HTMLReport使用1 | HTMLReport简介和安装
|
Web App开发 机器学习/深度学习 并行计算
【菜菜的CV进阶之路 - 深度学习环境搭建】配置Ubuntu深度学习环境
【菜菜的CV进阶之路 - 深度学习环境搭建】配置Ubuntu深度学习环境
284 0
【菜菜的CV进阶之路 - 深度学习环境搭建】配置Ubuntu深度学习环境