东南大学漆桂林:知识图谱的应用

简介: 1. 语义搜索 知识图谱这个概念是谷歌提出的,谷歌做知识图谱自然是跟搜索引擎相关,即提供语义搜索。这里语义搜索跟传统搜索引擎的区别在于搜索的结果不是展示网页,而是展示结构化知识,如下图(图 1)所示: 图1:语义搜索示例 在图 1 中,当用户输入“jackie chan”,搜索引擎可以识别出 jackie chan 其实就是成龙,而且,会给出成龙的各种属性信息,比如说出生日期、国籍、配偶等。

1. 语义搜索

知识图谱这个概念是谷歌提出的,谷歌做知识图谱自然是跟搜索引擎相关,即提供语义搜索。这里语义搜索跟传统搜索引擎的区别在于搜索的结果不是展示网页,而是展示结构化知识,如下图(图 1)所示:


image
图1:语义搜索示例

在图 1 中,当用户输入“jackie chan”,搜索引擎可以识别出 jackie chan 其实就是成龙,而且,会给出成龙的各种属性信息,比如说出生日期、国籍、配偶等。这些都是以前基于关键词的检索做不到的,有了知识图谱以后,就可以即问即答了。点击成龙的配偶“林凤娇”,可以直接进入她的知识卡片,见图 2:


image
图2:语义导航示例

然后还可以继续点击房祖名看他的信息。这里我们可以把成龙、林凤娇、房祖名看出图的节点,成龙跟林凤娇之间有一个关系,即夫妻关系,林凤娇跟房祖名之间有一个关系,即母子关系,这就是成龙家庭的一个小的关系图谱。

2. 股票投研情报分析

通过知识图谱相关技术从招股书、年报、公司公告、券商研究报告、新闻等半结构化表格和非结构化文本数据中批量自动抽取公司的股东、子公司、供应商、客户、合作伙伴、竞争对手等信息,构建出公司的知识图谱。

在某个宏观经济事件或者企业相关事件发生的时候,券商分析师、交易员、基金公司基金经理等投资研究人员可以通过此图谱做更深层次的分析和更好的投资决策,比如在美国限制向中兴通讯出口的消息发布之后,如果我们有中兴通讯的客户供应商、合作伙伴以及竞争对手的关系图谱,就能在中兴通讯停牌的情况下快速地筛选出受影响的国际国内上市公司从而挖掘投资机会或者进行投资组合风险控制(图 3)。


image
图3:股票投研情报分析

3. 公安情报分析

通过融合企业和个人银行资金交易明细、通话、出行、住宿、工商、税务等信息构建初步的“资金账户-人-公司”关联知识图谱。同时从案件描述、笔录等非结构化文本中抽取人(受害人、嫌疑人、报案人)、事、物、组织、卡号、时间、地点等信息,链接并补充到原有的知识图谱中形成一个完整的证据链。

辅助公安刑侦、经侦、银行进行案件线索侦查和挖掘同伙。比如银行和公安经侦监控资金账户,当有一段时间内有大量资金流动并集中到某个账户的时候很可能是非法集资,系统触发预警(图 4)。


image
图4:公安情报分析

4. 反欺诈情报分析

通过融合来自不同数据源的信息构成知识图谱,同时引入领域专家建立业务专家规则。我们通过数据不一致性检测,利用绘制出的知识图谱可以识别潜在的欺诈风险。比如借款人张 xx 和借款人吴 x 填写信息为同事,但是两个人填写的公司名却不一样, 以及同一个电话号码属于两个借款人,这些不一致性很可能有欺诈行为 (图 5)。

image
图5:反欺诈情报分析

5. 面向多源异构关系数据的自然语言问答

现在很多企业都有自己的数据库,而且这些数据库因为不是同一批人构建的,所以维护数据库的成本很高,访问数据库也很不方便,而且数据库之间的关联也很难发现。

通过构建一个本体(该本体可以是从数据库的 schema 抽取后,然后通过人工来修改得到),然后构建本体和数据库的 schema 的映射以及数据之间的匹配,就可以方便的实现数据的集成和数据的语义关联,并且可以利用构建的本体和通过本体集成得到的知识图谱来对自然语言做解析,从而将自然语言查询直接转化为 SQL 去查数据库,并且给出答案,答案可以是用图表的方式来给出。下面给出一个例子(图 6):


image
图6:数据库集成和问答系统示例

如用户提问“龙蟠路高铁南站出口 2013 年 8 月 1 日经过的本田车辆有哪些”,系统直接给出结果。

6. 面向知识图谱的智能问答

最近几年,问答(Question answering)重新受到广泛的关注,主要原因还是因为有 IBM Watson 的出现(见The AI Behind Watson - The Technical Article [1])。Watson虽然号称可以做很多领域,比如说法律有ROSS(ROSS and Watson tackle the law - Watson [2]),但是事实上,Watson 最早提出的时候只是为智力竞赛节目 Jeopardy(Jeopardy! Official Site | Jeopardy.com [3],类似开心辞典和一站到底)定制的,类似下面这种:

Category: General Science

Clue: When hit by electrons, a phosphor gives off electromagnetic energy in this form.

Answer: Light (or Photons)

也就是说,问题会有一些分类,然后出题的人会给出一些暗示(Clue),做题的人或者机器根据这些暗示给出答案。

Watson 的问答系统采用了 wikipedia 和 DBpedia、Yago 等半结构化数据以及图谱数据,但是更多的还是从文本中提取各种证据(evidence)来回答。IBM Watson 系统架构见下图(图 7)。


image
图7:IBM Watson 系统架构

IBM Watson 系统被神化成可以在任何领域适用,导致只要做问答相关项目,都容易被挑战跟 Watson 有什么差异。事实上,Watson 系统和很多人工智能系统一样,是高度定制化的,当然,相关技术确实是可以用到多个领域,但是需要有一定的变化。

东南大学认知智能研究所借鉴了 Watson 技术,启动了一个佛学考试机器人项目,旨在回答佛学相关问题。为了做这个系统,需要先构建一个佛学知识图谱,通过图谱和佛学相关的网页,利用问答技术解题。考试题目例子如下:

1.僧伽是①涅槃义②和合众③杀贼义。

2.「诸行无常、诸法无我、涅盘寂静」称为①三种无常②三法印③三乘道。

3.人生最大的错误是①杀生②妄语③邪见。

下面是系统的截屏:

image


7. 辅助判案

知识图谱技术可以帮助我们快速构建一个法律知识图谱,目前还缺乏法律知识图谱的理论工作。跟其他领域的知识图谱相比,法律知识图谱需要考虑法律的逻辑,下面就是一个法律知识图谱的片段:


image


从上面这个例子可以看出,每一个犯罪行为都有主体、客体、主观要件和客观要件,我们就需要从文本中去抽取这些信息,从而形成一个关于犯罪行为的图谱,而通过对海量判决书的挖掘,可以建立犯罪行为之间的关联,比如说,防卫过当和故意伤害之间有一个关联,即误判为的关系。通过这个图谱,给定一个判决书,可以辅助法官判的一个案件是否有误判,是否需要补充信息。

[1] The AI Behind Watson - The Technical Article:
http://www.aaai.org/Magazine/Watson/watson.php
[2] ROSS and Watson tackle the law - Watson:
https://www.ibm.com/blogs/watson/2016/01/ross-and-watson-tackle-the-law/
[3] Jeopardy! Official Site:
https://www.jeopardy.com/

原文发布时间为:2017-09-01
本文作者:漆桂林
本文来自云栖社区合作伙伴“PaperWeekly”,了解相关信息可以关注“PaperWeekly”微信公众号

相关文章
|
JavaScript 算法
Vue的数据为什么频繁变化但只会更新一次
Vue的数据为什么频繁变化但只会更新一次
527 1
|
存储 JSON 关系型数据库
Pandas载入txt、csv、Excel、JSON、数据库文件讲解及实战(超详细 附源码)
Pandas载入txt、csv、Excel、JSON、数据库文件讲解及实战(超详细 附源码)
580 0
|
5月前
|
数据采集 监控 安全
数据治理怎么做?一文讲清数据治理实施的步骤流程
本文深入浅出解析数据治理:从识别数据混乱痛点(如字段不一、脏数据)出发,系统阐述其本质是建立数据资产的全局规则与持续管控体系;并提供从规划、盘点、建模到组织建设、质量与安全落地、常态化运营的五步实操路径,助力企业让数据真正可信、可用、可控。
855 12
|
2月前
|
运维 Ubuntu API
零门槛入门:OpenClaw 阿里云及本地部署超详细教程+核心基础操作全解析
OpenClaw的基础操作是高效使用的基石,通过服务管理、模型配置、日志排查三类核心命令,可解决绝大多数使用问题。2026年优化后的阿里云/本地双部署方案,让基础操作更简洁,新手也能快速上手。建议先熟练掌握“服务启停、状态查看、日志排查”等基础命令,再根据任务需求调整模型配置——临时任务用强模型,日常任务用快模型,本地部署可接入Ollama实现离线使用。通过本文的命令速查与实操步骤,你可以轻松实现OpenClaw的全流程管理,从部署到上手一气呵成。
757 1
|
5月前
|
运维 网络协议 Linux
从0到1:Linux 系统 TCP 缓冲区调优实战指南
本文将带你了解: ✅ 如何查看当前 TCP 缓冲区大小 ✅ 如何根据业务需求调整接收/发送缓冲区 ✅ 实际调参案例与注意事项 适合正在排查网络性能瓶颈的一线网络工程师、系统运维人员阅读。
|
11月前
|
存储 机器学习/深度学习 安全
阿里云服务器4核8G价格参考:最新收费标准、可选实例规格与活动价格参考
阿里云服务器4核8G配置目前有计算型 c6、AMD 计算型 c6a、计算平衡增强型 c6e等多种实例规格可选,目前在阿里云的活动中4核8G配置的云服务器经济型e、通用算力型u1、计算型c8i、计算型c9i和计算型c8y实例可选,选择不同实例规格和带宽价格不一样,本文为大家介绍阿里云服务器4核8G配置的最新月付及年付活动价格,以及选择参考。
|
10月前
|
定位技术 数据处理 API
手把手教你怎么做人口密度热力图
本文介绍了使用Python和ArcGIS绘制人口密度地图的方法。Python部分包括地图数据获取、格式转换、数据整合及可视化;ArcGIS部分涵盖地图投影、数据连接、人口密度计算与图例设置。同时提供了C++代码用于数据分割,并介绍了如何利用高德API获取地址经纬度,实现地图标注。
1649 0
|
存储 前端开发 UED
React 面包屑组件 Breadcrumb 详解
面包屑导航是现代Web应用中常见的UI元素,帮助用户了解当前位置并快速返回上级页面。本文介绍如何使用React构建面包屑组件,涵盖基本概念、实现方法及常见问题。通过函数式组件和钩子,结合React Router动态生成路径,处理嵌套路由,并确保可访问性。示例代码展示了静态和动态面包屑的实现,帮助开发者提升用户体验。
854 73
|
存储 运维 安全
云计算:优势与挑战
在数字化浪潮的推动下,云计算已经成为企业信息化建设的重要组成部分。本文将针对云计算的优势和劣势进行深入分析,旨在为读者提供全面的了解和参考。
2246 5
|
开发工具 Python Windows
【Python专栏】搭建Pyhthon运行环境及开发环境 | 安装Python | 安装PyCharm
【Python专栏】搭建Pyhthon运行环境及开发环境 | 安装Python | 安装PyCharm
694 4