《中国人工智能学会通讯》——6.9 从语义网到知识图谱

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第6章,第6.9节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

6.9 从语义网到知识图谱

计算机的研究者一直梦想构建一个高度互联的信息库,来记录和承载人类的思想、记忆与知识[1-2] 。早在 1945 年,美国人 Vannevar Bush 提出了一个称为 Memex 的“记忆机器”(CollectiveMemory Machine) [3] ,目的是让人们更加容易记录和访问知识。Bush 认为人脑记忆偏重“关联”和“连接”,而不是基于“索引”或“层次化”。Memex 模拟了人脑记忆的这种特点,并启发了超 文 本(Hypertext) [4] 和 万 维 网(World WideWeb)的发明。

超文本通过建立文本之间的电子链接,增强文本数据之间的互联[5] 。1989 年,万维网之父Tim Berners-Lee 提出构建一个分布式超文本系统,并把它命名为 Web [6] 。在这份建议书里,他提出要构建一个基于“链接”的信息系统(LinkedInformation System)。这个系统以“链接”为中心,并能在开放的互联网环境里面逐步演化、生长和扩大链接的范围。他认为这种基于图和链接的组织方式,比起基于树的层次化组织方式,更加适合于互联网这种复杂开放的系统。这一思想逐步被人们实现,并演化发展成为今天的万维网。

1994 年,Tim Berners-Lee 又提出,Web 不应该仅仅只是网页之间的互相链接。实际上,网页上所描述的是现实世界中的个体对象和人脑中的概念,网页之间的链接实际包含有语义,即这些个体对象或概念之间的关系,然而机器却无法有效地从网页中识别出其中蕴含的语义。如果人们在发布这些信息时,就建立对这些个体对象和关系的语义描述,再加上互联网的开放网络扩张效应(NetworkEffect),就能涌现出一个全球互联的“数据互联网”。

他于 1998 年提出了语义网(Semantic Web)的概念[7-8] 。语义网仍然基于图和链接的组织方式,只是图中(见图 1)的节点代表的不是网页,而是个体对象(如人、机构、地点等);而超链接也被增加了类型描述,具体标明对象之间的语义关系(如出生地是、创办人是等)。相对于传统的网页互联网,语义网的本质是(结构化)数据的互联网。Tim Berners-Lee 希望人们都能用尽可能标准和规范的方式发布自己的数据,并像建立超文本链接一样建立数据之间的链接,从而构建一个庞大、分布互联的全球数据库。这种结构化的链接数据将使得Web 上的信息更加易于被机器所理解和处理,而不仅仅像网页那样只是供人浏览。
image

但 语 义 网 的 实 现 并 不 容 易 和 顺 利。TimBerners-Lee 领导的 W3C 用了近十年时间建立语义网的技术标准,这包括基础数据模型 (RDF)、语义查询语言 (SPARQL)、本体描述语言 (OWL)、规则语言 (RIF)、数据发布语言 (RDFa) 等。尽管这些技术标准在生物、医疗、数字出版等很多领域都得到应用[9-10] ,但离语义网最初的理想仍然相差较远。

Freebase 是早期的语义网公司 MetaWeb 于2007 年推出的结构化数据集。Freebase 的数据一部分来源于维基百科等公开数据源,另外一部分来源于社区个人的汇交。谷歌于 2010 年收购了Freebase,并以之为数据基础之一,推出了其基于知识图谱的搜索服务[11] 。

谷歌主要利用知识图谱来优化其搜索体验和支持智能问答。谷歌知识图谱的基本理念与语义网一致,本质是由类型化实体(Typed Entities)互联构成的结构化数据库。谷歌支持各网站定制知识图谱内容[12] ,允许各网站以 RDFa [13] 、JSON-LD [14] 、HTML Microdata [15] 等方式在网页中嵌入语义化数据。谷歌自动搜集这些语义数据,并归并到后端的知识图谱中。

这种方式把搜索内容结构化和语义化,从而实现面向事物和对象的搜索,即语义搜索[16] 。本文概要介绍了利用语义技术构建数据链接的主要实践、关键技术及典型应用;尝试从语义与链接数据的视角,阐述知识图谱的内涵和未来发展趋势。

相关文章
|
2月前
|
人工智能 自然语言处理 算法
为什么知识图谱是人工智能系统的未来?
检索增强生成(RAG)系统为大型语言模型(LLM)适应新数据集提供了巨大的前景,因为它提供了可据以构建响应的参考资料。
|
11天前
|
人工智能 自然语言处理 搜索推荐
|
3月前
|
存储 人工智能 自然语言处理
知识图谱系统在人工智能领域的应用与前景
知识图谱(Knowledge Graph)是一种新型的知识表示、存储和查询的方法,也是人工智能领域中重要的基础技术之一。本文主要介绍了知识图谱的概念、产生背景,以及发展历程,并详细分析了知识图谱人工智能领域中的应用,最后对其未来的发展趋势进行了展望。
|
11月前
|
存储 人工智能 安全
重磅!国家标准《信息技术人工智能知识图谱技术框架》征求意见稿发布,35页pdf详细规定知识图谱技术框架
重磅!国家标准《信息技术人工智能知识图谱技术框架》征求意见稿发布,35页pdf详细规定知识图谱技术框架
218 0
|
机器学习/深度学习 人工智能 自然语言处理
人工智能知识图谱之信息抽取:基于Labelstudio的UIE半监督深度学习的智能标注方案(云端版),提效。
人工智能知识图谱之信息抽取:基于Labelstudio的UIE半监督深度学习的智能标注方案(云端版),提效。
|
机器学习/深度学习 人工智能 自然语言处理
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
第五届世界互联网大会正在如火如荼的举行。
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
|
机器学习/深度学习 人工智能 自然语言处理
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
这是ShowMeAI每周通讯的第3期。本期内容关键词:新冠、ChatGPT、2022 AI 报告、腾讯·绝悟、阿里·AliceMind、小红书·全站智投、OpenAI·Point-E、Google·CALM、Wayve·MILE、AI2·MemPrompt、Stanford x MosaicML·PubMed GPT、腾讯全员大会、特斯拉裁员、图森未来裁员、AI 应用与工具大全。
465 0
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
|
存储 数据采集 人工智能
中医与人工智能-基于Protégé构建知识图谱
文章目录 中医与人工智能-基于Protégé构建知识图谱 本文内容 中医数据获取 中医数据处理
中医与人工智能-基于Protégé构建知识图谱
|
大数据 新能源 知识图谱
《知识图谱、人工智能技术在大数据新能源 建设中的应用》电子版地址
知识图谱、人工智能技术在大数据新能源 建设中的应用
95 0
《知识图谱、人工智能技术在大数据新能源 建设中的应用》电子版地址
|
机器学习/深度学习 人工智能 自然语言处理
与世界同行 2017中国人工智能大会有感
与世界同行 2017中国人工智能大会有感
1542 0
与世界同行 2017中国人工智能大会有感