中国人工智能学会通讯——面向知识图谱的自然语言问答系统 1 信息检索式的知识库问答

简介:

1 信息检索式的知识库问答

信息检索式的方法通常先确定问题的中心实体,继而生成问题的若干候选答案,再使用打分、排序等方式找出最适合原问题的答案。这类方法的整体框架比较简洁,对于简单问题有较好的效果。

1.1 确定中心实体

信息检索式的方法通常假设问题足够简单,大多数系统认为问题中有且仅有一个实体,这个实体被称作中心实体(Topic Entity),这是用户输入自然语言问题的核心,同时假设问题答案在知识图谱中离中心实体足够近,例如在离中心实体θ步以内(θ通常取2)。例如问题“What is the budget of Resident Evil? ”的中心实体是Resident Evil,疑问词是What。对于较复杂的问题,这类方法通常使用启发式规则和模板将复杂问题分解成若干简单问题,依次处理简单问题再对各答案集合求交集。

确定中心实体的本质任务是实体识别(Entity Recognition),其目标是检测出自然语言问题中代表实体的短语,并进一步将这些短语映射到特定的实体上。后一步工作常被称作实体连接(Entity Linking)或者实体消歧。若识别出多个实体,通常选择其中置信度最高的实体,或依次作为中心实体进行后续步骤。

在确定中心实体后,自然语言问题就在知识图中有了一个定位。由于问题规模有限,通常假设答案在知识图中离中心实体的距离足够近。这样,一种简单直观的方法就是将中心实体θ步之内的邻居节点都作为候选答案(θ通常取2)。

1.2 问题答案排序

确定中心实体,以及候选答案后,需要给各候选答案进行评分或排序,从而决定最终的结果。这是基于信息检索方式的问答系统重要阶段。评分或排序的方法包括基于特征抽取的方法[3],也包括基于深度学习的Graph Embedding的方法[4]。

用来计算答案最终得分的特征多种多样,这些特征通常从实体、关系和答案三个角度出发。与实体相关的特征主要包括实体链接的置信度,实体的表征短语和实体之间的单词重叠数等。与关系相关的特征主要包括关系抽取的置信度,关系两侧可以接受的类型等。与答案相关的特征主要包括答案的数目、答案的类型等。除此之外,不同的问答系统还可能考虑各自独有的特征。在计算出候选答案的特征之后,需要使用某种排序模型进行排序,以选择最合适的结果。排序学习(Learningto Rank)在信息抽取(Information Retrieval)领域中已经受到广泛关注和系统研究[14],主要分为单文档方法(PointWise Approach)、文档对方法(PairWise Approach)和文档列表方法(ListWise Approach)。其中文档对方法将排序问题转化为分类问题,在KB-QA任务中的表现较好,一些较成熟的算法可以直接使用,例如SVM-rank[15]。

另一方面,一些系统利用神经网络和各类Embedding的方法,直接评价候选答案与原问题之间的匹配程度。文献[1]将候选答案和原问题分别向量化,再使用多通道卷积神经网络(MCCNN)计算候选答案与原问题之间的相似度。文献[2]将候选实体生成与关系抽取(Relation Extraction)结合起来,利用原问题的上下文信息,使用卷积神经网络为候选实体对应的关系进行打分。文献[4]将候选答案周围的边和节点一同作为子图进行Embedding,再与原问题的向量做点乘作为得分(如图2所示)。

image

相关文章
|
数据采集 人工智能 缓存
深挖“全栈智算”之力 中兴通讯开启AI普惠新纪元
深挖“全栈智算”之力 中兴通讯开启AI普惠新纪元
352 1
|
人工智能 数据库 Docker
探索人工智能的世界:构建智能问答系统之环境篇
【6月更文挑战第7天】在本教程中,作者指导读者如何搭建项目环境,包括安装Python 3.10、Docker Desktop和Visual Studio Code。安装Python时可按默认设置进行,Docker Desktop用于管理数据库容器,提供更好的开发和测试环境。Visual Studio Code是一个推荐的源代码编辑器。虽然尝试使用cursor开发时遇到问题,但最终选择了使用VS Code。但建议本地开发。配置文件部分,提供了`docker-compose.yaml`、`Dockerfile`和`pyproject.toml`的示例,用于构建和管理项目容器。
295 5
探索人工智能的世界:构建智能问答系统之环境篇
|
人工智能 安全 Anolis
中兴通讯分论坛邀您探讨 AI 时代下 OS 的安全能力 | 2024 龙蜥大会
操作系统如何提供符合场景要求的安全能力,构建更加安全可信的计算环境。
|
机器学习/深度学习 人工智能 自然语言处理
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
第五届世界互联网大会正在如火如荼的举行。
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
|
人工智能 自然语言处理 数据库
探索人工智能的世界:构建智能问答系统之实战篇
【6月更文挑战第8天】本文档介绍了如何使用Python进行Milvus数据库操作,包括环境安装、基本操作如连接数据库、创建集合、插入和查询向量数据、创建索引、删除数据等。此外,还展示了使用LangChain库与HuggingFaceEmbeddings集成,简化操作。最后,演示了如何结合openai模型定制交互式问答系统。整个过程旨在帮助读者理解如何将预训练模型与数据库集成以实现特定任务。
262 3
|
存储 人工智能 自然语言处理
领域知识图谱-中式菜谱知识图谱:实现知识图谱可视化和知识库智能问答系统(KBQA)
领域知识图谱-中式菜谱知识图谱:实现知识图谱可视化和知识库智能问答系统(KBQA)
领域知识图谱-中式菜谱知识图谱:实现知识图谱可视化和知识库智能问答系统(KBQA)
|
存储 人工智能 数据可视化
手把手教学构建证券知识图谱/知识库(含码源):网页获取信息、设计图谱、Cypher查询、Neo4j关系可视化展示
手把手教学构建证券知识图谱/知识库(含码源):网页获取信息、设计图谱、Cypher查询、Neo4j关系可视化展示
手把手教学构建证券知识图谱/知识库(含码源):网页获取信息、设计图谱、Cypher查询、Neo4j关系可视化展示
|
机器学习/深度学习 人工智能 自然语言处理
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
这是ShowMeAI每周通讯的第3期。本期内容关键词:新冠、ChatGPT、2022 AI 报告、腾讯·绝悟、阿里·AliceMind、小红书·全站智投、OpenAI·Point-E、Google·CALM、Wayve·MILE、AI2·MemPrompt、Stanford x MosaicML·PubMed GPT、腾讯全员大会、特斯拉裁员、图森未来裁员、AI 应用与工具大全。
833 0
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
|
机器学习/深度学习 人工智能 自然语言处理
与世界同行 2017中国人工智能大会有感
与世界同行 2017中国人工智能大会有感
2353 0
与世界同行 2017中国人工智能大会有感
|
机器学习/深度学习 人工智能 自然语言处理
2022 年中国人工智能行业发展现状与市场规模分析 市场规模超 3000 亿元
人工智能产业是智能产业发展的核心,是其他智能科技产品发展的基础,近年来,中国人工智能产业在政策与技术双重驱动下呈现高速增长态势。
2199 0
2022 年中国人工智能行业发展现状与市场规模分析 市场规模超 3000 亿元