中国人工智能学会通讯——搜狗搜索:从搜索到问答 1.3 搜狗立知系统

简介:

1.3 搜狗立知系统

真实用户需求分布和电视节目中的问题分布差异非常大,我们根据用户向搜索引擎提交的真实查询请求,分析统计出用户问答类需求的分布情况(见表1)。

image

我们将用户的问题类型分为三大类,第一类是事实类问题,例如“中国人口最多的城市是哪个”,这类问题的答案是实体、数字或短语等,通常是10个字以内的简短文本,该类问题占搜索请求的比率为2%左右;第二类是分析类问题,例如“北京公积金提取流程”,这类问题寻求的是某种事物的方法、原因或经验等,其答案需要数十到数百字,甚至更长的一段文本来描述,该类问题占搜索请求的比率达到20%;第三类是观点类问题,即寻找人们对某件事物的看法,通常是互斥的两种或多种观点,这类问题占搜索请求的比率约3%。从用户提交给搜索引擎的问题来看,大部分用户的问题属于分析类。显然,从实际需求出发,一个实用的问答系统需要具备回答上述三类问题的能力。

1. 立知系统概要

立知系统的目标是针对上述各类问题返回相应答案,其总体架构如图4所示。整个系统根据问题类型设计成事实类问答子系统、分析类问答子系统和观点类问答子系统三个子系统,分别处理相应类别的问题。系统接收请求后,根据意图分析模块,将问题分发给相应子系统,子系统处理后直接返回问题的答案。其中事实类问答子系统很好地支撑了搜狗汪仔参加问答比赛,下面重点介绍分析类问答子系统,以及观点类问答子系统的关键功能模块和数据处理流程。

image

2. 分析类问答系统

分析类问答系统解决的是答案为非实体的问答需求(见图5),这类问答的难点在于用户对于问题的自然语言描述方式复杂多样,需要的答案也是条例清晰、内容完整的自然语言文本,没有确定的答案类型辅助;很多情况下也并非有“唯一”正确的答案,而是要从多个可以回答问题的文本中,选择或重组织一个尽可能精准、完整、权威度高的回答。

image

针对这类问答需求,我们的解决方案是从搜索引擎结果中获取高质量候选答案篇章,利用NLP技术对查询和候选篇章进行意图理解和语义分析,计算用户问题和候选答案的匹配程度,挑选出最能回答问题的段落或句子,并利用自动摘要技术进行答案生成,最终返回给用户精准完整的答案。涉及到的关键技术包括下述三个方面。

(1) 海量网页问答文本挖掘

我们实现了一套从网页数据中,自动挖掘高质量分析类问答数据的流程。首先,基于页面结构分析自动抽取出候选问答文本对。其基本思想是通过页面解析获得每段文本对应的标签和样式,根据标签和样式对页面中的文本段进行聚类,针对每一类进行模板特征和规则评分,获得候选问题,对候选问题进行分类并截取对应的答案文本(列表型和一般文本段落型)。该方法无需人工分析页面和配置抽取模板,适用于全网数据。然后,对抽取出的候选问答对进行语义分析。通过主题模型、分散式语义表示、文本聚类和相似度计算、页面质量和站点质量打分等,去掉不是问题或者答非所问的数据,保留问题比较明确、答案较为相关、来源较为可信的数据。

(2) 基于语义匹配的候选答案排序

在借助网页搜索获取候选答案文本的基础上,问答系统重点解决的是对用户意图的判断和对候选答案的排序。基于大规模搜索引擎数据和用户点击反馈学习的问答意图模型,能够帮助我们很好地识别出用户的问答需求,例如查询“外地人北京买房资格”,并不包含疑问词,但是反映了用户对相关答案的需求,属于典型分析类问答。对于识别出来的问答需求查询,我们利用文本匹配和深度语义匹配方法计算查询和候选结果网页标题、抽取问题,以及答案之间的相关性,并通过意图分析和文本分类技术,找到针对该问题需求的比较优质权威的站点结果,生成多种特征,利用机器学习排序模型进行候选答案排序。

(3) 对最佳答案文本的自动摘要展现

精准问答不仅要求给出答案,还需要答案条理清晰、简明扼要,在移动搜索环境中这一点尤为重要,因此我们会对选出的答案文本进行自动摘要。主流的自动摘要方法一般是进行内容表示、权重计算、内容选择和内容组织,针对问答这一场景,还需要在进行上述一系列步骤的同时,加入给定问题(或用户查询)的变量;对于列表型的答案文本,还加入了样式的约束。最后生成的答案是从原文本中摘选出的,具有语义连贯性和表意完整性的最小句子集合。同时,我们也在尝试和研究引入注意力机制的端到端的答案生成方法。

便捷地获取知识是问答需求的本质,基于通用搜索和机器阅读理解的答案生成将在未来为用户信息获取效率的提升带来极大价值。

3. 观点类问答系统

构建观点类问答系统的重点有两大块,即观点数据的挖掘,以及用户查询和观点的匹配,其中查询和观点数据的匹配方法类似在分析类问答系统中的处理流程,这里简要介绍观点数据的挖掘流程(见图6)。

image

系统首先依据用户查询需求的分布,从网页库中抽取优质问答站点的问答数据,并通过查询分析技术识别一个问题是否属于互斥类问题,例如“孕妇能否吃榴莲”。对于识别出的互斥类问题,进一步细分其互斥类型,包括好不好、能不能、真假、选择问等多种类型。接下来对语义相同的问题进行聚合,并采用情感分析技术对聚合内的全部答案进行正负向情感判别。最后是答案聚合和排序,将表达相同观点的回答聚合在一起,形成优质的观点问答数据库,作为后续响应用户查询的基础。

观点数据来自互联网页面,通过观点挖掘可以获取网民对某件事物看法的综合表达,因此挖掘得到的观点聚合数据是针对特定事物网民群体智慧的集中体现和清晰展示。

集成上述三个问答子系统形成的立知系统,具备回答通用领域各类问题的能力,从系统的运作方式不难看出,目前这套立知系统深度依赖互联网海量数据提供的基础,以及包括数据挖掘、自然语言处理、语义计算和情感计算等在内的多项人工智能核心技术。同时,作为一套通用问答系统,立知系统可以很自然地接入搜索引擎,为互联网用户提供更加方便的搜索服务。

相关文章
|
2月前
|
人工智能 自然语言处理 算法
为什么知识图谱是人工智能系统的未来?
检索增强生成(RAG)系统为大型语言模型(LLM)适应新数据集提供了巨大的前景,因为它提供了可据以构建响应的参考资料。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
springboot基于人工智能和自然语言理解技术的医院智能导医系统源码
智能导诊系统可为患者提供线上挂号智能辅助服务,患者根据提示手动输入自己的基本症状,通过智能对话方式,该系统会依据大数据一步步帮助患者“诊断”,并最终推荐就医的科室和相关专家。患者可自主选择,实现“一键挂号”。这一模式将精确的导诊服务前置,从源头上让医疗服务更高效。
368 2
|
3月前
|
机器学习/深度学习 存储 人工智能
人工智能自然语言对话系统
人工智能自然语言对话系统
43 1
|
3月前
|
传感器 机器学习/深度学习 人工智能
人工智能算法和系统的进化
人工智能算法和系统的进化
35 0
|
22天前
|
机器学习/深度学习 人工智能 搜索推荐
探索安卓应用中的新趋势:人工智能驱动的智能推荐系统
传统的应用推荐系统已经无法满足用户日益增长的个性化需求。本文将探讨如何通过引入人工智能技术,构建智能推荐系统,为用户提供更加精准、个性化的应用推荐体验,进而提升应用的用户满意度和留存率。
17 0
|
1月前
|
机器学习/深度学习 传感器 人工智能
基于人工智能的自适应交通流量控制系统
【2月更文挑战第30天】 在现代城市管理中,交通拥堵一直是影响居民生活质量和城市可持续发展的关键问题。本文提出了一个基于人工智能技术的自适应交通流量控制系统,旨在通过实时数据分析、模式识别和预测算法来优化交通信号灯调度,减少交通延误,提高道路使用效率。系统采用多层神经网络与深度学习技术进行交通流状态的特征提取和趋势预测,同时结合边缘计算提升响应速度,确保了控制的实时性和准确性。本研究的创新点在于将传统的交通工程方法与最新的AI技术相结合,实现了一个具有自我学习和适应能力的智能交通管理系统。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
构建未来:人工智能在持续学习系统中的创新应用
【2月更文挑战第28天】 随着技术的不断进步,人工智能(AI)已成为推动现代技术创新的关键力量。特别是在机器学习领域,AI系统的能力不断增强,能够处理更复杂的任务并做出更加精准的决策。本文将探讨AI在持续学习系统中的应用,重点分析其在数据处理、模式识别和自适应学习机制方面的最新进展,并提出如何利用这些技术来设计更为高效和智能的教育工具,以促进个体和组织的知识积累与技能提升。
16 1
|
5月前
|
存储 机器学习/深度学习 人工智能
唯有超大规模存储系统才能满足人工智能的需求
现代存储技术将带来新水平的自动化、性能、安全性和灵活性,这将从人工智能和机器学习数据集中释放出更大的价值,而不会受到过时硬件的限制,以及成本的不断增长。
66 0
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
小说中修仙系统的方向统计_IT修仙_人工智能的底层逻辑
小说中修仙系统的方向统计_IT修仙_人工智能的底层逻辑
110 0
|
2月前
|
人工智能 自然语言处理 数据库
什么是人工智能领域的 RAG 搜索增强
什么是人工智能领域的 RAG 搜索增强
139 1