《中国人工智能学会通讯》——6.8 主要技术挑战和近期进展

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第6章,第6.8节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

6.8 主要技术挑战和近期进展

近年来,虽然实体链接技术取得了长足的进展,并得到了一定程度的应用。但是实体链接任务仍有很多问题尚未解决,需要进一步的研究和探索。以下列举几个实体链接的主要技术挑战及相关进展。

实体名的歧义性和多样性。歧义性和多样性是自然语言的固有属性,也是实体链接的根本难点所在。因此如何挖掘更多、更有效的消歧证据,设计更高性能的消歧算法,构建覆盖度更高的实体引用表仍然是实体链接系统的核心研究问题。

实体链接系统的效率。考虑到实体链接系统面向的文本规模(Web 网页集合)和大部分应用的实时性要求,效率将是实体链接技术实用化的一个重要考量。目前绝大部分研究都集中在如何提升实体链接的准确率,只有很少部分的研究(如文献[13-14])关注实体链接系统的效率。如何平衡实体链接系统的准确率和效率,或者设计更高效的实体链接算法,仍然需要进一步的研究。

多类型、多模态上下文和知识的统一建模。实体链接的过程会利用到各种各样的上下文,如前面提到的实体知名度、上下文分布、实体类别等;同时也会利用到许多背景知识和常识信息,如实体之间的语义关系。这些上下文信息和知识往往具有多模态、多源和异质的特点。如何通过构建多类型、多模态上下文及知识的统一表示和建模,是提升当前实体链接系统的性能的一个重要方向。目前已有的一些相关探索工作包括基于深度学习将不同上下文嵌入到连续空间中[15] 。

NIL 实体检测和长尾实体的链接。目前,实体链接系统已经在知名实体的链接上取得了较高的链接性能。但是在知识库未覆盖的实体(NIL 实体)和长尾实体(非知名实体)上,实体链接的性能往往离知名实体的链接有较大的差距。如何构建更高效的NIL实体检测算法和面向长尾实体的链接算法,也将是一项重要的研究内容。目前已有的一些相关工作包括如 Lin et al [16] 提出的 NIL 实体处理技术。

面向特定领域的和面向多知识库的实体链接。当前绝大多数实体链接系统,通用知识库(维基百科、Freebase、DBPedia 等)作为其目标知识库。但是,这些通用知识库一方面往往对特定领域知识的覆盖程度不如领域知识库(如电影领域的IMDb、书籍领域的豆瓣、餐馆领域的大众点评等);另一方面实体链接系统在面对特定领域知识库时往往会遇到许多新的研究问题(例如电影名和书名往往包含大量常用词汇,且通常具有更高的歧义)。因此构建面向特定领域的和同时考虑多个不同目标知识库的实体链接系统也是一个值得研究的问题,同时也可以大幅度地扩展实体链接系统的应用范围。目前,面向特定领域的和面向多知识库的实体链接已有一些相关研究,如文献 [17-18]。

面向特定情境的实体链接。现有的大部分实体链接系统通常针对新闻文本,对其他情境下(例如微博、评论、列表页面等)的实体链接研究不足。特定情境下的实体链接往往具有独特的挑战,例如微博和评论中的实体链接具有高噪音、短上下文和强社交媒体的特点,列表页面的实体链接具有上下文缺乏和强类型约束的特点。如何针对特定情境,构建专门的实体链接系统是一项具有挑战性的任务。目前的一些相关工作,包括面向 Twitter 的实体链接[19] 、面向 Web List 的实体链接 [20]等。

总的来说,实体链接是自然语言理解和知识图谱构建的基础技术之一,目前已取得了长足的进展,也得到了一定程度的实用。但是实体链接仍有许多技术挑战(如实体名字的歧义性和多样性、实体链接系统的效率、NIL 实体的检测、长尾实体的链接、常识知识和背景知识的使用等)需要进一步的研究。

相关文章
|
27天前
|
人工智能 JSON 前端开发
Agentic AI崛起:九大核心技术定义未来人机交互模式​
本文系统梳理AI智能体架构设计的九大核心技术,涵盖智能体基础、多智能体协作、知识增强、模型优化、工具调用、协议标准化及人机交互等关键领域,助力构建高效、智能、协同的AI应用体系。建议点赞收藏,持续关注AI架构前沿技术。
378 1
|
1月前
|
机器学习/深度学习 人工智能 程序员
Reflexion:让AI智能体学会反思的神奇技术
想象一下AI智能体能像人类一样从错误中学习,Reflexion技术让智能体不再需要重新训练就能自我改进。本文通过一个智能体助手小R的成长故事,带你轻松理解这个改变智能体学习方式的创新技术。
|
2月前
|
数据采集 人工智能 分布式计算
ODPS在AI时代的发展战略与技术演进分析报告
ODPS(现MaxCompute)历经十五年发展,从分布式计算平台演进为AI时代的数据基础设施,以超大规模处理、多模态融合与Data+AI协同为核心竞争力,支撑大模型训练与实时分析等前沿场景,助力企业实现数据驱动与智能化转型。
262 4
|
21天前
|
存储 机器学习/深度学习 人工智能
​​解锁AI检索的7大Embedding技术:从稀疏到多向量,一文掌握!​
本文系统解析七种主流文本嵌入技术,包括 Sparse、Dense、Quantized、Binary、Matryoshka 和 Multi-Vector 方法,结合适用场景提供实用选型建议,助你高效构建文本检索系统。
149 0
|
2月前
|
人工智能 自然语言处理 机器人
智能体平台哪家值得选?盘点国内外12家AI Agent平台技术特色
智能体平台正引领人机协作新潮流,将“智能”交给机器,让“平台”服务于人。2024年被Gartner定义为“AgenticAI元年”,预示未来企业交互将由智能体主导。面对百余平台,可从三条赛道入手:通用大模型、RPA升级派与垂直场景定制。不同需求对应不同方案,选对平台,才能让AI真正助力工作。
|
2月前
|
机器学习/深度学习 人工智能 搜索推荐
思维树提示技术:让AI像人类一样思考的魔法
想象一下,如果AI能像你思考问题一样有条理,从一个想法延伸到多个分支,会发生什么?思维树提示技术就是这样一种让AI更聪明的方法,通过结构化思维引导,让AI等大模型给出更深入、更全面的回答。本文将用最轻松的方式,带你掌握这个让AI智商飞升的秘技。
|
2月前
|
存储 人工智能 算法
AI 图纸表格识别与智能文档协同处理技术介绍
针对制造业、工程建设等领域图纸表格数据提取效率低、误差高的问题,本文介绍了一套涵盖表格识别、数据导出、EBOM转MBOM及智能文档协同处理的技术方案,实现图纸数据结构化与全生命周期管理。
105 0
|
2月前
|
设计模式 人工智能 API
​​混合检索技术:如何提升AI智能体50%的响应效率?​
本文深入解析检索增强智能体技术,探讨其三大集成模式(工具模式、预检索模式与混合模式),结合实战代码讲解RAG组件链构建、上下文压缩、混合检索等关键技术,并提供多步检索工作流与知识库自更新机制设计,助力高效智能体系统开发。
252 0
|
27天前
|
数据采集 Web App开发 人工智能
如何让AI“看懂”网页?拆解 Browser-Use 的三大核心技术模块
Browser-Use 是一种基于大语言模型(LLM)的浏览器自动化技术,通过融合视觉理解、DOM解析和动作预测等模块,实现对复杂网页任务的自主操作。它突破了传统固定选择器和流程编排的限制,具备任务规划与语义理解能力,可完成注册、比价、填报等多步骤操作。其核心功能包括视觉与HTML融合解析、多标签管理、元素追踪、自定义动作、自纠错机制,并支持任意LLM模型。Browser-Use标志着浏览器自动化从“规则驱动”向“认知驱动”的跃迁,大幅降低维护成本,提升复杂任务的处理效率与适应性。
718 28

热门文章

最新文章