《短文本数据理解(1)》一第1章 短文本理解及其应用1.1 短文本理解

简介:

本节书摘来自华章出版社《短文本数据理解(1)》一书中的第1章,第1.1节,作者[美]孟卫一(Weiyi Meng)纽约州立大学宾汉姆顿分校於德(Clement T.Yu)伊利诺伊大学芝加哥分校,更多章节内容可以访问云栖社区“华章计算机”公众号查看

第1章 短文本理解及其应用

1.1 短文本理解

短文本广泛地存在于互联网的各个角落,如搜索查询、广告关键字、锚文本、标签、网页标题、在线问题、微博等,都属于短文本。一般而言,短文本字数少,没有足够的信息量来进行统计推断,因此机器很难在有限的语境中进行准确的语义理解。此外,由于短文本常常不遵循语法,自然语言处理技术如词性标注和句法解析等,难以直接应用于短文本分析。正是由于这些特性,使得让机器正确理解短文本十分困难。然而,短文本理解又是一项对于机器最终实现人工智能至关重要的任务,其在知识挖掘领域有很多潜在应用,如网页搜索、在线广告、智能问答等。那么,如何才能够破解其中的挑战呢?
我们不妨首先跳出机器的范畴,看看人类是如何理解短文本的。对于人类而言,理解这些短文本是十分简单的。即使是一个10岁左右的儿童,当他们看到短文本(如搜索查询)时,都可以正确地理解这些短文本的含义。究其原因,是由于人类具有“思维”,能够积累知识并做出推断。例如,给出两个查询语句“band for wedding”和“wedding band”,人类可以清楚地判断前者指的是一项“婚礼乐队服务”,而后者是“结婚戒指”。而这种知识的积累,是人们通过不断学习而获得的。
为了使机器也具有类似的能力,先前的研究往往也会构造出一些知识库系统,如Freebase、Yago等为机器“装备”知识。这些知识库大多包含大量实体以及与之相关的事实。以搜索引擎或问答系统为例,基于这些事实,机器可以通过查询的方式获取输入问题的答案。然而,如图11所示,在机器回答问题前,首先需要解决的是“理解”问题,这也是这一过程中的最大挑战。

image

通过深入研究,我们发现理解短文本所需要的知识与回答短文本所需要的知识并不相同。例如,针对短文本“世界上第三大瀑布”,10岁的儿童可以正确理解其含义,但是却不一定能够正确回答这个问题。这是因为,理解短文本更需要的是常识性知识(注重广度),而回答短文本更需要的是专业性知识(注重深度)。因此,传统的知识库系统并不能很好地解决短文本理解问题。
为了克服机器理解短文本的障碍,先前基于短文本的应用常通过枚举和关键词匹配的方式避免“理解”这一任务。以自动问答系统为例,可事先构建关于问题和答案匹配的列表,这样在线查询时只需对列表中的条目进行匹配即可。近年来随着自然语言处理技术的发展,主流的搜索引擎正逐渐从基于关键词的搜索向文本理解过渡。例如,给出“apple ipad”这个短文本,机器需要明白“apple”所指为品牌名而不是水果。
为了实现自动化的短文本理解,许多相关工作[54,153,172]证明,这一过程相当依赖额外的知识。这些知识可以帮助机器充分挖掘短文本中词与词之间的联系,如语义相关性。例如,在英文查询“premiere Lincoln”中,“premiere”是一个重要的信息,表明“Lincoln”在这里指的是movie(电影);同样,在“watch harry potter”中,正因为“watch” (观看)的出现,“harry potter”的含义可被判定为movie(电影)或DVD,而不是book(图书)。但是,这些关于词汇的知识(例如“watch”的对象通常是movie)并没有在短文本中明确表示出来,因而需要通过额外的知识源获取。图12展示了所有短文本理解方法在知识源属性和粒度的二维坐标轴中对应的位置。这些方法将在下一节逐一讨论。

image

相关文章
|
7天前
|
存储 弹性计算 人工智能
【2025云栖精华内容】 打造持续领先,全球覆盖的澎湃算力底座——通用计算产品发布与行业实践专场回顾
2025年9月24日,阿里云弹性计算团队多位产品、技术专家及服务器团队技术专家共同在【2025云栖大会】现场带来了《通用计算产品发布与行业实践》的专场论坛,本论坛聚焦弹性计算多款通用算力产品发布。同时,ECS云服务器安全能力、资源售卖模式、计算AI助手等用户体验关键环节也宣布升级,让用云更简单、更智能。海尔三翼鸟云服务负责人刘建锋先生作为特邀嘉宾,莅临现场分享了关于阿里云ECS g9i推动AIoT平台的场景落地实践。
【2025云栖精华内容】 打造持续领先,全球覆盖的澎湃算力底座——通用计算产品发布与行业实践专场回顾
|
1天前
|
弹性计算 人工智能 安全
云上十五年——「弹性计算十五周年」系列客户故事(第二期)
阿里云弹性计算十五年深耕,以第九代ECS g9i实例引领算力革新。携手海尔三翼鸟、小鹏汽车、微帧科技等企业,实现性能跃升与成本优化,赋能AI、物联网、智能驾驶等前沿场景,共绘云端增长新图景。
|
6天前
|
人工智能 自然语言处理 自动驾驶
关于举办首届全国大学生“启真问智”人工智能模型&智能体大赛决赛的通知
关于举办首届全国大学生“启真问智”人工智能模型&智能体大赛决赛的通知
|
5天前
|
云安全 人工智能 自然语言处理
阿里云x硅基流动:AI安全护栏助力构建可信模型生态
阿里云AI安全护栏:大模型的“智能过滤系统”。
|
Linux 虚拟化 iOS开发
VMware Workstation Pro 25H2 for Windows & Linux - 领先的免费桌面虚拟化软件
VMware Workstation Pro 25H2 for Windows & Linux - 领先的免费桌面虚拟化软件
1096 4
|
9天前
|
存储 机器学习/深度学习 人工智能
大模型微调技术:LoRA原理与实践
本文深入解析大语言模型微调中的关键技术——低秩自适应(LoRA)。通过分析全参数微调的计算瓶颈,详细阐述LoRA的数学原理、实现机制和优势特点。文章包含完整的PyTorch实现代码、性能对比实验以及实际应用场景,为开发者提供高效微调大模型的实践指南。
697 2
|
6天前
|
编解码 自然语言处理 文字识别
Qwen3-VL再添丁!4B/8B Dense模型开源,更轻量,仍强大
凌晨,Qwen3-VL系列再添新成员——Dense架构的Qwen3-VL-8B、Qwen3-VL-4B 模型,本地部署友好,并完整保留了Qwen3-VL的全部表现,评测指标表现优秀。
539 7
Qwen3-VL再添丁!4B/8B Dense模型开源,更轻量,仍强大
|
5天前
|
人工智能 缓存 算法
阿里云AI基础设施成果入选顶级学术会议,显著提升GPU利用率
阿里云提出的GPU池化服务多模型研究成果入选SOSP2025,其创新系统Aegaeon实现token级调度,大幅提升GPU利用率,核心技术已落地百炼平台,显著降低资源消耗。
515 2