自然语言处理在开放搜索中的应用

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
智能开放搜索 OpenSearch向量检索版,4核32GB 1个月
OpenSearch LLM智能问答版免费试用套餐,存储1GB首月+计算资源100CU
简介: 构建搜索引擎的时候,都会遇到很多效果优化的问题,其中很多都和自然语言处理相关。本文通过结合开放搜索中NLP技术要点进行解读和分析。

特邀嘉宾:谢朋峻--阿里云智能高级算法专家
视频地址:https://yunqi.aliyun.com/2020/session54?liveId=44650

自然语言智能(NLP)

自然语言智能研究实现人与计算机之间用语言进行有效通信。它是融合语言学、心理学、计算机科学、数学、统计学于一体的科学。它涉及到自然语言和形式化语言的分析、抽取、理解、转换和产生等多个课题。

人工智能可以分为几个阶段

计算智能,指依靠计算强大的算力和海量数据的存储能力,可以在部分领域超越人类的表现。代表例子就是谷歌的alphago,凭借谷歌TPU的强大算力以及结合类似蒙特卡洛树搜索、强化学习等算法,能够在围棋的巨大搜索空间中计算出好的决策路径,战胜人类,这是计算智能;
感知智能,是指从无结构化数据中识别出重要的要素。比如给一个query,分析出包含的人民、地名、机构名等;
认知智能,是在感知之上,能够理解其中要素的含义以及进行一些推理。比如“谢霆锋是谁的儿子 谁是谢霆锋的儿子”两句话。词和实体都差不多,但语义差别很多。这是认知智能要解决的问题;
创造智能,比如计算机指能够理解语义的基础上,创造出符合常识、语义、逻辑的句子。比如自动写出行云流水的小说、创造娓娓动听的音乐 能够无违和跟人自然聊天等
自然语言处理研究覆盖了感知智能,认知智能,创造智能这样的学科,是实现完整人工智能的必要技术

自然语言智能发展趋势

  1. 深度语言模型突破式发展, 引领重要自然语言技术取得进展;
  2. 公有云NLP技术服务从通用功能走向定制化服务;
  3. 自然语言技术逐步与行业/场景紧密结合, 产生更大价值;

阿里集团NLP平台能力

image.png
从下到上分为了NLP数据、NLP基础能力、NLP应用技术和上层应用。
NLP数据是很多算法的原料,累了包括语言词典、实体知识词典、句法词典、情感分析等词典等。阿里NLP基础技术包含了词法分析、句法分析、文本分析、深度模型。在这之上,是NLP垂直的技术 包括问答 对话技术 反垃圾 地址解析等。这些技术的组合,就支持了很多应用。 其中搜索是NLP能力非常密集的一个应用

开放搜索中NLP应用和典型技术

image.png
• 基础设施包含了阿里云基础产品,以及基于阿里生态搜索场景打磨出的多个搜索自研系统,比如HA3、RTP、Dii等;
• 管控基础平台,保证我们离线数据采集、管理、训练等;
• 算法模块,我们分为两块,一块是查询分析相关,包含多粒度分词、实体识别、纠错改写等;另一个块是相关性和排序相关,包括文本相关性、CTR CVR预估、LTR 等;
(其中橙色背景的表示是跟NLP相关)
开放搜索的目标是要打造一站式、开箱即用的智能搜索服务,所以我们会把这些算法能力,以行业模板、 场景化、周边服务的形式开放给用户。

开放搜索NLP分析链路

搜索的发起,往往是一个搜索关键词触发,比如用户搜索“ aj1北卡兰新款球鞋”

image.png
跨领域分词
我们在开放搜索开放了一系列的领域的分词模型
分词挑战

  1. 各个领域不断新增的未登录词或者叫新词,往往会大大降低分词效果;
  2. 为新用户定制分词模型,从标注到训练的整个过程,成本都比较高;
    解决思路
  3. 结合统计特征,比如互信息、左右上等构建一个成词模型,可以基于用户数据快速构建一份领域词典;
  4. 结合源领域分词模型和目标领域的词典,我们基于远程监督技术可以快速构建一个目标领域分词器;

image.png
(上图为自动跨领域分词框架)
用户只需要提供给我们一些自己业务的语料数据,我们就可以自动的得到一个定制化的分词模型,这不仅大大提升了效率,同时也更快满足客户的需求。
通过这个技术,我们可以在各个领域获得比开源通用分词,更好的效果

image.png
命名实体识别
命名实体识别(NER),例如从query中提取人名 地名 时间等。
挑战与困难
NER在NLP领域研究非常多同时也面临很多的挑战,尤其在中文上由于缺乏天然分隔符,面临边界歧义、语义歧义、嵌套歧义等困难。
**解决思路
**• 下图右上角是我们在开放搜索中使用的模型架构图;
• 在开放搜索中,很多用户都积累了大量词典实体库。为了充分利用这些词典,我们提出了一种在bert之上,有机融合知识的graphNer框架。从右下角的表格可以看出,在中文上能取得最好的效果;

image.png
拼写纠错
开放搜索分为4个纠错步骤包含了挖掘、训练、评估和在线预测。
主要的模型根据统计翻译模型和神经网络翻译模型两套系统,同时在性能、展示样式和干预上有一套完备方法。

image.png
语义匹配
深度语言模型的出现给很多NLP任务带来了跨越式的提升,尤其是在语义匹配等任务上。
达摩院在bert上也提出了很多创新,提出了自研的StructBert。主要创新点在于在深度语言模型训练中,增加了字序/词序的目标函数 和更多样的句子结构预测目标函数,进行多任务学习。但是这样的通用的structbert是无法试用给开放搜索里成千上万个客户,成千上万个领域的。我们需要做领域适配。所以我们提出了语义匹配3阶段范式。 可以快速的为客户定制适合于自己业务的语义匹配模型。

image.png

(具体的流程如图)

NLP算法产品化

算法模块产品化的系统架构,包含了离线计算、在线引擎以及产品控制台。
图中浅蓝色的部分是NLP在开放搜索上开放的算法相关功能,用户可以直接在控制台体验和使用。
image.png


以上就是本次云栖大会--“自然语言处理在开放搜索中的应用”的内容。如果您对搜索与推荐相关技术感兴趣,欢迎加入钉钉群内交流~

image.png

【开放搜索】新用户活动:阿里云实名认证用户享1个月免费试用https://free.aliyun.com/product/opensearch-free-trial

目录
相关文章
|
7天前
|
机器学习/深度学习 自然语言处理
深度学习在自然语言处理中的应用与挑战
【8月更文挑战第12天】本文将探讨深度学习技术在自然语言处理领域的应用及其所面临的挑战。我们将从深度学习的基本原理出发,逐步深入到其在文本分类、机器翻译、情感分析等NLP任务中的实际运用,并讨论当前技术的局限性和未来可能的发展方向。
18 0
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【自然语言处理】TF-IDF算法在人工智能方面的应用,附带代码
TF-IDF算法在人工智能领域,特别是自然语言处理(NLP)和信息检索中,被广泛用于特征提取和文本表示。以下是一个使用Python的scikit-learn库实现TF-IDF算法的简单示例,并展示如何将其应用于文本数据。
116 65
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【自然语言处理】python之人工智能应用篇——文本生成技术
文本生成是指使用自然语言处理技术,基于给定的上下文或主题自动生成人类可读的文本。这种技术可以应用于各种领域,如自动写作、聊天机器人、新闻生成、广告文案创作等。
19 8
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
【深度学习】探讨最新的深度学习算法、模型创新以及在图像识别、自然语言处理等领域的应用进展
深度学习作为人工智能领域的重要分支,近年来在算法、模型以及应用领域都取得了显著的进展。以下将探讨最新的深度学习算法与模型创新,以及它们在图像识别、自然语言处理(NLP)等领域的应用进展。
15 6
|
1天前
|
机器学习/深度学习 自然语言处理
深度学习在自然语言处理中的应用与挑战
【8月更文挑战第19天】深度学习技术已成为自然语言处理(NLP)领域的一股不可忽视的力量,它通过模拟人脑处理信息的方式,极大地推动了语言识别、机器翻译、情感分析等任务的发展。然而,技术的快速进步也带来了新的挑战,包括数据依赖性强、模型可解释性差等问题。本文将深入探讨深度学习在NLP中的主要应用及其面临的技术障碍,并展望未来的发展方向。
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【自然语言处理】自然语言处理NLP概述及应用
自然语言处理(Natural Language Processing,简称NLP)是一门集计算机科学、人工智能以及语言学于一体的交叉学科,致力于让计算机能够理解、解析、生成和处理人类的自然语言。它是人工智能领域的一个关键分支,旨在缩小人与机器之间的交流障碍,使得机器能够更有效地识别并响应人类的自然语言指令或内容。
10 4
|
9天前
|
机器学习/深度学习 数据采集 自然语言处理
深度学习在自然语言处理中的应用与挑战
【8月更文挑战第11天】深度学习技术在过去十年中为自然语言处理(NLP)领域带来了革命性的进展,从基础的词嵌入模型到复杂的序列到序列的模型,深度学习的应用已渗透到语言理解、生成、翻译等多个层面。本文将探讨深度学习在NLP中的几个关键应用,包括语言模型、机器翻译和情感分析,并讨论当前面临的主要挑战,如模型的可解释性、数据偏见问题以及资源消耗等。
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习在自然语言处理中的应用与挑战
【8月更文挑战第11天】本文将探讨深度学习技术在自然语言处理领域的应用及其面临的主要挑战。我们将分析深度学习模型如何革新了机器翻译、情感分析和文本生成等任务,并讨论数据获取、模型解释性、资源消耗和伦理问题等方面的挑战。文章旨在为读者提供一个全面的视角,理解深度学习在NLP中的作用及未来发展方向。
|
6天前
|
机器学习/深度学习 自然语言处理 数据可视化
深度学习在自然语言处理中的应用与挑战
【8月更文挑战第14天】本文将深入探讨深度学习技术在自然语言处理领域的应用及其所面临的挑战。我们将分析深度学习如何改变了文本分析、语音识别和机器翻译等领域,并讨论当前技术的局限性以及未来的发展方向。文章旨在为读者提供一个全面的视角,了解深度学习技术在处理人类语言方面的能力及其潜在的改进空间。
|
8天前
|
机器学习/深度学习 自然语言处理 语音技术
深度学习在自然语言处理中的应用与挑战
【8月更文挑战第12天】本文将深入探讨深度学习技术在自然语言处理领域的应用,包括语音识别、机器翻译、情感分析等方面的突破,并讨论当前面临的挑战,如数据偏差、模型解释性不足以及资源消耗问题。文章旨在为读者提供一个关于深度学习如何改变自然语言处理领域的全面视角,同时指出未来研究的方向。
24 3

相关产品

  • 智能开放搜索 OpenSearch