挖掘文本的奇妙力量:传统与深度方法探索匹配之道

简介: 挖掘文本的奇妙力量:传统与深度方法探索匹配之道

挖掘文本的奇妙力量:传统与深度方法探索匹配之道

文本向量表示咋做?文本匹配任务用哪个模型效果好?

许多 NLP 任务的成功离不开训练优质有效的文本表示向量。特别是文本语义匹配(Semantic Textual Similarity,如 paraphrase 检测、QA 的问题对匹配)、文本向量检索(Dense Text Retrieval)等任务。

1. 传统方法:基于特征的匹配

  • 基于 TF-IDF、BM25、Jaccord、SimHash、LDA 等算法抽取两个文本的词汇、主题等层面的特征,然后使用机器学习模型(LR, xgboost)训练分类模型
  • 优点:可解释性较好
  • 缺点:依赖人工寻找特征,泛化能力一般,而且由于特征数量的限制,模型的效果比较一般

代表模型:

  • BM25

BM25 算法,通过候选句子的字段对 qurey 字段的覆盖程度来计算两者间的匹配得分,得分越高的候选项与 query 的匹配度更好,主要解决词汇层面的相似度问题。

2.深度方法:基于表征的匹配

  • 基于表征的匹配方式,初始阶段对两个文本各自单独处理,通过深层的神经网络进行编码(encode),得到文本的表征(embedding),再对两个表征进行相似度计算的函数得到两个文本的相似度
  • 优点:基于 BERT 的模型通过有监督的 Fine-tune 在文本表征和文本匹配任务取得了不错的性能
  • 缺点:BERT 自身导出的句向量(不经过 Fine-tune,对所有词向量求平均)质量较低,甚至比不上 Glove 的结果,因而难以反映出两个句子的语义相似度

主要原因是:

1.BERT 对所有的句子都倾向于编码到一个较小的空间区域内,这使得大多数的句子对都具有较高的相似度分数,即使是那些语义上完全无关的句子对。

2.BERT 句向量表示的聚集现象和句子中的高频词有关。具体来说,当通过平均词向量的方式计算句向量时,那些高频词的词向量将会主导句向量,使之难以体现其原本的语义。当计算句向量时去除若干高频词时,聚集现象可以在一定程度上得到缓解,但表征能力会下降。

代表模型:

由于 2018 年 BERT 模型在 NLP 界带来了翻天覆地的变化,此处不讨论和比较 2018 年之前的模型(如果有兴趣了解的同学,可以参考中科院开源的 MatchZooMatchZoo-py)。

所以,本项目主要调研以下比原生 BERT 更优、适合文本匹配的向量表示模型:Sentence-BERT(2019)、BERT-flow(2020)、SimCSE(2021)、CoSENT(2022)。

3.深度方法:基于交互的匹配

  • 基于交互的匹配方式,则认为在最后阶段才计算文本的相似度会过于依赖文本表征的质量,同时也会丢失基础的文本特征(比如词法、句法等),所以提出尽可能早的对文本特征进行交互,捕获更基础的特征,最后在高层基于这些基础匹配特征计算匹配分数
  • 优点:基于交互的匹配模型端到端处理,效果好
  • 缺点:这类模型(Cross-Encoder)的输入要求是两个句子,输出的是句子对的相似度值,模型不会产生句子向量表示(sentence embedding),我们也无法把单个句子输入给模型。因此,对于需要文本向量表示的任务来说,这类模型并不实用

代表模型:

Cross-Encoder 适用于向量检索精排。

更多优质内容请关注公号:汀丶人工智能;会提供一些相关的资源和优质文章,免费获取阅读。

相关文章
|
1月前
|
监控 算法 程序员
代码遗产:探索祖传代码的历史、挑战与现代融合艺术
代码遗产:探索祖传代码的历史、挑战与现代融合艺术
71 1
|
6月前
思维模型No.63|让你洞察本质的「冰山模型」
思维模型No.63|让你洞察本质的「冰山模型」
52 0
|
6月前
|
机器学习/深度学习 自然语言处理 TensorFlow
ChatGPT 背后包含了哪些技术?
ChatGPT 背后包含了哪些技术?
115 0
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
模型的价值观需重视,文本理解与文本生成能力有待提高
随着算力的不断提高,NLP成为新时代人工智能的突破点——“大模型”。大模型之大不仅在于模型的大小之大,而且所用的训练数据集之大。如今,大模型在各行各业中逐渐落地,实现多场景应用。人们比较注重于LLM模型的语言文本理解、文本生成能力。在使用了阿里云多个模型的评测当中,有一些思考与建议。
模型的价值观需重视,文本理解与文本生成能力有待提高
|
9月前
|
算法
借助模糊逻辑将文化算法与和谐搜索相结合进行学习——文化和谐学习算法(Matlab代码实现)
借助模糊逻辑将文化算法与和谐搜索相结合进行学习——文化和谐学习算法(Matlab代码实现)
|
11月前
|
机器学习/深度学习 人工智能 算法
ChatGPT:人工智能工具改变技术格局的背后力量及其不太为人知的事实
ChatGPT:人工智能工具改变技术格局的背后力量及其不太为人知的事实
107 0
|
机器学习/深度学习 存储 人工智能
《花雕学AI》26:多维度了解ChatGPT思维链提示的原理、方法、使用和发展的22个问题
ChatGPT的思维链提示(chain of thought tips)是一种利用自然语言编程的技巧,可以提高ChatGPT在复杂推理问题上的准确率。思维链提示的原理是参考人类解决问题的方法,从输入问题开始的一系列自然语言形式的推理过程,直到得到最后输出结论。 早上5点起床,没有去打羽毛球,打开电脑,漫无边际的浏览,偶然发现了一个提法:ChatGPT思维链提示。于是,我使用与ChatGPT同源技术的新Bing引擎(GPT-4),来进行搜索与了解相关情况。这里尝试连环提问的穷追猛打的暴力套路,呵呵,不到黄河不死心,我的22个问题是:
571 0
|
机器学习/深度学习 人工智能 算法
人工智能机器学习底层原理剖析,人造神经元,您一定能看懂,通俗解释把AI“黑话”转化为“白话文”
按照固有思维方式,人们总以为人工智能是一个莫测高深的行业,这个行业的人都是高智商人群,无论是写文章还是和人讲话,总是讳莫如深,接着就是蹦出一些“高级”词汇,什么“神经网络”,什么“卷积神经”之类,教人半懂不懂的。尤其ChatGPT的风靡一时,更加“神话”了这个行业,用鲁迅先生形容诸葛武侯的话来讲:“多智而近妖”。 事实上,根据二八定理,和别的行业一样,人工智能行业内真正顶尖的天才也就是20%,他们具备真正的行业颠覆能力,可以搞出像ChatGPT这种“工业革命”级别的产品,而剩下的80%也不过就是普通人,每天的工作和我们这些人一样,枯燥且乏味,而之所以会出现类似“行业壁垒”的现象,是因为这个行
人工智能机器学习底层原理剖析,人造神经元,您一定能看懂,通俗解释把AI“黑话”转化为“白话文”
|
人工智能 开发者
《思维的边界:认知智能》下载
《思维的边界:认知智能》手册中对“企业人工智能从技术战略到行业落地论坛”、“基于超大规模训练模型的小样本和零样本学习”、“面向知识的可解释认知推理”三个演讲的内容干货进行了总结。
43 0
《思维的边界:认知智能》下载
|
人工智能 大数据 5G
人工智能数字技术的增强 , 对现实预测逐步发挥威力
现如今,人工智能在人们的生活中越来越普及了,生活中处处都有人工智能的身影,最早人工智能一词是在1956 年Dartmouth学会上提出的,从那以后,研究者们发展了众多理论和原理,人工智能的概念也随之扩展。
318 0
人工智能数字技术的增强 , 对现实预测逐步发挥威力