向量检索+大语言模型形式的应用中，大语言模型具体发挥什么作用？-阿里云开发者社区

向量检索+大语言模型形式的应用中，大语言模型具体发挥什么作用？

2024-04-22 29

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 向量检索+大语言模型形式的应用中，大语言模型具体发挥什么作用？

免费体验阿里云高性能向量检索服务：https://www.aliyun.com/product/ai/dashvector

大语言模型除了作为聊天的Agent，也可以为检索模型生成优质的文本对训练数据，从而做到无监督场景下也能够适用。这里分享重点探讨如何生成比评估集更困难的训练数据来提升无监督句子表示学习质量，应该对学习工作有一定的启发。

摘要

句子表示学习（SRL）是自然语言处理（NLP）中的一项基本任务，句子编码对比学习（CSE）因其优越的性能而成为主流技术。CSE中一个有趣的现象是有监督方法和无监督方法之间的显著性能差异，它们唯一的区别在于训练数据。以前的工作将这种性能差距归因于对齐和均匀性的差异。然而，由于对齐和均匀性只衡量结果，他们没有回答“训练数据的什么方面导致了性能差距？”以及“如何才能缩小性能差距？”。

本文进行了实验来回答这两个问题。首先通过彻底比较监督和无监督CSE在各自训练过程中的行为来回答“什么”的问题。从比较中，我们确定了相似度模式是性能差距的关键因素，并引入了一个度量，称为相对拟合难度Relative Fitting Difficulty（RFD），来衡量相似度模式的复杂性。

然后，基于从“什么”问题中获得的见解，我们通过增加训练数据的模式复杂性来解决“如何”问题。我们通过利用大语言模型（LLM）的上下文学习（ICL）能力来生成模拟复杂模式的数据来实现这一点。

介绍

“什么”导致了性能差距

相似度模式：一个数据集怎样定义相似和不相似的文本对。训练数据集的相似度模式越复杂，训练效果越好。训练集的相似度模式可以用训练集与评估集间的对齐和均匀性的相对大小来衡量。用这种方式，可以发现有监督训练集（NLI）中的相似度模式要比评估集更复杂，而无监督训练集（Wiki）中的相似度模式要比评估集简单。下图说明了这一结论，在对齐和均匀性两个指标上，有监督训练集都要高于评估集，而无监督训练集都要更低。