RAG潜在的改进-向量库

简介: 本文将介绍 RAG 究竟是什么,以及硅谷创业者和科研人如何看待它的未来。

免费体验阿里云高性能向量检索服务https://www.aliyun.com/product/ai/dashvector

向量banner制作-用于日常发文章.png


如果你是 ChatGPT 的重度用户,你可能会感受到当今 AI 产品有许多的局限性:幻觉,过时的信息,领域知识的缺乏,机密数据的处理等等。 这一年来,有一个技术在硅谷引起了越来越多的关注,那就是检索增强生成(RAG)

本文将介绍 RAG 究竟是什么,以及硅谷创业者和科研人如何看待它的未来。


大语言模型的局限性

  • 幻觉:模型可能会生成不正确或捏造的信息,影响其可靠性。
  • 过时的信息:由于模型是在静态数据集上训练的,因此无法提供训练日期之后发生的事件的信息。
  • 缺乏领域知识:模型可能对专业领域没有深入的了解,导致答案过于简单或不准确。
  • 处理机密数据:使用大语言模型对于涉及公司数据或个人信息的任务具有挑战性。

所有这些都表明一个需求,就是要把额外的信息合并到预先训练好的大语言模型中。


技术解析

RAG 最简单的例子

RAG 论文由 Facebook AI Research 于 2020 年 10 月首次提出,旨在提高处理自然语言任务的性能。

一个最简单的例子: 比如现在我们有一份旅游景点打卡清单,希望大语言模型能够谈论这些内容,我们把每一行看作一个文本文档。

14.jpg

旅游景点打卡清单:“在公园里悠闲地散步,呼吸新鲜空气。”“参观当地博物馆并发现新事物。”“参加现场音乐会并感受节奏。”“去徒步旅行,欣赏自然风光。”“和朋友一起野餐,分享欢笑。”

当用户输入这个:

user_input = “我喜欢徒步”

系统可以搜索刚才那个列表,找出最相关的文档。这里我们定义相似度为拥有最多重复的字好了。

relevant_document = “去徒步旅行,欣赏自然风光。”

然后把用户输入和搜到的最相关文档替换进准备好的提示词里。

144.jpg

“你是一个为活动提供建议的机器人。 你需要用非常短的句子回答,并且不包含额外的信息。这是推荐的活动:{relevant_document} 用户输入是:{user_input} 根据推荐的活动和用户输入,向用户推荐好玩的景点。”

现在系统可以将新的提示词发送给大语言模型,等它回复个啥出来:

“赞! 根据您对徒步旅行的兴趣,我建议您尝试附近的步道,享受充满挑战且有益的体验,欣赏壮丽的景色,享受有趣且富有挑战性的冒险。”

这就是 RAG 技术的基本理念。


潜在的改进

这是最简化的版本,实际上,有一些潜在的改进——

每个词都是高维空间中的向量:

  1. 根据可扩展性、云支持和多模态支持的需求,将这些文档存储在向量库中。
  2. 预处理文档和用户输入,把它们编码在词向量空间中。
  3. 相应地,把相似性度量改成向量相关的运算。
  1. 点积:两个向量的相乘
  2. 余弦相似度:测量两个向量之间的角度
  3. 欧氏距离:测量两个向量之间的距离

此外,还有具有更多模块和不同组件的高级 RAG。


应用落地场景

自 2023 年夏季以来,RAG 受到了广泛关注。如下图为Retrieval Augmented Generation 一词的谷歌搜索热度:


我们看到各家科技巨头已经开始提供工具,来辅助他们的客户构建 RAG 应用程序。

英伟达的人工智能软件副总裁 Kari Briski 在官网上说:“随着企业在 2024 年采用这些 AI 框架,预计我们会听到更多有关 RAG 的信息。”

想象一下在这些现实场景中使用 RAG,其中一些已经成为现实——

  • 教育:教育平台使用 RAG 生成学习材料,并创建学科题目的详细解释。
  • 聊天机器人:由 RAG 驱动的聊天机器人和虚拟助理,可为用户提供更准确更得体的回复。(例:CastChat)
  • 游戏:RAG 可根据玩家的选择和行动,生成动态的游戏叙事、对话和故事情节。(例:Inworld)

RAG 可根据玩家的选择和行动,生成动态的游戏叙事、对话和故事情节。


什么时候选择用 RAG

2024 年的一篇文章得出结论,RAG 最适合高外部知识和低模型适应的场景。


学界讨论

RAG vs. 长上下文窗口

现在硅谷的一个热门辩论话题是, RAG 是否会因为大模型上下文窗口变长而变得过时。 由于内存和计算能力的限制,大语言模型只能记住最近的用户输入,这个长度又叫作上下文窗口长度。这两年来,大语言模型的上下文窗口长度变得越来越长。大语言模型的上下文窗口长度:

尤其是上个月,谷歌发布了Gemini 1.5,上下文窗口长达十万。许多人看了直呼 RAG 将会被历史抛弃,因为我们想要的附加信息可以成为输入提示词的一部分。

也很多专业人士表达了反对的看法——

Gemini 的联合负责人 Oriol Vinyals 说:“RAG 有一些很好的特性,可以增强长上下文,也可以被长上下文增强。”这说明他相信 RAG 和长上下文将在未来相辅相成。

AI 初创公司创始人 Siva Surendira 则提醒大家,RAG 更便宜、更快。

爱丁堡大学计算机科学博士 Yao Fu 看好长上下文模型的潜力。他认为,虽然长上下文的成本较高且当前存在局限性,但它能提供超强的即时检索和推理能力,并猜测未来大语言模型可能可以直接访问普通的数据库,就像谷歌索引一样。

英伟达的 Jim Fan 表示赞同,并设想了一种将 RAG 与长上下文窗口相结合的方法,也许是“在巨大的非结构化数据库中传播神经激活的某种形式”。

AI 初创公司创始人 Elvis Saravia,也同意结合的这个路径。 他指出,“用不同的大语言模型可以解决不同的问题。 我们要摆脱这种想法,就是我们必须用同一种模型处理所有问题。”


长期替代方案

微软的高级首席云解决方案架构师 James Nguyen,在他的文章提到了 RAG 的一些局限性。 例如,检索、增强和生成的过程是独立处理的,这意味着负责检索的部分和负责生成的部分,对于用户的意图可能有不同的理解 如果在检索阶段由于打开方式不对,造成了低质量或不相关的结果,那么模型可能在生成的时候又开始乱编,这样就又产生幻觉了。

他提议了一种基于 agent 的方法,“当 agent 需要查找它不具备的知识时,会自己谷歌一下答案。”

ActGPT能从谷歌搜索最新信息并执行发文任务:


哪些替代解决方案将会成为主流? 他希望更多地关注混合专家模型 (MoE),这是一种结合了多个 LLM 模块和一个控制最终输出的架构。

结论

从研究成果和创业实践来看,RAG 仍然是目前解决很多问题最有效的方式,至少在未来五年内不会被取代。 长远来看,更智能的架构会不断发展,最终超越 RAG。


了解阿里云向量检索服务DashVector的使用方法,请点击:

https://help.aliyun.com/product/2510217.html?spm=a2c4g.2510217.0.0.54fe155eLs1wkT

向量banner制作-用于日常发文章.png

相关文章
|
28天前
|
数据建模 计算机视觉
SiMBA:基于Mamba的跨图像和多元时间序列的预测模型
微软研究者提出了SiMBA,一种融合Mamba与EinFFT的新架构,用于高效处理图像和时间序列。SiMBA解决了Mamba在大型网络中的不稳定性,结合了卷积、Transformer、频谱方法和状态空间模型的优点。在ImageNet 1K上表现优越,达到84.0%的Top-1准确率,并在多变量长期预测中超越SOTA,降低了MSE和MAE。代码开源,适用于复杂任务的高性能建模。[[论文链接]](https//avoid.overfit.cn/post/c21aa5ca480b47198ee3daefdc7254bb)
96 3
|
3月前
|
存储 机器学习/深度学习 人工智能
为什么「检索增强」可以解决大模型的「幻觉」问题?
简述为什么「检索增强」可以解决大模型的“幻觉”问题。
|
5天前
|
数据采集 存储 人工智能
理解词向量、向量数据库、嵌入模型、数据预处理和本地知识库
本文介绍了词向量、向量数据库、嵌入模型和构建本地知识库等内容。
|
5天前
|
机器学习/深度学习 算法 搜索推荐
Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型
Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型
31 12
|
10天前
|
存储 人工智能 数据处理
一文读懂:大模型RAG(检索增强生成)
RAG(检索增强生成)旨在弥补大模型知识局限性、幻觉问题和数据安全性的不足。它通过向量搜索从私域数据库中检索相关信息,结合问题生成提示,使模型能提供准确答案。
|
11天前
|
机器学习/深度学习 存储 算法
PYTHON集成机器学习:用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化
PYTHON集成机器学习:用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化
31 7
|
11天前
|
安全 算法 测试技术
R语言基于copula的贝叶斯分层混合模型的诊断准确性研究
R语言基于copula的贝叶斯分层混合模型的诊断准确性研究
27 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
|
1月前
|
自然语言处理 搜索推荐 算法
【一文读懂】基于Havenask向量检索+大模型,构建可靠的智能问答服务
Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎,深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内的几乎整个阿里的搜索业务。本文针对性介绍了Havenask作为一款高性能的召回搜索引擎,应用在向量检索和LLM智能问答场景的解决方案和核心优势。通过Havenask向量检索+大模型可以构建可靠的垂直领域的智能问答方案,同时快速在业务场景中进行实践及应用。
110132 63
|
3月前
|
Linux 异构计算 Docker
QAnything本地知识库问答系统:基于检索增强生成式应用(RAG)两阶段检索、支持海量数据、跨语种问答
QAnything本地知识库问答系统:基于检索增强生成式应用(RAG)两阶段检索、支持海量数据、跨语种问答
QAnything本地知识库问答系统:基于检索增强生成式应用(RAG)两阶段检索、支持海量数据、跨语种问答