为什么AI处理私有数据,需要使用向量数据库

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: 大语言模型通过概率和向量数据库查询来生成高质量内容,当预测概率低于阈值时,利用相似性从本地数据中获取信息,向量数据库通过向量化、表示、查询、搜索和解码等步骤,帮助模型处理未知数据。

免费体验阿里云高性能向量检索服务https://www.aliyun.com/product/ai/dashvector

向量banner制作-用于日常发文章.png


大语言模型可以通过概率来指导生成内容,当预测概率低于一个阈值时,模型可以通过查询及利用相似性寻找接近的本地数据。这样,即使在面对未知的本地数据时,大型语言模型也能生成高质量的内容,寻找与上下文和任务目标相似的向量,并从中获取有用的信息。

为了深入理解这个问题,我们需要先了解大语言模型的训练和生成过程。

大语言模型(如GPT),通过大量数据训练来学习语言规则,并通过调整神经网络中的函数参数的值(权重)来将这些规则固化在模型中,训练前参数的值是随机的。这些规则形成了一个复杂的神经网络,该网络能够根据用户的输入生成高质量的回答。这个过程涉及到对输入数据的编码,通过神经网络的传递和转换,以及最后的解码生成输出。

大语言模型内部神经网络构成示意图:


用户感知的神经网络示意图:


大语言模型的生成过程,利用了概率论。'概率'是模型预测词序列的一种方式。模型通过函数预测各个可能的词,每一个词都有一个出现的概率。模型挑选概率最高的词作为预测的内容,并输出。

概率的计算基于模型对语言的理解和当前的上下文。例如,在“我今天早上吃了一个......”的上下文中,模型可能会预测出“苹果”这个词出现在这里的概率最高。这是因为在模型的训练数据中,'苹果’可能经常出现在这样的情境中。

像GPT这样的大语言模型,能够有效地生成训练数据范围内相关问题的答案,并尝试根据已学习的规则生成新的、未见过的内容。然而,当模型遇到与训练数据差异大的本地数据时,模型的生成能力可能会降低,即模型预测的各个词,出现的概率都很低,大模型生成的内容质量就会变得很差。为了生成与这些本地数据相关的高质量内容,通常会采用两种主要的策略。

策略一:可以通过微调模型中函数的参数来适应本地数据。微调是一种训练技术,它在原有模型基础上进一步训练,以适应新数据。如果有足够的计算资源和数据,我们可以使用这种方法优化模型。

策略二:我们可以使用一个外置数据库来存储本地数据,通过查询本地数据库内容来提高生成的质量,避免高消耗的微调。当这个概率低于某个阈值时,大模型会调用内部的查询函数。这个过程通常涉及到生成查询、搜索数据库、解析结果和生成回答等步骤。'相似性'是指两个实体在某种度量下的接近程度,这个度量在模型生成查询和处理查询结果的过程中起到了关键作用。这样,模型就可以利用外部数据库中的信息来生成更准确、更相关的内容。这个阈值通常由模型设计者设定,并可以根据实际需求进行调整。

目前,最适合大语言模型使用的数据形态是向量数据,因为向量和向量数据库在处理复杂数据和大语言模型应用中有独特优势。

下面我们来详细的看下,大语言模型是怎么使用向量数据库来完成工作的。这个过程涉及到多个步骤:

本地数据向量化:原始数据通过词嵌入技术(Embedding)转化为向量形式,这个过程称为数据“向量化”。向量化的数据可以是任意维度,维度取决于数据的复杂性和数据间关系的复杂性。处理复杂数据时,可能需要使用高维向量来捕捉和表达复杂的数据和关系。

向量表示:每个词或数据可以用向量表示,其中每个数字是向量的一个元素,代表了词或数据在特定维度上的特征值。向量的维度可以很高,但为了简洁起见,只显示了部分元素。在简单上下文语境时,women可以用2维向量表示[2,1],在复杂上下文语境时,可能需要128维向量来表示它:women = [1, 2, 0, ..., 23]。这里的每个数字都是向量的一个元素,代表了"women"这个词在某个特定维度上的特征值。

这个向量有128个这样的元素,但为了简洁,我们只显示了前三个和最后一个元素,中间的元素用"..."表示。这个向量捕捉了"women"这个词的语义特征,在向量空间中,向量之间的距离或角度代表了语义的相似度。例如,'women'和'man'这两个词的向量可能在向量空间中非常接近,因为它们具有类似的语义特质。

women作为二维向量的示例:

向量数据库查询大模型根据当前上下文生成预测,如果预测的概率高于阈值,则直接使用预测结果。这里的"概率"是指模型预测下一个词的可能性,基于模型的训练数据和当前上下文。如果预测的概率低于阈值,则启动查询过程。模型生成查询向量,代表当前上下文和预测目标,并发送给向量数据库

向量数据库搜索:在这个过程中,'相似性'变得非常重要。向量数据库会搜索存储的数据,并找出与查询向量最相似的向量。这个过程是找出与上下文最相关、最相似的信息。搜索结果是一组与查询向量最相似的向量,代表与当前上下文和预测目标最相关的信息。

评估查询结果:模型对查询结果进行评估,包括计算相似度、匹配上下文、与原始预测比较等方式。如果查询结果与当前上下文和预测目标相关,模型会使用查询结果辅助预测。这部分流程实际上是典型的'相似性'问题,模型需要找出最具语义相关性的数据。否则,模型可能忽略查询结果,只使用预测函数的结果。

预测函数与查询函数协同工作:预测函数生成基于模型训练数据的预测。查询函数则从外部数据库中获取额外信息来辅助预测。预测函数和查询函数的协同工作使模型能够在处理训练数据以外的信息时生成高质量的内容。

选定输出内容:在评估查询结果并结合预测函数的结果后,模型会生成最终的预测结果。这个结果是模型对于给定上下文的最佳预测,它可能是基于模型的原始预测,也可能是结合了向量数据库查询结果的预测。

向量解码并输出:模型将最终的选定的输出内容转化回原始的数据形式,通过“解嵌入”(De-embedding)的技术完成,这个过程叫做“向量解码”。完成向量解码的数据会被输出给用户,作为模型的最终响应。这个响应可以是文本、图像或其他形式的数据,取决于模型的设计和任务需求。

通过这种方式,大型语言模型能够挖掘向量数据库的潜力,即使在没有进行微调或没有大量计算资源的情况下,也能生成与本地数据相关的高质量内容。这是通过充分利用'概率'和'相似性'两个概念,以及它们在向量数据库查询过程中的作用实现的。


了解更多阿里云向量检索服务DashVector的使用方法,请点击:

https://help.aliyun.com/product/2510217.html?spm=a2c4g.2510217.0.0.54fe155eLs1wkT

向量banner制作-用于日常发文章.png


相关实践学习
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
11天前
|
机器学习/深度学习 人工智能 算法
Scaling Law触礁数据墙?Epoch AI发文预测LLM到2028年耗尽所有文本数据
【6月更文挑战第23天】Epoch AI警告,大语言模型(LLM)可能在2026-2032年间面临“数据墙”,因人类生成文本数据耗尽。论文探讨LLM扩展限制,提出合成数据、迁移学习和提高数据效率作为应对策略,但也引发数据隐私和伦理问题。研究敦促平衡模型发展与数据资源管理[[1](https://arxiv.org/abs/2211.04325)]。
23 6
|
18天前
|
SQL 存储 人工智能
对2024年以AI为中心的公司增长的11项数据预测
对2024年以AI为中心的公司增长的11项数据预测
|
19天前
|
人工智能 供应链 数据可视化
随着零售商采用AI,位置数据的价值更突出了
随着零售商采用AI,位置数据的价值更突出了
|
21天前
|
人工智能 自然语言处理 API
深入浅出 LangChain 与智能 Agent:构建下一代 AI 助手
深入浅出 LangChain 与智能 Agent:构建下一代 AI 助手
174 0
深入浅出 LangChain 与智能 Agent:构建下一代 AI 助手
|
26天前
|
人工智能 JSON 文字识别
印刷文字识别操作报错合集之口算判题AI能力(文字识别OCR)接口返回数据的时,不显示正确答案只判断对错吗
在使用印刷文字识别(OCR)服务时,可能会遇到各种错误。例如:1.Java异常、2.配置文件错误、3.服务未开通、4.HTTP错误码、5.权限问题(403 Forbidden)、6.调用拒绝(Refused)、7.智能纠错问题、8.图片质量或格式问题,以下是一些常见错误及其可能的原因和解决方案的合集。
|
1月前
|
机器学习/深度学习 人工智能 运维
阿里云DAS-您的专属AI专家,引领数据库自治驾驶
阿里云数据库自治服务(DAS)可以被誉为“您的专属AI专家”,它确实在引领数据库进入自治驾驶的时代。 DAS的核心优势在于其结合了多年大规模数据库集群运维调优的专家经验与机器学习等智能化技术。这
|
2月前
|
机器学习/深度学习 数据采集 人工智能
没有指数级数据就没有Zero-shot!生成式AI或已到达顶峰
【5月更文挑战第29天】生成式AI论文引发关注,提出无指数级数据增长或致其发展达顶峰。依赖大量数据的生成式AI可能已遇瓶颈,零样本学习能力受限。尽管有挑战,但研究建议关注数据质量、探索新算法及跨领域应用,同时应对环境、伦理问题。[论文链接](https://arxiv.org/pdf/2404.04125)
51 5
|
2月前
|
人工智能 关系型数据库 分布式数据库
【PolarDB 开源】PolarDB 与 AI 融合:智能数据库管理与预测性维护
【5月更文挑战第28天】PolarDB结合AI,开创数据库管理新纪元,实现智能优化、资源预测与分配、预测性维护。通过AI算法提升查询效率,动态调整资源,提前发现故障,增强安全。示例代码显示如何用AI预测查询时间。面对挑战,持续学习改进,未来二者融合将为数据库管理带来更多创新与竞争力。
125 0
|
2月前
|
Java 数据库连接 数据处理
实时计算 Flink版产品使用合集之是否支持将数据直接写入adb
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
2月前
|
存储 人工智能 机器人
生成式 AI 与 LangCHain(一)(4)
生成式 AI 与 LangCHain(一)
112 1