向量数据库:AIGC时代的必备基础工具

简介: 向量数据库为 AI 大模型全生命周期管理提质增效。

免费体验阿里云高性能向量检索服务https://www.aliyun.com/activity/intelligent/DashVector


一、向量数据库为 AI 大模型全生命周期管理提质增效

随着AI大模型的发展,向量数据库已成为赋能MLOps各环节必备的软件基础设施。

在AI模型全生命周期过程中,MLOps(Machine Learning Operations,机器学习运营体系)代表机器学习的开发、部署和应用,是涵盖从训练到推理全流程,提升从数 据到AI模型生产效率的工具。AI大模型的技术已成为业内主流发展方向,在训练的数据量不断增多,算力集群规模持续扩大的趋势下,从数据到模型的全生命周期管理 需要更加专业的软件工具用于生产效率的提升、流程的优化和成本的节省。其中向 量数据库具备的快速检索、混合存储、向量嵌入等能力很好的解决了AI大模型在 MLOps过程中存在的知识时效性低、输入能力有限、回答问题准确度低等问题,未来发展前景广阔。

2.jpg


1,AI模型规模化开发必备

AI大模型的训练和推理各环节过程复杂、步骤较多,需要统一的软件工具链进行管理。从原始的训练数据训练成为AI大模型的过程需要经过数据预处理、特征提取、模 型测试、训练监控、生产部署等环节,任何一个环节出现问题亦或不同环节之间的 衔接不流畅,则会影响整体的开发效率和成果转化率。根据Gartner调查结果,只有 53%的项目能够从AI原型转化为生产,AI生产转化率低的主要原因在于模型全链路 生命周期管理存在跨团队协作难度大、过程和资产管理欠缺、生产和交付周期长等问题。因此,开发从数据到模型,贯通从开发到部署等多环节统一的流水线软件。


3.jpg


MLOps是保障AI模型生产和管理的稳定性、持续性、规模化和效率的关键。MLOps的目标是提高AI项目全生命周期的效率、可扩展性和可靠性。在MLOps的框架下,机器学习项目的生命周期被划分为几个关键阶段,包括需求设计、开发阶段、 交付阶段和运营阶段。这种结构化的运行方法提供了一个清晰的路线图,可以帮助 团队有效减少数据质量、模型过拟合和部署困难等难题,较大提高了项目推进效率。 此外,MLOps还通过自动化持续集成/持续部署(CI/CD)等方式加快模型迭代速度, 保证模型在生产过程中的连续性。


2,各个环节的相互作用

MLOps的生命周期包含了多个反馈循环,模型测试和运维监控阶段的结果可能会反馈到数据工程和模型开发环节,集成效果会影响模型上线后的性能,模型上线运行的效果又影响业务需求和开发方向。MLOps的生命周期不是一次性的过程,需要反复进行数据收集和准备、模型开发和训练、模型验证和测试等步骤,以不断对模型 进行迭代与优化。目前,MLOps对AI全生命周期的管理和应用正逐渐走向成熟,对各个环节都有对应的软件实现效率的提升。这些软件和工具在各环节发挥着重要的 作用,共同构建了一个完整、高效的MLOps生态系统。


4.jpg

需求管理:业务人员基于对产业和业务的深刻认知,在复杂的业务场景中提炼出痛 点问题并形成需求,交付于数据科学家进行对接;数据科学家通过需求文档初步建 立算法模型(demo),明确业务需求,并对需求的可行性进行评估与检验。在双方的有效沟通下对方案多次修改直到达成一致,以确保业务需求被正确认知,建模方案可行而高效,避免不同角色对于需求的理解不一致及风险不可控等问题,从源头提升项目质量,降低需求变更带来的影响。


数据工程:明确了需求之后,就要从业务场景中提取建模所需的数据。业务场景覆盖范围宽广且涉及情景复杂,获取的数据格式、口径、类型都大不相同。取数场景可 能涉及到从各种源(如数据库、日志文件、API等)收集数据,获取的数据可能是结 构化的(如表格数据),也可能是非结构化的(如文本或图像),也可能包含错误、 缺失或异常值,需要识别并处理,以提高数据的质量。此外,获取的数据一般不符合 机器学习模型的特定格式要求,需要数据工程师进行相应的处理,如编码分类变量、 标准化数值变量等。与此同时,数据工程师需要从原始数据中进行特征选择、特征提取、特征构造以提高模型性能。数据工程是机器学习项目成功的关键,好的数据工程可以提高模型的准确性,降低模型的复杂性,提高模型的可解释性。


模型开发:模型开发是MLOps生命周期中的关键阶段,需要根据问题的性质(例 如,是分类问题、回归问题还是聚类问题)和数据的特性,选择一个或多个适当的机 器学习算法进行建模。特征选择也是模型性能的关键,需要从所有可用的特征中选 择最相关的特征子集用于模型训练,减少复杂性,提高模型性能,并减少过拟合的风险。完成基本建模后,需要对模型进行不断训练、优化和迭代,以达到最佳效果。


构架集成:持续集成(Continuous Integration,简称CI)是一种软件开发实践,开 发人员将他们的代码更改合并到共享存储库中,通常每天至少一次。每次代码合并 都由自动化的构建(包括编译、发布、自动化测试)来验证,从而尽早地发现并解决 问题。通过持续集成和自动化测试,可以快速发现和定位错误,减少调试时间,提高 流程效率。


模型测试:模型测试用于评估机器学习模型的性能和可靠性,目的是确保机器学习模型可以根据最新的数据和反馈进行更新和优化。测试阶通常构造一组测试数据来评估模型的预测结果,并使用适当的评估指标(如准确率、召回率、AUC等)来量 化模型的性能。同时还要测试模型的鲁棒性,检查模型是否对输入数据的噪声或异常值敏感。


部署发布:持续部署阶段(Continuous Deployment,简称CD)涉及将训练好的机 器学习模型部署到生产环境,以便它可以开始为实际业务问题提供预测。它将模型和相关的预处理和后处理代码打包为一个容器(如Docker容器),并将模型服务部 署到适当的运行环境。部署发布是一个复杂的过程,需要考虑性能、可用性、安全性 和可扩展性等多个因素,以确保模型的成功部署和高效运行。


运维监控:运维监控是在模型部署后对其性能和健康状况进行持续的监控和管理。 这要求IT运维定期检查模型的预测性能,以确保它仍然满足业务需求;监控模型服务 的资源使用情况(如CPU、内存和磁盘使用情况),检查模型服务的错误和异常; 监控模型的数据漂移,避免因为输入数据的分布变化导致模型性能随着时间的推移而下降。运维监控是一个持续的过程,它需要在模型的整个生命周期中进行,以确保模型的持续性能和健康状况。

5.jpg

6.jpg


AI大模型对MLOps提出了更高要求。相较于普通的AI模型,AI大模型的训练有更多 数据的输入,通常需要更长时间和更多的资源,因此在训练过程中需要进行更精细 的调优和监控。此外,由于AI大模型的规模较大,其部署和维护也会相应地变得更加复杂。例如,如何将模型分布式部署到多个节点上、如何保证模型的稳定性和可靠 性、如何进行故障排除和容错等。因此,适用于普通模型生产的MLOps较难适应AI 大模型的需求。目前,针对AI大模型的技术特点,部分厂商已开发出LLMOps工具, 在海量样本构建、模型增量与全量的训练和部署、模型推理、模型回滚、模型回溯等 方面有较大提升能力。总体来看,在模型的全生命周期管理过程中,AI大模型具有以下特点:

“预训练+微调”已成为AI大模型主流开发方式:目前较多的大模型的开发不再从头开始训练,而是选择一个通用性基础较好的、开源的预训练模型,在其基础上进行参数微调和优化得到满足用户需求的大模型。

AI大模型的开发涉及的环节较多,耗时较长:由于训练数据量庞大,数据类型较多,AI大模型的训练时间较长。AI大模型的训练包括数据清洗、特征提取、参数调优、 评估测试等,各环节的耗时都取决于数据量、模型复杂度以及评估指标的选择。因 此数据处理工具、软件平台架构的选择对于AI大模型的开发有关键作用。

相似性检索功能对于AI大模型生成内容的效率和质量有一定提升:在人机交互的 过程中,存在由于用户提问方式不直接,给出的提示词较为模糊,导致生成内容质 量不高的问题。因此,通过相似性检索和向量标量字段过滤混合查询等技术手段提 高提示词与回答内容之间匹配度已成为AI大模型的重要发展方向之一。

4.人工反馈对于AI大模型通用性效果的提升有关键作用:在模型的评估测试环节, 通过引入人工反馈机制对于模型输出的内容进行纠正,筛除不合理的、错误的回答, 从而提升AI大模型整体的通用性。

7.jpg


向量数据库是开发和应用AI大模型过程中必备的软件基础设施。针对AI大模型的 MLOps在架构方面的设计考虑了海量多源数据的训练、预训练大模型的导入以及大规模计算集群算力资源调度。这些都是在普通AI模型开发和应用中难以遇到的问题。 在训练数据方面,由于所需处理的数据量较为庞大、类型更加复杂,向量数据库是 提升训练和推理效率必备的工具软件。AI大模型在大规模计算集群的环境下进行训练,具有算力资源调度和整合共享能力的分布式架构已成为主流。我们认为,以向 量数据库为代表的工具类软件有效解决了AI大模型全生命周期管理中的痛点,是开 发和应用AI大模型过程中必备的软件基础设施。


8.jpg


向量数据库赋能MLOps过程中数据导入、特征提取、模型构建等多个环节。在数据 导入过程中,向量数据库可以将不同类型的非结构化数据进行清洗、筛选并转化为统一的向量嵌入格式,便于各类数据的交互和计算。在特征提取阶段,向量数据库 的相似性检索功能给不同的向量数据构建索引,有效提升搜索效率,缩短训练时间。 在模型构建环节,向量数据库也可以在微调和剪枝等环节减少训练数据量,节省训 练成本。此外,在模型推理过程中,向量数据库也可解决AI大模型知识的时效低、输入能力有限以及准确度低的问题。接下来,我们就向量数据库在AI大模型各环节赋 能的技术原理和实际应用案例进行深入分析。


9.jpg


二、向量数据库可提升AI大模型效率


1,向量数据库在AI大模型训练和推理过程中有较大的应用空间


AI大模型训练的数据量庞大、数据类型多样,且训练过程设计过程复杂、耗时较长的数据检索过程。通过实践摸索,AI算法开发人员发现向量数据库具备提升模型 训练的工作效率的工具软件。向量数据库可以将文本、图像等各种类型数据转换为一个固定长度的向量。转化后的向量数据不仅一了数据格式,便于各类型数据之 间的交互和计算,还可以应用相似度检索的算法来减少大规模检索过程的时间消耗。 具体来说,向量数据库在AI大模型训练过程中的功能包括:


转换数据结构,统一数据格式,加速特征提取:向量数据库可以将图像、音频和视频等数据数据,转化成为统一格式的向量数据。在特征提取任务中,统一格式 的向量数据的处理和计算效率有明显提升。


利用相似性检索的算法加速大规模数据检索:在AI大模型训练过程中,大规模数据搜索的过程往往耗时较长。向量数据库通过ANN(Approximate Nearest Neighbor)算法给不同的向量数据构建索引,有效提升搜索效率,缩短训练时间。


在模型更新和再训练过程中,减少训练量:当用户想要更新AI大模型时,向量数据库允许用户只更新部分数据,而不是整个数据集。这可以节省大量的计算资源 和时间,特别是在数据集很大且更新频繁的情况下。


2,统一的数据处理工具是关键

一般而言,数据都需要进行编码,转化成向量嵌入(Embedding)后才开始训练,而不同类型的数据转化成为向量嵌入的方式不同。对于文字类信息,在字词的属性(主谓 宾)等较为固定的情况下,语句中的语义信息的提取和识别有规律可循。将标点符 号、不同属性的字词编码,根据其在文中的作用对编码反复进行排列组合的训练即 可以得到一组向量嵌入。而图像类数据的编解码难度更大。图像数据是大量像素排 列组合而成的,不仅单个像素的固定属性难以确定,其排列组合的方式也无规律可循,与一般的AI模型相比,AI大模型需要对多种类型数据进行编码、配对、拟合,导入数据开始训练的过程更加复杂。


10.jpg


在数据导入阶段,向量数据库可以支持多种类型数据转化成为向量嵌入。向量数据 库支持不同类型数据导入AI模型训练中,解决了此前针对不同类型的数据导入需要 采用不同数据处理平台的难题。在训练过程中,大规模未标记的数据首先输入浅层 的神经网络中进行训练,其输出结果为具有标识的统一格式的向量,可以被深层的神经网络识别。由于AI大模型的训练涉及的数据量庞大,向量嵌入的方式可有效提高模型训练的效率和准确性,已经成为AI大模型的标准流程。


11.jpg


在AI大模型的训练过程中,向量数据库可以用于加速特征提取和数据检索。在训练过程中,原始数据转换为向量数据后更好的适应了AI计算中涉及大量的矩阵运算。 向量化后的数据将单一维度的运算扩展到高维度的矩阵运算,从而提升单次运算能 力。向量数据库针对矩阵运算提供了丰富的操作符,如点积、范数、索引查找等,对于特征提取、抽象化等都有很好的性能满足。此外,向量数据库还可以提供快速随 机访问和批量读取功能,在训练过程中快速加载和检索海量数据。


12.jpg


3,向量数据库可保护用户数据隐私

向量数据库在企业用户隐私保护和推理任务准确性方面有突出表现。在AI大模型应 用过程中,下游用户一方面需要通用AI大模型访问企业私域数据,另一方面又需要 防止企业隐私信息泄露。在这一过程中,向量数据库作为通用AI大模型和企业私域 数据间的桥梁,可以有效满足用户这一需求。其次,融合了最新资料和专业知识的 向量数据库可有效解决通用的AI大模型知识的时效低、输入能力有限以及准确度低的问题。具体来说,向量数据库在AI大模型推理过程中的功能包括:


为大模型提供外挂知识库,提升模型时效性与准确性:用户希望大模型能根据 最新的数据来回答问题,但大模型的训练语料在时效性上有一定局限。此外,企业都有自己内部独有的知识库,出于数据安全考虑,难以直接应用于大模型的预训练 和微调阶段。在此情况下,向量数据库可以充当外挂知识库,为大模型提供最新数 据或者企业客户独有的内部知识库。通过从知识库中检索与输入相关的信息,作为 上下文和问题一起输入给AI大模型,基于信息生成答案,可以提升大模型的时效性与准确性。


为大模型提供长记忆能力,突破Token数限制,避免上下文信息丢失:大模型 有上下文长度限制,一旦超过了最大Token数,便会忘记上下文。而向量数据库可以 记录客户端和大模型之间的对话信息,接收到新的消息时可以从整个历史会话记录 中检索与当前消息相关的人机交互信息,为大模型提供长期记忆。因此可以突破大 语言模型对Token数的限制,避免上下文信息丢失的问题。


为大语言模型提供缓存能力,减少调用开销,提升响应速度:当用户触发查询时,在调用AI大模型之前,系统可以生成向量并执行缓存查找,若缓存命中,就可以直接返回结果,不需再调用AI大模型,因此可以实现快速响应,并减少对大模型调用的开销。

13.jpg

存入隐私数据的向量数据库外挂在AI大模型上,拓展交互信息范围,保护用户隐私。 通过互联网公开数据训练的通用AI大模型难以覆盖专业性较强以及最新的新闻数据。 而用户可以将最新资料和专业知识存入向量数据库中,外接到通用AI大模型来解决 这一问题。此外,用户还可以设置向量数据库的访问权限,来限制AI大模型将其中数 据作为训练语料。向量数据库的实时更新、灵活编辑以及隐私保护的特点较好的弥 补了通用AI大模型的缺陷。在ChatGPT的插件系统中,用户即可在外接的向量数据 库中预先增加和编辑特定信息,再通过调用该插件后实现对于特定问题的回答。外接的向量数据库可以将用户特定信息融入到交互内容中,不仅大大拓展了AI大模型交互信息的范围,还保证了用户信息的私密性,应用前景广阔。


14.jpg


在AI大模型的推理过程中,向量数据库可以提升推理的效率和准确性。在推理阶段, 向量数据库可以提供快速的向量索引和查询功能,以便快速地找到所需的特征向量。 与传统的基于关键字的搜索相比,向量数据库可提供基于ANN算法的语义搜索功能。 AI大模型可以更好的理解用户的搜索意图,并将搜索请求扩展到相关领域的信息, 快速、准确定位到与问题最相关的信息,缩短生成内容的反馈时间。此外,在大型分 布式环境中,向量数据库还具有高效的并行计算能力,可以充分利用硬件资源,进一 步加快推理速度,以应对海量数据的处理需求。


15.jpg

在应用阶段,AI大模型存在较多的向量相似性搜索需求。AI大模型和用户交互的信 息往往包含大量的非结构化数据。例如,用户将图片输入到GPT-4后,就图片信息进 行问答。在这一过程中,原始的图像(由像素组成)需要转化成为向量数据才能被AI 大模型识别和理解,之后这一组向量数据需要遍历庞大的神经网络,搜索与之对应的另一组向量数据后才能生成用户想要的文字。向量搜索的过程往往耗时较长,可能会影响到即刻需要得到内容生成的用户体验。而向量数据库通过ANN算法给不同 的向量数据构建索引,有效提升搜索效率,缩短生成内容的反馈时间。


三、向量数据库在 AI 场景应用

从实际应用案例来看,向量数据库在AI大模型的训练和推理过程中降本增效的效果已有所显现。Pinecone、Weaviate等向量数据库通过数据清洗、去重,将优化后的 数据集导入模型训练过程,较大提升了训练效率。ChatGPT Plugins插件系统外接向量数据库,不仅大大拓展了AI大模型交互信息的范围,还保证了用户信息的私密性。 Qdrant向量数据库产品与Pienso合作,已经实现在开源AI大模型的基础上开发私域大模型。接下来,我们通过实际应用案例的分析,介绍向量数据库的应用前景。


1. 应用于数据清洗、向量嵌入转换、私域大模型开发等训练过程

向量数据库可实现低质量数据的快速辨别和清洗,优化训练数据集。Altas是一个数据管理平台,通过接入Pinecone、Weaviate等向量数据库,实现训练数据的清洗和去重。Atlas首先对文本语料库进行语义层面的分析,通过ANN的算法将具有相同属性的数据进行聚类,并以向量形式嵌入到可视化地图上。在可视化的界面中,用户可使用工具对数据进行标注,根据业务需要,对特定类别数据进行清洗和筛选。之后,AI模型可以从Atlas中获取优化后的数据集用于后续的训练任务。我们认为,数据清洗和筛选是AI模型训练必不可少的环节,向量数据库已实现对大规模非结构化 数据进行分类、标注和清理,优化数据集,从而有效提高AI模型的训练效率。

16.jpg

向量数据库可以为企业客户提供私域大模型解决方案,同时保护数据安全。Pienso与向量数据库Qdrant合作,为客户提供私域大模型解决方案。用户可以基于私有数据,使用简单的可视化界面在各种流行的开源模型上开发定制AI模型。通过向量数据库提升了AI模型的准确性,同时保留了广泛的上下文窗口,让模型能够更全面地理解对话或文档,产生贴近语境的输出,以及加速用户模型的训练和推理过程。在这种方案下,Pienso保证用户的数据只能自用,不会被拿去训练其他模型,保障了用户隐私和数据安全。


17.jpg


2. 应用于问答系统、图像检索、推荐系统等推理应用场景

外挂知识库:在外接的向量数据库中可以预先增加和编辑特定信息,再通过 ChatGPT 调用该插件后实现对于特定问题的回答

提升AI模型生产内容精准性:结合问答系统的自然语言问答能力和向量数据库 的相似性检索能力,提供更准确和可靠的答案,实现高效问答服务

非结构化数据快速检索:通过相似性检索算法对图像、视频等非结构化数据快速搜索,实现反向图像搜索、对象检测、人脸比对等任务

个性化推荐:存储用户和物品的特征向量并对用户偏好和内容进行分析,通过计算相似度找到与用户历史行为或兴趣相似的物品,生成个性化推荐,提升推荐体验


18.jpg

AI大模型可外接融合了用户特性信息的向量数据库,拓展知识边界,保护用户安全。 ChatGPT Plugins系统已开放外接向量数据库,大大拓展了AI大模型交互内容的范围。 2023年3月,ChatGPT在推出的首批插件系统中包含了 Retrival 插件,其给向量数 据库(包括Milvus、Pinecone、Qdrant、Redis、Weaviate 和 Zilliz)提供了统一的 接口。用户在外接的向量数据库中可以预先增加和编辑特定信息,再通过ChatGPT 调用该插件后实现对于特定问题的回答。我们认为,外接的向量数据库可以将用户特定信息融入到交互内容中,不仅大大拓展了AI大模型交互信息的范围,还保证了用户信息的私密性。


19.jpg


接入向量数据库的AI大模型已应用于企业内部数据的智能化和隐私保护。随着向量 数据库接入AI大模型可有效保护隐私信息安全的特性被企业级用户逐渐认识,部分商业客户以应用于实际业务中。根据MongoDB在2023年12月5日的财报电话会议内 容,其客户人力资源公司UKG已选择采用MongoDB的Atlas Vector Seach向量检索 工具不仅有效提升其人员招聘各流程的数据的搜索效率以及资源对接的精准性,还保护企业用户的数据不泄露给AI大模型作为训练预料。我们认为,向量数据库作为外挂知识库接入AI大模型后能够保护用户隐私数据的能力被企业级客户充分认识和理解后,其有望得到大规模推广。


20.jpg


向量数据库可外接最新资料和专业知识,增强AI大模型的时效性和专业性。向量数据库公司Zilliz开发了一个开源工具OSSChat,整合了各开源项目的GitHub函数库及相关文档作为数据源,并将这些数据转换为向量存储在向量数据库中。当用户与 OSSChat进行交互时,系统会在向量数据库中进行相似性检索,将检索结果发送给 ChatGPT作为输入问题,并最终生成精准的答案。我们认为,通过结合 ChatGPT的自然语言问答能力和向量数据库的相似性检索能力,OSSChat 将开源社区中积累的 内容构建成知识库,有效解决了ChatGPT在特定领域知识和实时信息方面的局限性, 可以提供更准确和可靠的答案,实现高效问答服务。


21.jpg

向量数据库基于快速的相似性检索能力,提升图像检索速度,兼具高可拓展性。金融科技公司ChipperCash在向量数据Pinecone的基础上构建了一套身份验证系统, 将人脸图像等身份信息转换为向量并存储在Pinecone向量数据库中,通过对 Pinecone向量数据库的查询返回前三个最优匹配项,最后在后端进行查询以返回匹配结果。该系统的主要优势包含:

高实时性:能够迅速检索用户的相似自拍照,既能抓住并防止欺诈者,又不减 缓合法新用户的验证速度;优化支出:减少了10倍的重复注册,实现了资金的更有效管理

高可扩展性:支持一次性处理数十亿个向量,支持长期内存需求,方便扩展并向数据集添加上下文(即自拍),拥有更多上下文信息的应用能够实现更快速准确的验证。 推出身份验证系统后,端到端延迟从原来的20分钟降低至不到2秒,Pinecone的搜索时间也不到200毫秒,因此结合了向量数据库后,身份验证系统在实时性、可扩展性及成本方面有了显著改进


22.jpg

向量数据库高效、精准检索用户和商品数据,提升商品推荐准确度。电子商务公司 CRITEO将向量数据库,应用于内容平台的个性化推荐功能中,有效匹配用户需求, 提升商品推荐的精准度。向量数据库将用户的历史行为、画像和查询等特征转化为 用户特征向量,并与商品向量结合,通过计算相似度找到与用户历史行为或兴趣相 似的物品,生成个性化推荐。在应对一些小众的查询时,传统的查询方式可能无法精确召回文档,甚至出现与查询无关的结果,但通过向量检索,可以提前抽取商品和查询的特征,并进行向量的近似召回,有效匹配了用户需求,提升了商品推荐准确度。


23.jpg


企业应用AI大模型的需求和数据隐私保护的要求共同保障了向量数据库在垂直应用类AI的应用前景。通过观察向量数据库在AI大模型各场景的应用,我们发现其不仅 增强了AI大模型生成内容的精准性和及时性,还可以作为外挂知识库应用于垂直领 域大模型的训练。随着以ChatGPT为代表的通用AI大模型产品的成熟,各行业用户基于通用AI大模型开发的智能化应用带来的降本增效的效果显著。通用AI大模型被各行业用户采用的意愿和需求大大增强。另一方面,数据安全防范和隐私保护在金 融、医疗等行业的信息化和智能化升级中是必须考虑的前提。


这一特点让我们看到向量数据库产品在垂直领域智能化升级过程中几乎是刚需。 在各行业智能化升级过程中,向量数据库不仅可以将企业海量数据向量化后提升通 用AI大模型应用的时效性和精准性,还可以保障企业隐私数据和信息不被通用AI大模型用作训练数据。


总结

1,向量数据库是开发和应用 AI 大模型必备的软件基础设施

向量数据库是专门用于存储和管理向量数据,其具备的快速检索、混合存储、向量嵌入等能力很好的解决了 AI 大模型技术中普遍存在的知识时效性低、输入能力有限、回答问题准确度低等问题。


2,向量数据库降本增效的效果已有显现

ChatGPT Plugins外接向量数据库,不仅大大拓展了AI大模型交互信息的范围,还保护了用户隐私。Qdrant 向量数据库与 Pienso 合作,已经实现在开源 AI 大模型的基础上开发私域大模型。


3,向量数据库行业有望随各行业智能化升级而成长

未来,向量数据库商业化的节奏取决于各行业客户使用 AI 大模型的实际需求以及其在 AI 大模型技术中应用的实际效果。

1.jpg


相关实践学习
使用CLup和iSCSI共享盘快速体验PolarDB for PostgtreSQL
在Clup云管控平台中快速体验创建与管理在iSCSI共享盘上的PolarDB for PostgtreSQL。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
1月前
|
数据库
ABAP 泛型编程实战 - 分享一个数据库表内容的拷贝工具试读版
ABAP 泛型编程实战 - 分享一个数据库表内容的拷贝工具试读版
15 0
|
2月前
|
运维 安全 关系型数据库
参加数据库管理工具DAS训练营,赢取国潮保温杯和阿里云定制双肩包!
本训练营带您简单了解数据库自治与云安全服务,数据库自治服务提供云上RDS、PolarDB、NoSQL、ADB等数据库7*24小时异常检测、SQL自优化、安全合规审计、弹性伸缩、数据自治、锁分析等亮点功能。一站式自动化、数字化DAS集成平台,助力您畅享DBA运维智能化。
|
3月前
|
SQL Java 数据库连接
Mybatis和MybatisPlus:数据库操作工具的对比
Mybatis和MybatisPlus:数据库操作工具的对比
131 0
|
25天前
|
关系型数据库 MySQL 数据库
rds安装数据库客户端工具
安装阿里云RDS的数据库客户端涉及在本地安装对应类型(如MySQL、PostgreSQL)的客户端工具。对于MySQL,可选择MySQL Command-Line Client或图形化工具如Navicat,安装后输入RDS实例的连接参数进行连接。对于PostgreSQL,可以使用`psql`命令行工具或图形化客户端如PgAdmin。首先从阿里云控制台获取连接信息,然后按照官方文档安装客户端,最后配置客户端连接以确保遵循安全指引。
75 1
|
4月前
|
时序数据库
InfluxData【部署 02】时序数据库 InfluxDB 客户端工具 Influx CLI 最新版本安装启动验证(在线安装+离线安装+各版本下载地址)
InfluxData【部署 02】时序数据库 InfluxDB 客户端工具 Influx CLI 最新版本安装启动验证(在线安装+离线安装+各版本下载地址)
116 0
|
3月前
|
SQL 关系型数据库 MySQL
常用的数据库链接工具都有哪些
常用的数据库链接工具都有哪些
169 2
|
4月前
|
SQL 关系型数据库 MySQL
postgresql|数据库|MySQL数据库向postgresql数据库迁移的工具pgloader的部署和初步使用
postgresql|数据库|MySQL数据库向postgresql数据库迁移的工具pgloader的部署和初步使用
101 0
|
1月前
|
Oracle 关系型数据库 MySQL
一款好用的数据库表结构文档生成工具
一款好用的数据库表结构文档生成工具
|
1月前
|
网络协议 关系型数据库 MySQL
如何实现在公网下使用navicat图形化工具远程连接本地内网的MariaDB数据库
如何实现在公网下使用navicat图形化工具远程连接本地内网的MariaDB数据库
|
2月前
|
SQL 关系型数据库 MySQL
在OceanBase数据库中,mysqldump工具是可以用于数据备份的
【2月更文挑战第2天】在OceanBase数据库中,mysqldump工具是可以用于数据备份的
34 6

热门文章

最新文章