向量数仓助力大模型应用落地三部曲

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
RDS PostgreSQL Serverless,0.5-4RCU 50GB 3个月
推荐场景:
对影评进行热评分析
简介: 在第14届中国数据库技术大会(DTCC 2023)上,阿里云原生数据仓库 AnalyticDB PostgreSQL 版提出了向量数仓能力和解决方案,助力企业在大模型时代实现数据架构升级。根据真实用户落地经验,总结出企业落地大模型应用的三个阶段。下文将详述大模型应用落地不同阶段数据架构的设计与思考。

1、背景

2023年自ChatGPT发布以来大语言模型让人们看到了生成式AI能实现和人类高度相仿的语言表达能力,整个业界自顶向下都相信大模型可以改变人们的工作方式。AI已经走进人类的工作和生活,生成式AI成为企业无法忽视的下一代技术密码。正如在每一次技术变更中提前布局的企业能够有更好的先发优势,因此各行各业都在探索大模型应用的落地。但是随着更深入地探索,大模型如何与企业现有数据架构以及所在的垂直领域深度融合,如何保护数据安全和企业知识壁垒成为大家关注的热点。



(大模型发展历程)


2、向量数据库井喷式发展

由于大模型更新频率低且不擅长垂直领域知识,向量数据库恰好可以和大模型互补,通过Retrieval Plugin为大模型和企业私有数据构建了一座桥梁,成为数据面向大模型的切入口。自今年4月份以来,向量数据库市场非常活跃融资也非常火爆。基于OpenAI、LangChain等主流大模型社区的架构,企业构建大模型应用分为两个步骤:一是对非结构化数据进行切块,通过Embedding提取向量特征存入向量数据库中构建企业专属知识库;二是通过Retrieval Plugin让大模型和向量数据库进行交互,由大模型进行问题推理,从向量数据库存储的专属知识中检索出和问题最相近的答案返回给提问者。这种解决方案快速带动了市场规模,从纯搜索场景拓展到更多的想像空间,未来两年预期市场规模会有井喷式的发展。



(向量数据库提升大模型服务能力)


3、大模型时代下数据架构瓶颈

在国家数字化转型战略指导下,国内头部企业已基本完成数据架构升级,构建大数据平台、分析型数据仓库、实时数仓等。在大模型时代下,过去几年刚升级完成的数据架构如何满足大模型的要求呢?如采用两套架构,即一套面向结构化数据的分析型平台架构,另一套面向非结构化/半结构化的向量数据库架构则又会树立新的数据孤岛。此外,在大模型应用中不仅需要向量数据,同时也需要结构化数据。因此,数据架构智能化升级需要结合长远考虑,既要快速响应大模型应用探索的需要,也要满足3~5年智能化应用遍地开花后对数据实时性、多样性、维护性、健壮性等要求,以及和新一代硬件的结合;正如流批分离往流批一体等架构的演进,最终企业还是要综合考虑资源成本、使用成本和运维成本。然而在上述背景与机遇下,当下的大数据架构仍有很多能力瓶颈:其一是目前大数据架构以处理结构化数据为主,非结构化数据更多是仅仅存储下来但呈待挖掘价值。在大语言模型发布后处理海量的文档、语音、图片已成为常态,然而当下的大数据架构并不擅长非结构化数据分析,无法和CPU+GPU异构架构集成,也无法和大模型的能力集成。



(大模型时代下大数据架构能力新要求)


4、向量数仓助力企业数据架构升级

市面上的向量数据库为单纯向量存储和检索而设计,无法支撑多模数据融合分析。因此,阿里云原生数据仓库 AnalyticDB PostgreSQL 版在国内云厂商中首次提出向量数据仓库理念,它在PB级数据规模下具备极致的分析性能,帮助为企业构建一站式分析平台。同时面向大模型应用如 ChatBot、以图搜图、文生图等智能化应用,AnalyticDB PostgreSQL 版全自研向量引擎,支持间信息引擎Ganos,为企业提供了一站式的分析服务,通过一条SQL即可完成结构化数据分析、向量检索、地理信息分析、全文检索的融合分析,实现多路结果召回的全场景覆盖。 通过和结构化数据结合,大模型应用更可控和准确,结合行/列安全管控可以更好地保障数据安全。


(阿里云 AnalyticDB PostgreSQL 版架构)


5、大模型落地和数据架构升级三部曲

结合各行各业大模型应用实践经验,我们推荐企业分三个阶段实现大模型应用探索和最终全面落地。阿里云 AnalyticDB PostgreSQL 版帮助企业实现大数据架构的智能化升级,满足不同阶段下大模型的数据需求


大数据架构智能化升级三部曲)

5.1 阶段1: 0-1冷启动大模型项目

企业快速入局大模型领域,找准合适场景切入点,验证大语言模型是否能够满足企业的场景需求,目前比较成熟的有企业专属知识库、智能客服、智能营销等主流场景。在第一阶段,我们希望用户以最低的成本、最快的速度完成验证,因此 AnalyticDB PostgreSQL 版提供了开箱即用构建大模型+向量数据服务,企业用户可以专注于大模型应用层面,而不是花大量的精力在基础架构升级上。可以快速实现资源拉起,在客户专属资源中实现大模型和向量数据的自动化部署,支持 LangChain 框架,用户可以快速构建专属的企业知识库和专属 ChatBot 完成场景验证,实现大模型应用0-1冷启动。

(一键启动AIGC应用:https://computenest.console.aliyun.com/user/cn-hangzhou/serviceInstanceCreate?spm=a2c6h.12873639.article-detail.176.48f86201OEhsdk&ServiceId=service-ddfecdd9b626465f85b6

(AnalyticDB PostgreSQL 版一键拉起大模型和向量服务)


5.2 阶段2: 大模型应用规模化复制

在第二阶段,企业可以将大模型应用领域逐步拓展到更多场景,规模化实现大模型应用落地。在这个阶段企业需要考虑大模型资源多租户化管理,不同场景下选择不同类型的大模型,实现不同部门、不同等级的数据安全管控,大模型应用开发和调优流程化等一系列问题。AnalyticDB PostgreSQL 版和阿里云 PAI-EAS 合作实现GPU集群多组户管理,支持多业务场景的资源高效利用和多模型选择;支持公共云或混合云部署,企业可满足自身合规要求;通过资源部署形态、大模型多租户管理、行/列权限管理、内容过滤等一系列服务保障数据安全。提供Serverless管理模式实现资源按需利用,帮助企业在成本最优的情况下实现大模型应用的落地。

(规模化复制下的数据架构)


5.3 阶段3: AI原生的向量数仓,实现大模型普惠

过往在大模型应用全流程开发和应用中,完成整个大模型应用的开发和落地并不是一个简单的事情,

1)企业需在大数据平台中对数据进行离线ETL加工

2)通过外部代码工程提取向量特征存储到向量数据库

3)通过代码工程提前向量数据,结合CPU+GPU集群实现模型训练和算法微调

4)手动融合结构化数据分析、向量检索和全文检索的结果并且实现精排


在第三阶段,企业可以将结构化数据和向量数据融合成一体构建向量数仓,实现实时和自动化的向量特征提取,同时,在仓内提供非结构化数据处理算法、向量相似度计算、智能化AI算法等一站式的AI原生服务,通过分布式计算、GPU硬件加速、和大模型高效联动等实现数据和AI技术的融合。AnalyticDB for PostgreSQL 版向量数仓首先支持多类型数据融合分析,同时在云原生数仓内集成AI服务作为新算子,通过 SQL 函数和HTTP服务提供仓内一站式服务,让非工程开发人员也能轻松驾驭整个开发流程。


(AI原生的向量数仓)


目前在大模型领域,各行各业已经落地了不少好的应用:在互联网行业,通过结合企业领域知识和大模型语义理解能力构建智能客服,提高了用户在线咨询体验和响应速度。在游戏行业,通过构建智能游戏攻略和智能NPC增加了游戏玩家趣味性;在电商行业,以图搜图系统让用户所见即所搜,拍张照片就能快速定位到具体的商品。大模型时代已经来临,已经从作不作的讨论演变成作什么,什么时候作的话题,因此企业的数据架构呈待升级。在企业0-1探索、大模型应用规模化复制、AI服务化三个阶段,如果在现有大数据架构外再独立创建向量数据库会造成数据孤岛。阿里云 AnalyticDB for PostgreSQL 版提出了向量数仓的新思路,在数据仓库的能力基础之上支持向量能力提供多模态数据融合分析服务,同时提供仓内的一站式AI服务,包括文档预处理、文档切片、大模型交互、全文检索、精排以及内置的ML算法,构建普惠的大模型落地新范式,帮助企业抢占大模型时代的高地。


更多资讯请关注

AnalyticDB PostgreSQL 版向量能力介绍

https://www.aliyun.com/activity/database/adbpg_vector

钉钉群

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
2月前
|
存储 人工智能 前端开发
前端大模型应用笔记(三):Vue3+Antdv+transformers+本地模型实现浏览器端侧增强搜索
本文介绍了一个纯前端实现的增强列表搜索应用,通过使用Transformer模型,实现了更智能的搜索功能,如使用“番茄”可以搜索到“西红柿”。项目基于Vue3和Ant Design Vue,使用了Xenova的bge-base-zh-v1.5模型。文章详细介绍了从环境搭建、数据准备到具体实现的全过程,并展示了实际效果和待改进点。
177 2
|
2月前
|
前端开发 机器人 API
前端大模型入门(一):用 js+langchain 构建基于 LLM 的应用
本文介绍了大语言模型(LLM)的HTTP API流式调用机制及其在前端的实现方法。通过流式调用,服务器可以逐步发送生成的文本内容,前端则实时处理并展示这些数据块,从而提升用户体验和实时性。文章详细讲解了如何使用`fetch`发起流式请求、处理响应流数据、逐步更新界面、处理中断和错误,以及优化用户交互。流式调用特别适用于聊天机器人、搜索建议等应用场景,能够显著减少用户的等待时间,增强交互性。
547 2
|
1月前
|
人工智能 JSON API
阿里云文档智能 & RAG解决方案:提升AI大模型业务理解与应用
阿里云推出的文档智能 & RAG解决方案,旨在通过先进的文档解析技术和检索增强生成(RAG)方法,显著提升人工智能大模型在业务场景中的应用效果。该方案通过文档智能(Document Mind)技术将非结构化文档内容转换为结构化数据,提取文档的层级树、样式和版面信息,并输出为Markdown和Json格式,为RAG提供语义分块策略。这一过程不仅解决了文档内容解析错误和切块丢失语义信息的问题,还优化了输出LLM友好的Markdown信息。方案的优势在于其多格式支持能力,能够处理包括Office文档、PDF、Html、图片在内的主流文件类型,返回文档的样式、版面信息和层级树结构。
123 2
|
2月前
|
机器学习/深度学习 人工智能 运维
企业内训|LLM大模型在服务器和IT网络运维中的应用-某日企IT运维部门
本课程是为某在华日资企业集团的IT运维部门专门定制开发的企业培训课程,本课程旨在深入探讨大型语言模型(LLM)在服务器及IT网络运维中的应用,结合当前技术趋势与行业需求,帮助学员掌握LLM如何为运维工作赋能。通过系统的理论讲解与实践操作,学员将了解LLM的基本知识、模型架构及其在实际运维场景中的应用,如日志分析、故障诊断、网络安全与性能优化等。
87 2
|
2月前
|
弹性计算 自然语言处理 安全
国内基础大模型的独立性及应用大模型的依赖性
本文探讨了国内基础大模型(如阿里巴巴的通义千问)的独立性及其应用大模型的依赖性。详细分析了这些模型的研发过程、应用场景及技术挑战,包括数据收集、模型架构设计和算力支持等方面。同时,讨论了微调模型、插件式设计和独立部署等不同实现方式对应用大模型的影响。
44 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
【10月更文挑战第31天】2024年,AI大模型在软件开发领域的应用取得了显著进展,从自动化代码生成、智能代码审查到智能化测试,极大地提升了开发效率和代码质量。然而,技术挑战、伦理与安全问题以及模型可解释性仍是亟待解决的关键问题。开发者需不断学习和适应,以充分利用AI的优势。
|
1月前
|
人工智能 自然语言处理 算法
政务培训|LLM大模型在政府/公共卫生系统的应用
本课程是TsingtaoAI公司面向某卫生统计部门的政府职员设计的大模型技术应用课程,旨在系统讲解大语言模型(LLM)的前沿应用及其在政府业务中的实践落地。课程涵盖从LLM基础知识到智能化办公、数据处理、报告生成、智能问答系统构建等多个模块,全面解析大模型在卫生统计数据分析、报告撰写和决策支持等环节中的赋能价值。
60 2
|
2月前
|
机器学习/深度学习 数据采集 自然语言处理
【机器学习】大模型驱动下的医疗诊断应用
摘要: 随着科技的不断发展,机器学习在医疗领域的应用日益广泛。特别是在大模型的驱动下,机器学习为医疗诊断带来了革命性的变化。本文详细探讨了机器学习在医疗诊断中的应用,包括疾病预测、图像识别、基因分析等方面,并结合实际案例进行分析。同时,还展示了部分相关的代码示例,以更好地理解其工作原理。
88 3
【机器学习】大模型驱动下的医疗诊断应用
|
1月前
|
人工智能 分布式计算 数据可视化
大模型私有化部署全攻略:硬件需求、数据隐私、可解释性与维护成本挑战及解决方案详解,附示例代码助你轻松实现企业内部AI应用
【10月更文挑战第23天】随着人工智能技术的发展,企业越来越关注大模型的私有化部署。本文详细探讨了硬件资源需求、数据隐私保护、模型可解释性、模型更新和维护等方面的挑战及解决方案,并提供了示例代码,帮助企业高效、安全地实现大模型的内部部署。
112 1
|
1月前
|
人工智能 分布式计算 数据可视化
大模型私有化部署全攻略:硬件需求、数据隐私、可解释性与维护成本挑战及解决方案详解,附示例代码助你轻松实现企业内部AI应用
【10月更文挑战第23天】随着人工智能技术的发展,大模型在各领域的应用日益广泛。然而,将其私有化部署到企业内部面临诸多挑战,如硬件资源需求高、数据隐私保护、模型可解释性差、更新维护成本高等。本文探讨了这些挑战,并提出了优化硬件配置、数据加密、可视化工具、自动化更新机制等解决方案,帮助企业顺利实现大模型的私有化部署。
107 1