向量数仓助力大模型应用落地三部曲

简介: 在第14届中国数据库技术大会(DTCC 2023)上,阿里云原生数据仓库 AnalyticDB PostgreSQL 版提出了向量数仓能力和解决方案,助力企业在大模型时代实现数据架构升级。根据真实用户落地经验,总结出企业落地大模型应用的三个阶段。下文将详述大模型应用落地不同阶段数据架构的设计与思考。

1、背景

2023年自ChatGPT发布以来大语言模型让人们看到了生成式AI能实现和人类高度相仿的语言表达能力,整个业界自顶向下都相信大模型可以改变人们的工作方式。AI已经走进人类的工作和生活,生成式AI成为企业无法忽视的下一代技术密码。正如在每一次技术变更中提前布局的企业能够有更好的先发优势,因此各行各业都在探索大模型应用的落地。但是随着更深入地探索,大模型如何与企业现有数据架构以及所在的垂直领域深度融合,如何保护数据安全和企业知识壁垒成为大家关注的热点。



(大模型发展历程)


2、向量数据库井喷式发展

由于大模型更新频率低且不擅长垂直领域知识,向量数据库恰好可以和大模型互补,通过Retrieval Plugin为大模型和企业私有数据构建了一座桥梁,成为数据面向大模型的切入口。自今年4月份以来,向量数据库市场非常活跃融资也非常火爆。基于OpenAI、LangChain等主流大模型社区的架构,企业构建大模型应用分为两个步骤:一是对非结构化数据进行切块,通过Embedding提取向量特征存入向量数据库中构建企业专属知识库;二是通过Retrieval Plugin让大模型和向量数据库进行交互,由大模型进行问题推理,从向量数据库存储的专属知识中检索出和问题最相近的答案返回给提问者。这种解决方案快速带动了市场规模,从纯搜索场景拓展到更多的想像空间,未来两年预期市场规模会有井喷式的发展。



(向量数据库提升大模型服务能力)


3、大模型时代下数据架构瓶颈

在国家数字化转型战略指导下,国内头部企业已基本完成数据架构升级,构建大数据平台、分析型数据仓库、实时数仓等。在大模型时代下,过去几年刚升级完成的数据架构如何满足大模型的要求呢?如采用两套架构,即一套面向结构化数据的分析型平台架构,另一套面向非结构化/半结构化的向量数据库架构则又会树立新的数据孤岛。此外,在大模型应用中不仅需要向量数据,同时也需要结构化数据。因此,数据架构智能化升级需要结合长远考虑,既要快速响应大模型应用探索的需要,也要满足3~5年智能化应用遍地开花后对数据实时性、多样性、维护性、健壮性等要求,以及和新一代硬件的结合;正如流批分离往流批一体等架构的演进,最终企业还是要综合考虑资源成本、使用成本和运维成本。然而在上述背景与机遇下,当下的大数据架构仍有很多能力瓶颈:其一是目前大数据架构以处理结构化数据为主,非结构化数据更多是仅仅存储下来但呈待挖掘价值。在大语言模型发布后处理海量的文档、语音、图片已成为常态,然而当下的大数据架构并不擅长非结构化数据分析,无法和CPU+GPU异构架构集成,也无法和大模型的能力集成。



(大模型时代下大数据架构能力新要求)


4、向量数仓助力企业数据架构升级

市面上的向量数据库为单纯向量存储和检索而设计,无法支撑多模数据融合分析。因此,阿里云原生数据仓库 AnalyticDB PostgreSQL 版在国内云厂商中首次提出向量数据仓库理念,它在PB级数据规模下具备极致的分析性能,帮助为企业构建一站式分析平台。同时面向大模型应用如 ChatBot、以图搜图、文生图等智能化应用,AnalyticDB PostgreSQL 版全自研向量引擎,支持间信息引擎Ganos,为企业提供了一站式的分析服务,通过一条SQL即可完成结构化数据分析、向量检索、地理信息分析、全文检索的融合分析,实现多路结果召回的全场景覆盖。 通过和结构化数据结合,大模型应用更可控和准确,结合行/列安全管控可以更好地保障数据安全。


(阿里云 AnalyticDB PostgreSQL 版架构)


5、大模型落地和数据架构升级三部曲

结合各行各业大模型应用实践经验,我们推荐企业分三个阶段实现大模型应用探索和最终全面落地。阿里云 AnalyticDB PostgreSQL 版帮助企业实现大数据架构的智能化升级,满足不同阶段下大模型的数据需求


大数据架构智能化升级三部曲)

5.1 阶段1: 0-1冷启动大模型项目

企业快速入局大模型领域,找准合适场景切入点,验证大语言模型是否能够满足企业的场景需求,目前比较成熟的有企业专属知识库、智能客服、智能营销等主流场景。在第一阶段,我们希望用户以最低的成本、最快的速度完成验证,因此 AnalyticDB PostgreSQL 版提供了开箱即用构建大模型+向量数据服务,企业用户可以专注于大模型应用层面,而不是花大量的精力在基础架构升级上。可以快速实现资源拉起,在客户专属资源中实现大模型和向量数据的自动化部署,支持 LangChain 框架,用户可以快速构建专属的企业知识库和专属 ChatBot 完成场景验证,实现大模型应用0-1冷启动。

(一键启动AIGC应用:https://computenest.console.aliyun.com/user/cn-hangzhou/serviceInstanceCreate?spm=a2c6h.12873639.article-detail.176.48f86201OEhsdk&ServiceId=service-ddfecdd9b626465f85b6

(AnalyticDB PostgreSQL 版一键拉起大模型和向量服务)


5.2 阶段2: 大模型应用规模化复制

在第二阶段,企业可以将大模型应用领域逐步拓展到更多场景,规模化实现大模型应用落地。在这个阶段企业需要考虑大模型资源多租户化管理,不同场景下选择不同类型的大模型,实现不同部门、不同等级的数据安全管控,大模型应用开发和调优流程化等一系列问题。AnalyticDB PostgreSQL 版和阿里云 PAI-EAS 合作实现GPU集群多组户管理,支持多业务场景的资源高效利用和多模型选择;支持公共云或混合云部署,企业可满足自身合规要求;通过资源部署形态、大模型多租户管理、行/列权限管理、内容过滤等一系列服务保障数据安全。提供Serverless管理模式实现资源按需利用,帮助企业在成本最优的情况下实现大模型应用的落地。

(规模化复制下的数据架构)


5.3 阶段3: AI原生的向量数仓,实现大模型普惠

过往在大模型应用全流程开发和应用中,完成整个大模型应用的开发和落地并不是一个简单的事情,

1)企业需在大数据平台中对数据进行离线ETL加工

2)通过外部代码工程提取向量特征存储到向量数据库

3)通过代码工程提前向量数据,结合CPU+GPU集群实现模型训练和算法微调

4)手动融合结构化数据分析、向量检索和全文检索的结果并且实现精排


在第三阶段,企业可以将结构化数据和向量数据融合成一体构建向量数仓,实现实时和自动化的向量特征提取,同时,在仓内提供非结构化数据处理算法、向量相似度计算、智能化AI算法等一站式的AI原生服务,通过分布式计算、GPU硬件加速、和大模型高效联动等实现数据和AI技术的融合。AnalyticDB for PostgreSQL 版向量数仓首先支持多类型数据融合分析,同时在云原生数仓内集成AI服务作为新算子,通过 SQL 函数和HTTP服务提供仓内一站式服务,让非工程开发人员也能轻松驾驭整个开发流程。


(AI原生的向量数仓)


目前在大模型领域,各行各业已经落地了不少好的应用:在互联网行业,通过结合企业领域知识和大模型语义理解能力构建智能客服,提高了用户在线咨询体验和响应速度。在游戏行业,通过构建智能游戏攻略和智能NPC增加了游戏玩家趣味性;在电商行业,以图搜图系统让用户所见即所搜,拍张照片就能快速定位到具体的商品。大模型时代已经来临,已经从作不作的讨论演变成作什么,什么时候作的话题,因此企业的数据架构呈待升级。在企业0-1探索、大模型应用规模化复制、AI服务化三个阶段,如果在现有大数据架构外再独立创建向量数据库会造成数据孤岛。阿里云 AnalyticDB for PostgreSQL 版提出了向量数仓的新思路,在数据仓库的能力基础之上支持向量能力提供多模态数据融合分析服务,同时提供仓内的一站式AI服务,包括文档预处理、文档切片、大模型交互、全文检索、精排以及内置的ML算法,构建普惠的大模型落地新范式,帮助企业抢占大模型时代的高地。


更多资讯请关注

AnalyticDB PostgreSQL 版向量能力介绍

https://www.aliyun.com/activity/database/adbpg_vector

钉钉群

相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
2月前
|
SQL 分布式计算 OLAP
医疗在线OLAP场景下基于Apache Hudi 模式演变的改造与应用
医疗在线OLAP场景下基于Apache Hudi 模式演变的改造与应用
36 2
|
3月前
|
SQL 物联网 数据挖掘
StarRocks:从概念到应用的下一代分析型数据库
在大数据时代,企业对数据处理的需求日益增长,特别是在实时数据分析方面。StarRocks 是一种新兴的分布式关系型数据库,专为快速且高并发的实时分析设计。本文将从 StarRocks 的基本概念入手,逐步深入到其应用层面,探讨这一技术如何在现实世界中发挥作用。
99 1
|
3月前
|
C++
数仓模型建设
数仓模型建设
|
4月前
|
数据挖掘 数据库
离线数仓6.0--- 数据仓库 ER模型-范式理论,维度模型、维度建模理论之事实表、维度建模理论之维度表
离线数仓6.0--- 数据仓库 ER模型-范式理论,维度模型、维度建模理论之事实表、维度建模理论之维度表
129 0
|
4月前
|
SQL OLAP 数据库
OLAP多维语义模型(一)
在使用Python创建OLAP多维数据模型并进行OLAP多维分析的过程中了解什么是OLAP多维语义模型。
39 0
OLAP多维语义模型(一)
|
6月前
|
运维 关系型数据库 OLAP
阿里云百炼 x AnalyticDB向量引擎, 搭积木式轻松开发专属大模型应用
对大模型应用跃跃欲试,但奈何技术栈复杂难以下手?已经进行试水,但缺乏调优手段无法保障召回率和问答准确度?自行搭建大模型、向量检索引擎、服务API等基础组件难以运维?大模型种类繁多,但缺乏行业模型和应用模板?阿里云百炼 x AnalyticDB向量引擎推出一站式企业专属大模型开发和应用平台,像搭积木一样轻松完成企业专属大模型应用的开发,提供应用API,可一键接入企业自己的业务应用对外提供服务。
803 0
|
10月前
|
人工智能 Cloud Native 关系型数据库
阿里云数据库国际峰会首度在印尼召开,AnalyticDB向量引擎支持定制AIGC应用
阿里云瑶池数据库面向海外市场正式升级云原生一站式数据管理与服务平台
|
11月前
|
大数据 数据管理 数据库
数据仓库(3)数仓建模之星型模型与维度建模
维度建模是一种将数据结构化的逻辑设计方法,也是一种广泛应用的数仓建模方式,它将客观世界划分为度量和上下文。度量是常常是以数值形式出现,事实周围有上下文包围着,这种上下文被直观地分成独立的逻辑块,称之为维度。它与实体-关系建模有很大的区别,实体-关系建模是面向应用,遵循第三范式,以消除数据冗余为目标的设计技术。维度建模是面向分析,为了提高查询性能可以增加数据冗余,反规范化的设计技术。
392 1
|
存储 OLAP 调度
数仓模型(模型优化与指标验证)
数仓模型(模型优化与指标验证)
数仓模型(模型优化与指标验证)
|
数据采集 监控 Android开发
网站流量日志分析--数仓设计--本项目中数据仓库的设计(星型模型)|学习笔记
快速学习网站流量日志分析--数仓设计--本项目中数据仓库的设计(星型模型)
360 0
网站流量日志分析--数仓设计--本项目中数据仓库的设计(星型模型)|学习笔记