向量数仓助力大模型应用落地三部曲

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
RDS PostgreSQL Serverless,0.5-4RCU 50GB 3个月
推荐场景:
对影评进行热评分析
简介: 在第14届中国数据库技术大会(DTCC 2023)上,阿里云原生数据仓库 AnalyticDB PostgreSQL 版提出了向量数仓能力和解决方案,助力企业在大模型时代实现数据架构升级。根据真实用户落地经验,总结出企业落地大模型应用的三个阶段。下文将详述大模型应用落地不同阶段数据架构的设计与思考。

1、背景

2023年自ChatGPT发布以来大语言模型让人们看到了生成式AI能实现和人类高度相仿的语言表达能力,整个业界自顶向下都相信大模型可以改变人们的工作方式。AI已经走进人类的工作和生活,生成式AI成为企业无法忽视的下一代技术密码。正如在每一次技术变更中提前布局的企业能够有更好的先发优势,因此各行各业都在探索大模型应用的落地。但是随着更深入地探索,大模型如何与企业现有数据架构以及所在的垂直领域深度融合,如何保护数据安全和企业知识壁垒成为大家关注的热点。



(大模型发展历程)


2、向量数据库井喷式发展

由于大模型更新频率低且不擅长垂直领域知识,向量数据库恰好可以和大模型互补,通过Retrieval Plugin为大模型和企业私有数据构建了一座桥梁,成为数据面向大模型的切入口。自今年4月份以来,向量数据库市场非常活跃融资也非常火爆。基于OpenAI、LangChain等主流大模型社区的架构,企业构建大模型应用分为两个步骤:一是对非结构化数据进行切块,通过Embedding提取向量特征存入向量数据库中构建企业专属知识库;二是通过Retrieval Plugin让大模型和向量数据库进行交互,由大模型进行问题推理,从向量数据库存储的专属知识中检索出和问题最相近的答案返回给提问者。这种解决方案快速带动了市场规模,从纯搜索场景拓展到更多的想像空间,未来两年预期市场规模会有井喷式的发展。



(向量数据库提升大模型服务能力)


3、大模型时代下数据架构瓶颈

在国家数字化转型战略指导下,国内头部企业已基本完成数据架构升级,构建大数据平台、分析型数据仓库、实时数仓等。在大模型时代下,过去几年刚升级完成的数据架构如何满足大模型的要求呢?如采用两套架构,即一套面向结构化数据的分析型平台架构,另一套面向非结构化/半结构化的向量数据库架构则又会树立新的数据孤岛。此外,在大模型应用中不仅需要向量数据,同时也需要结构化数据。因此,数据架构智能化升级需要结合长远考虑,既要快速响应大模型应用探索的需要,也要满足3~5年智能化应用遍地开花后对数据实时性、多样性、维护性、健壮性等要求,以及和新一代硬件的结合;正如流批分离往流批一体等架构的演进,最终企业还是要综合考虑资源成本、使用成本和运维成本。然而在上述背景与机遇下,当下的大数据架构仍有很多能力瓶颈:其一是目前大数据架构以处理结构化数据为主,非结构化数据更多是仅仅存储下来但呈待挖掘价值。在大语言模型发布后处理海量的文档、语音、图片已成为常态,然而当下的大数据架构并不擅长非结构化数据分析,无法和CPU+GPU异构架构集成,也无法和大模型的能力集成。



(大模型时代下大数据架构能力新要求)


4、向量数仓助力企业数据架构升级

市面上的向量数据库为单纯向量存储和检索而设计,无法支撑多模数据融合分析。因此,阿里云原生数据仓库 AnalyticDB PostgreSQL 版在国内云厂商中首次提出向量数据仓库理念,它在PB级数据规模下具备极致的分析性能,帮助为企业构建一站式分析平台。同时面向大模型应用如 ChatBot、以图搜图、文生图等智能化应用,AnalyticDB PostgreSQL 版全自研向量引擎,支持间信息引擎Ganos,为企业提供了一站式的分析服务,通过一条SQL即可完成结构化数据分析、向量检索、地理信息分析、全文检索的融合分析,实现多路结果召回的全场景覆盖。 通过和结构化数据结合,大模型应用更可控和准确,结合行/列安全管控可以更好地保障数据安全。


(阿里云 AnalyticDB PostgreSQL 版架构)


5、大模型落地和数据架构升级三部曲

结合各行各业大模型应用实践经验,我们推荐企业分三个阶段实现大模型应用探索和最终全面落地。阿里云 AnalyticDB PostgreSQL 版帮助企业实现大数据架构的智能化升级,满足不同阶段下大模型的数据需求


大数据架构智能化升级三部曲)

5.1 阶段1: 0-1冷启动大模型项目

企业快速入局大模型领域,找准合适场景切入点,验证大语言模型是否能够满足企业的场景需求,目前比较成熟的有企业专属知识库、智能客服、智能营销等主流场景。在第一阶段,我们希望用户以最低的成本、最快的速度完成验证,因此 AnalyticDB PostgreSQL 版提供了开箱即用构建大模型+向量数据服务,企业用户可以专注于大模型应用层面,而不是花大量的精力在基础架构升级上。可以快速实现资源拉起,在客户专属资源中实现大模型和向量数据的自动化部署,支持 LangChain 框架,用户可以快速构建专属的企业知识库和专属 ChatBot 完成场景验证,实现大模型应用0-1冷启动。

(一键启动AIGC应用:https://computenest.console.aliyun.com/user/cn-hangzhou/serviceInstanceCreate?spm=a2c6h.12873639.article-detail.176.48f86201OEhsdk&ServiceId=service-ddfecdd9b626465f85b6

(AnalyticDB PostgreSQL 版一键拉起大模型和向量服务)


5.2 阶段2: 大模型应用规模化复制

在第二阶段,企业可以将大模型应用领域逐步拓展到更多场景,规模化实现大模型应用落地。在这个阶段企业需要考虑大模型资源多租户化管理,不同场景下选择不同类型的大模型,实现不同部门、不同等级的数据安全管控,大模型应用开发和调优流程化等一系列问题。AnalyticDB PostgreSQL 版和阿里云 PAI-EAS 合作实现GPU集群多组户管理,支持多业务场景的资源高效利用和多模型选择;支持公共云或混合云部署,企业可满足自身合规要求;通过资源部署形态、大模型多租户管理、行/列权限管理、内容过滤等一系列服务保障数据安全。提供Serverless管理模式实现资源按需利用,帮助企业在成本最优的情况下实现大模型应用的落地。

(规模化复制下的数据架构)


5.3 阶段3: AI原生的向量数仓,实现大模型普惠

过往在大模型应用全流程开发和应用中,完成整个大模型应用的开发和落地并不是一个简单的事情,

1)企业需在大数据平台中对数据进行离线ETL加工

2)通过外部代码工程提取向量特征存储到向量数据库

3)通过代码工程提前向量数据,结合CPU+GPU集群实现模型训练和算法微调

4)手动融合结构化数据分析、向量检索和全文检索的结果并且实现精排


在第三阶段,企业可以将结构化数据和向量数据融合成一体构建向量数仓,实现实时和自动化的向量特征提取,同时,在仓内提供非结构化数据处理算法、向量相似度计算、智能化AI算法等一站式的AI原生服务,通过分布式计算、GPU硬件加速、和大模型高效联动等实现数据和AI技术的融合。AnalyticDB for PostgreSQL 版向量数仓首先支持多类型数据融合分析,同时在云原生数仓内集成AI服务作为新算子,通过 SQL 函数和HTTP服务提供仓内一站式服务,让非工程开发人员也能轻松驾驭整个开发流程。


(AI原生的向量数仓)


目前在大模型领域,各行各业已经落地了不少好的应用:在互联网行业,通过结合企业领域知识和大模型语义理解能力构建智能客服,提高了用户在线咨询体验和响应速度。在游戏行业,通过构建智能游戏攻略和智能NPC增加了游戏玩家趣味性;在电商行业,以图搜图系统让用户所见即所搜,拍张照片就能快速定位到具体的商品。大模型时代已经来临,已经从作不作的讨论演变成作什么,什么时候作的话题,因此企业的数据架构呈待升级。在企业0-1探索、大模型应用规模化复制、AI服务化三个阶段,如果在现有大数据架构外再独立创建向量数据库会造成数据孤岛。阿里云 AnalyticDB for PostgreSQL 版提出了向量数仓的新思路,在数据仓库的能力基础之上支持向量能力提供多模态数据融合分析服务,同时提供仓内的一站式AI服务,包括文档预处理、文档切片、大模型交互、全文检索、精排以及内置的ML算法,构建普惠的大模型落地新范式,帮助企业抢占大模型时代的高地。


更多资讯请关注

AnalyticDB PostgreSQL 版向量能力介绍

https://www.aliyun.com/activity/database/adbpg_vector

钉钉群

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
11月前
|
人工智能 分布式计算 大数据
FFA 2023 「流式湖仓」专场:从技术原理到应用实践打造流式湖仓新架构
今年 Flink Forward Asia(以下简称 FFA ) 重新回归线下,将于 12 月 8 - 9 日在北京望京凯悦酒店举办。Flink Forward Asia 2023 大会议程已正式上线!
979 0
FFA 2023 「流式湖仓」专场:从技术原理到应用实践打造流式湖仓新架构
|
3月前
|
存储 运维 搜索推荐
实时数仓Hologres发展问题之Hologres在无人车送货场景中的应用如何解决
实时数仓Hologres发展问题之Hologres在无人车送货场景中的应用如何解决
42 2
|
20天前
|
SQL 分布式计算 数据挖掘
加速数据分析:阿里云Hologres在实时数仓中的应用实践
【10月更文挑战第9天】随着大数据技术的发展,企业对于数据处理和分析的需求日益增长。特别是在面对海量数据时,如何快速、准确地进行数据查询和分析成为了关键问题。阿里云Hologres作为一个高性能的实时交互式分析服务,为解决这些问题提供了强大的支持。本文将深入探讨Hologres的特点及其在实时数仓中的应用,并通过具体的代码示例来展示其实际应用。
110 0
|
3月前
|
SQL 监控 大数据
Serverless 应用的监控与调试问题之Flink流式数仓对于工商银行的数据链路要如何简化
Serverless 应用的监控与调试问题之Flink流式数仓对于工商银行的数据链路要如何简化
|
3月前
|
消息中间件 监控 关系型数据库
Serverless 应用的监控与调试问题之实时离线数仓一体化常用的解决方案有什么问题
Serverless 应用的监控与调试问题之实时离线数仓一体化常用的解决方案有什么问题
|
3月前
|
监控 安全 数据中心
实时数仓Hologres容器技术问题之应用底层技术如何解决
容器技术如Docker基于Linux的namespace与cgroup技术,提供进程隔离与资源限制。这些技术早已有之,但未广泛普及。Docker创新性地提供了可分发的容器镜像格式,简化部署流程,从而促进了容器技术的大规模采用。
45 0
|
4月前
|
人工智能 关系型数据库 OLAP
通义大模型百炼融合AnalyticDB, 阿里云专家手把手带你10分钟创建网站AI助手
本次陪跑班将从一个企业开发者的角度出发,手把手带你用AnalyticDB for PostgreSQL的高效向量引擎与阿里云自主研发的通义大模型服务平台百炼,只需10分钟即可为您的网站添加一个AI助手。加入钉群观看直播课程,更有精彩好礼等你拿!
|
5月前
|
存储 数据采集 数据挖掘
“湖仓一体架构及其应用”写作框架,系统架构设计师
随着5G、大数据、人工智能、物联网等技术的不断成熟,各行各业的业务场景日益复杂,企业数据呈现出大规模、多样性的特点,特别是非结构化数据呈现出爆发式增长趋势。在这一背景下,企业数据管理不再局限于传统的结构化OLTP(On-Line Transaction Processing)数据交易过程,而是提出了多样化、异质性数据的实时处理要求。传统的数据湖(Data Lake)在事务一致性及实时处理方面有所欠缺,而数据仓库(Data Warehouse)也无法应对高并发、多数据类型的处理。因此,支持事务一致性、提供高并发实时处理及分析能力的湖仓一体(Lake House)架构应运而生。湖仓一体架构在成本、
122 2
|
4月前
|
运维 数据挖掘 Serverless
深度解析阿里云EMR Serverless StarRocks在OLAP数据分析中的应用场景
阿里云EMR Serverless StarRocks作为一款高性能、全场景覆盖、全托管免运维的OLAP分析引擎,在企业数据分析领域展现出了强大的竞争力和广泛的应用前景。通过其卓越的技术特点、丰富的应用场景以及完善的生态体系支持,EMR Serverless StarRocks正逐步成为企业数字化转型和智能化升级的重要推手。未来随着技术的不断进步和应用场景的不断拓展我们有理由相信EMR Serverless StarRocks将在更多领域发挥重要作用为企业创造更大的价值。
|
5月前
|
存储 SQL BI
深入解析实时数仓Doris:介绍、架构剖析、应用场景与数据划分细节
深入解析实时数仓Doris:介绍、架构剖析、应用场景与数据划分细节