1、背景
2023年自ChatGPT发布以来大语言模型让人们看到了生成式AI能实现和人类高度相仿的语言表达能力,整个业界自顶向下都相信大模型可以改变人们的工作方式。AI已经走进人类的工作和生活,生成式AI成为企业无法忽视的下一代技术密码。正如在每一次技术变更中提前布局的企业能够有更好的先发优势,因此各行各业都在探索大模型应用的落地。但是随着更深入地探索,大模型如何与企业现有数据架构以及所在的垂直领域深度融合,如何保护数据安全和企业知识壁垒成为大家关注的热点。
(大模型发展历程)
2、向量数据库井喷式发展
由于大模型更新频率低且不擅长垂直领域知识,向量数据库恰好可以和大模型互补,通过Retrieval Plugin为大模型和企业私有数据构建了一座桥梁,成为数据面向大模型的切入口。自今年4月份以来,向量数据库市场非常活跃融资也非常火爆。基于OpenAI、LangChain等主流大模型社区的架构,企业构建大模型应用分为两个步骤:一是对非结构化数据进行切块,通过Embedding提取向量特征存入向量数据库中构建企业专属知识库;二是通过Retrieval Plugin让大模型和向量数据库进行交互,由大模型进行问题推理,从向量数据库存储的专属知识中检索出和问题最相近的答案返回给提问者。这种解决方案快速带动了市场规模,从纯搜索场景拓展到更多的想像空间,未来两年预期市场规模会有井喷式的发展。
(向量数据库提升大模型服务能力)
3、大模型时代下数据架构瓶颈
在国家数字化转型战略指导下,国内头部企业已基本完成数据架构升级,构建大数据平台、分析型数据仓库、实时数仓等。在大模型时代下,过去几年刚升级完成的数据架构如何满足大模型的要求呢?如采用两套架构,即一套面向结构化数据的分析型平台架构,另一套面向非结构化/半结构化的向量数据库架构则又会树立新的数据孤岛。此外,在大模型应用中不仅需要向量数据,同时也需要结构化数据。因此,数据架构智能化升级需要结合长远考虑,既要快速响应大模型应用探索的需要,也要满足3~5年智能化应用遍地开花后对数据实时性、多样性、维护性、健壮性等要求,以及和新一代硬件的结合;正如流批分离往流批一体等架构的演进,最终企业还是要综合考虑资源成本、使用成本和运维成本。然而在上述背景与机遇下,当下的大数据架构仍有很多能力瓶颈:其一是目前大数据架构以处理结构化数据为主,非结构化数据更多是仅仅存储下来但呈待挖掘价值。在大语言模型发布后处理海量的文档、语音、图片已成为常态,然而当下的大数据架构并不擅长非结构化数据分析,无法和CPU+GPU异构架构集成,也无法和大模型的能力集成。
(大模型时代下大数据架构能力新要求)
4、向量数仓助力企业数据架构升级
市面上的向量数据库为单纯向量存储和检索而设计,无法支撑多模数据融合分析。因此,阿里云原生数据仓库 AnalyticDB PostgreSQL 版在国内云厂商中首次提出向量数据仓库理念,它在PB级数据规模下具备极致的分析性能,帮助为企业构建一站式分析平台。同时面向大模型应用如 ChatBot、以图搜图、文生图等智能化应用,AnalyticDB PostgreSQL 版全自研向量引擎,支持间信息引擎Ganos,为企业提供了一站式的分析服务,通过一条SQL即可完成结构化数据分析、向量检索、地理信息分析、全文检索的融合分析,实现多路结果召回的全场景覆盖。 通过和结构化数据结合,大模型应用更可控和准确,结合行/列安全管控可以更好地保障数据安全。
(阿里云 AnalyticDB PostgreSQL 版架构)
5、大模型落地和数据架构升级三部曲
结合各行各业大模型应用实践经验,我们推荐企业分三个阶段实现大模型应用探索和最终全面落地。阿里云 AnalyticDB PostgreSQL 版帮助企业实现大数据架构的智能化升级,满足不同阶段下大模型的数据需求:
(大数据架构智能化升级三部曲)
5.1 阶段1: 0-1冷启动大模型项目
企业快速入局大模型领域,找准合适场景切入点,验证大语言模型是否能够满足企业的场景需求,目前比较成熟的有企业专属知识库、智能客服、智能营销等主流场景。在第一阶段,我们希望用户以最低的成本、最快的速度完成验证,因此 AnalyticDB PostgreSQL 版提供了开箱即用构建大模型+向量数据服务,企业用户可以专注于大模型应用层面,而不是花大量的精力在基础架构升级上。可以快速实现资源拉起,在客户专属资源中实现大模型和向量数据的自动化部署,支持 LangChain 框架,用户可以快速构建专属的企业知识库和专属 ChatBot 完成场景验证,实现大模型应用0-1冷启动。
(AnalyticDB PostgreSQL 版一键拉起大模型和向量服务)
5.2 阶段2: 大模型应用规模化复制
在第二阶段,企业可以将大模型应用领域逐步拓展到更多场景,规模化实现大模型应用落地。在这个阶段企业需要考虑大模型资源多租户化管理,不同场景下选择不同类型的大模型,实现不同部门、不同等级的数据安全管控,大模型应用开发和调优流程化等一系列问题。AnalyticDB PostgreSQL 版和阿里云 PAI-EAS 合作实现GPU集群多组户管理,支持多业务场景的资源高效利用和多模型选择;支持公共云或混合云部署,企业可满足自身合规要求;通过资源部署形态、大模型多租户管理、行/列权限管理、内容过滤等一系列服务保障数据安全。提供Serverless管理模式实现资源按需利用,帮助企业在成本最优的情况下实现大模型应用的落地。
(规模化复制下的数据架构)
5.3 阶段3: AI原生的向量数仓,实现大模型普惠
过往在大模型应用全流程开发和应用中,完成整个大模型应用的开发和落地并不是一个简单的事情,
1)企业需在大数据平台中对数据进行离线ETL加工
2)通过外部代码工程提取向量特征存储到向量数据库
3)通过代码工程提前向量数据,结合CPU+GPU集群实现模型训练和算法微调
4)手动融合结构化数据分析、向量检索和全文检索的结果并且实现精排
在第三阶段,企业可以将结构化数据和向量数据融合成一体构建向量数仓,实现实时和自动化的向量特征提取,同时,在仓内提供非结构化数据处理算法、向量相似度计算、智能化AI算法等一站式的AI原生服务,通过分布式计算、GPU硬件加速、和大模型高效联动等实现数据和AI技术的融合。AnalyticDB for PostgreSQL 版向量数仓首先支持多类型数据融合分析,同时在云原生数仓内集成AI服务作为新算子,通过 SQL 函数和HTTP服务提供仓内一站式服务,让非工程开发人员也能轻松驾驭整个开发流程。
(AI原生的向量数仓)
目前在大模型领域,各行各业已经落地了不少好的应用:在互联网行业,通过结合企业领域知识和大模型语义理解能力构建智能客服,提高了用户在线咨询体验和响应速度。在游戏行业,通过构建智能游戏攻略和智能NPC增加了游戏玩家趣味性;在电商行业,以图搜图系统让用户所见即所搜,拍张照片就能快速定位到具体的商品。大模型时代已经来临,已经从作不作的讨论演变成作什么,什么时候作的话题,因此企业的数据架构呈待升级。在企业0-1探索、大模型应用规模化复制、AI服务化三个阶段,如果在现有大数据架构外再独立创建向量数据库会造成数据孤岛。阿里云 AnalyticDB for PostgreSQL 版提出了向量数仓的新思路,在数据仓库的能力基础之上支持向量能力提供多模态数据融合分析服务,同时提供仓内的一站式AI服务,包括文档预处理、文档切片、大模型交互、全文检索、精排以及内置的ML算法,构建普惠的大模型落地新范式,帮助企业抢占大模型时代的高地。
更多资讯请关注
AnalyticDB PostgreSQL 版向量能力介绍
https://www.aliyun.com/activity/database/adbpg_vector