小鹏汽车选用阿里云PolarDB,开启AI大模型训练新时代

本文涉及的产品
RDS PostgreSQL Serverless,0.5-4RCU 50GB 3个月
推荐场景:
对影评进行热评分析
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
简介: PolarDB-PG云原生分布式数据库不仅提供了无限的扩展能力,还借助丰富的PostgreSQL生态系统,统一了后台技术栈,极大地简化了运维工作。这种强大的组合不仅提高了系统的稳定性和性能,还为小鹏汽车大模型训练的数据管理带来了前所未有的灵活性和效率。

作者:冯遵宝(北侠)

1.小鹏汽车发布端到端智能驾驶

小鹏汽车是中国智能电动汽车领域的领军者,从2014年成立至今一直笃定投入智能化技术研发,始终身处全球智驾第一梯队。在自动驾驶领域,小鹏汽车创造了多个国内第一:第一个量产激光雷达高阶智驾方案、第一个基于高精地图实现城区高阶智驾、第一个去高精地图并让做到智驾“全国都好开”。目前更是业内最早实现“轻雷达、轻地图”高阶智驾全系标配的车企。

image.png

2.小鹏汽车数据管理平台的演进

小鹏汽车的数据管理平台经历了3次大的技术升级,从社区PostgreSQL、到阿里云瑶池旗下的云原生数据库 PolarDB PostgreSQL 版(以下简称PolarDB-PG)一写多读、再到现在PolarDB-PG多写多读的云原生分布式形态

image.png

3.PolarDB-PG 分布式在大模型训练的应用

PolarDB-PG 分布式架构

PolarDB-PG分布式架构是基于PolarDB-PG存算分离一写多读架构演进而来:

  1. ScaleUp扩展:集群中的每个节点都是读写分离的设计,具备独立的弹性能力;
  2. ScaleOut扩展:可扩展1024个节点,提供百PB级别的存储;
  3. 存储按需扩容:无需提前预分配存储,可以根据实际业务的写入量实时的扩展;
  4. 集群的秒级备份:支持秒钟级完成整个集群的数据备份。

image.png

AI场景高弹性的存算分离

如下图所示,传统的分布式数据库中为了高可用,每个节点都有一个或多个备库。

image.png

而PolarDB-PG分布式是从存算分离架构演进而来,每个节点都是基于共享存储的,极大地简化了集群结构,简化了分布式集群的运维。

image.png

如下图,PolarDB-PG的分布式集群中的每个CN/DN节点基于共享存储:

  • 由于底层的存储是PolarStore分布式共享存储使用ParallelRaft复制协议,天然具备了数据高可用;
  • PolarStore支持基于COW的快照,可以在秒级对整个集群做全量备份;
  • 单CN/DN节点在出现瓶颈时,可按需扩容RO节点和存储容量。

image.png

AI场景下的自动冷热数据分层存储

image.png

为了应对大规模数据库存储的成本优化,PolarDB-PG支持将冷数据存储至OSS,存储成本降低90%:

  • SQL全透明;
  • 写入到OSS的数据仍支持修改;
  • PolarStore做为高速持久化缓存;
  • 写性能损耗5% / 读性能下降2~3倍;
  • 支持大块压缩。

AI场景下的向量化查询加速

image.png

为了加速分析场景,PolarDB-PG内置duckdb引擎,实时将行存转成列存数据,可以在RW/RO节点上进行分析查询以实现资源隔离。

AI训练场景下高IO吞吐

为了最大发挥底层PolarStore低延迟大带宽的优势,PolarDB-PG内核中在IO路径上进行了大量的并行IO优化,如:并行的刷脏;批量读/写/扩展;表大小缓存。这里介绍其中一个对超大表的算法,单表可以支撑30TB+,且日随机更新可支撑3亿级别,原理如下:


  • 业务上的一个表,在逻辑上是一个“大文件”,在数据库内核中被切分成了1GB的文件;
  • 优化器/刷脏进程每次操作表都会定位具体的物理文件,以及计算表大小;
  • 社区PG的算法是从前往后依次遍历,当单表很大时,O(N)的复杂度对文件系统造成了极大的压力;
  • PolarDB-PG使用指数探测+回溯的方法,优化到O(logN)复杂度;
  • 可以支持单表30TB+的随机读写(顺序写其实很简单不需要太多的优化)

image.png

同时,为了最大程度发挥底层存储集群的性能通过AIO对IO进行提前预读,可将单点吞吐跑到4GB/s。

image.png

软硬协同设计的高性能分布式存储PolarStore

PolarStore是高度软件与硬件协同设计的全用户态分布式存储,如果结合业务负载特点,充分发挥出RDMA、Nvme、Optane、大内存、多核等硬件的性能,对软件的设计有更大的挑战,PolarStore的核心思想如下:


1. IO全链路用户态和ZeroCopy:应用层的读写IO从计算集群到后端存储集群,以及存储节点之间的ParallelRaft复制,每个IO的流转全部在用户态;网络传输使用RDMA,磁盘读写使用SPDK,IO在各个组件之间流转使用指针,避免了内存拷贝


2. IO全链路并行执行:如上个章节的介绍,数据库内核通过大量的优化尽量使用并行IO,在数据复制时通过自研ParallelRaft优化Raft协议只能顺序复制的瓶颈问题,在IO落盘时通过SPDK绑定NVMe的多队列并与CPU绑定,减少IO在底层的锁竞争;


3. 全栈组件异步化编程:异步化的方法是比较容易理解的,组件之间的通信使用共享存储,在于网络的交互使用RDMA,与磁盘的交互通过SPDK。最大的挑战是组件内部在同一时刻有不同的事件发生,每个事件有相应的上下文、正常流程下的处理机制、以及错误时的处理机制,同时需要考虑软件的可扩展性和各类事件的优先级;


4. 极致的细节设计:在RDMA的网络通信设计时可以结合大数据包、小数据包、超大数据包的收发特点真针对性的优化;内存分配的优化;Polling模式的优化;IO链路监控的优化等。

image.png

4.总结

数据的积累是基础,但更重要的是让数据高效流转并发挥其价值。小鹏汽车通过自研工具链与PolarDB-PG云原生分布式数据库的结合,实现了数据的高效流转,显著提升了数据的价值。


PolarDB-PG云原生分布式数据库不仅提供了无限的扩展能力,还借助丰富的PostgreSQL生态系统,统一了后台技术栈,极大地简化了运维工作。这种强大的组合不仅提高了系统的稳定性和性能,还为小鹏汽车大模型训练的数据管理带来了前所未有的灵活性和效率。


PolarDB-PG云原生分布式数据库的无限扩展和开放的多模生态,将在AI大模型训练中提供更加强大和专业的基础架构支撑。

相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
相关文章
|
15天前
|
人工智能 搜索推荐 自然语言处理
大模型落地的关键:如何用 RAG 打造更智能的 AI 搜索——阿里云 AI 搜索开放平台
本文分享了大模型落地的关键:如何用阿里云 AI 搜索开放平台 打造更智能的 AI 搜索。
121 8
大模型落地的关键:如何用 RAG 打造更智能的 AI 搜索——阿里云 AI 搜索开放平台
|
8天前
|
数据采集 机器学习/深度学习 人工智能
面向 MoE 和推理模型时代:阿里云大数据 AI 产品升级发布
2025 AI 势能大会上,阿里云大数据 AI 平台持续创新,贴合 MoE 架构、Reasoning Model 、 Agentic RAG、MCP 等新趋势,带来计算范式变革。多款大数据及 AI 产品重磅升级,助力企业客户高效地构建 AI 模型并落地 AI 应用。
|
14天前
|
人工智能 自然语言处理 算法
阿里云 AI 搜索开放平台:从算法到业务——AI 搜索驱动企业智能化升级
本文介绍了阿里云 AI 搜索开放平台的技术的特点及其在各行业的应用。
105 3
|
9天前
|
人工智能 自然语言处理 搜索推荐
阿里云 AI 搜索开放平台新功能发布:大模型联网能力上线
阿里云 AI 搜索开放平台此次新增了大模型联网能力,通过集成大语言模型(LLM)和联网搜索技术,为用户提供更智能、更全面的搜索体验。
210 25
|
4天前
|
存储 人工智能 安全
AI 驱动下的阿里云基础设施:技术创新与产品演进
本文整理自阿里云智能集团副总裁、阿里云弹性计算产品线与存储产品线负责人吴结生在“2025 AI势能大会”上的演讲,重点介绍了阿里云在AI基础设施领域的技术创新与产品演进。内容涵盖CIPU架构、盘古存储系统、高性能网络HPN等关键技术,以及第九代英特尔企业实例、ESSD同城冗余云盘等新产品发布。同时,文章详细阐述了灵骏集群的优化措施和可观测能力的提升,展示阿里云如何通过持续创新为AI负载提供强大支持,助力企业在AI时代实现智能化转型。
AI 驱动下的阿里云基础设施:技术创新与产品演进
|
10天前
|
人工智能 开发框架 安全
Serverless MCP 运行时业界首发,函数计算让 AI 应用最后一公里提速
作为云上托管 MCP 服务的最佳运行时,函数计算 FC 为阿里云百炼 MCP 提供弹性调用能力,用户只需提交 npx 命令即可“零改造”将开源 MCP Server 部署到云上,函数计算 FC 会准备好计算资源,并以弹性、可靠的方式运行 MCP 服务,按实际调用时长和次数计费,欢迎你在阿里云百炼和函数计算 FC 上体验 MCP 服务。
141 29
|
26天前
|
人工智能 数据可视化 API
36.7K star!拖拽构建AI流程,这个开源LLM应用框架绝了!
`Flowise` 是一款革命性的低代码LLM应用构建工具,开发者通过可视化拖拽界面,就能快速搭建基于大语言模型的智能工作流。该项目在GitHub上线不到1年就斩获**36.7K星标**,被开发者誉为"AI时代的乐高积木"。
134 8
|
16天前
|
存储 人工智能 监控
一键部署 Dify + MCP Server,高效开发 AI 智能体应用
本文将着重介绍如何通过 SAE 快速搭建 Dify AI 研发平台,依托 Serverless 架构提供全托管、免运维的解决方案,高效开发 AI 智能体应用。
2189 63
|
23天前
|
人工智能 API 计算机视觉
AI-ClothingTryOn:服装店老板连夜下架试衣间!基于Gemini开发的AI试衣应用,一键生成10种穿搭效果
AI-ClothingTryOn是基于Google Gemini技术的虚拟试衣应用,支持人物与服装照片智能合成,可生成多达10种试穿效果版本,并提供自定义提示词优化功能。
163 17
AI-ClothingTryOn:服装店老板连夜下架试衣间!基于Gemini开发的AI试衣应用,一键生成10种穿搭效果
|
27天前
|
机器学习/深度学习 人工智能 自然语言处理
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展
近年来,多模态表示学习在人工智能领域取得显著进展,CLIP和SigLIP成为里程碑式模型。CLIP由OpenAI提出,通过对比学习对齐图像与文本嵌入空间,具备强大零样本学习能力;SigLIP由Google开发,采用sigmoid损失函数优化训练效率与可扩展性。两者推动了多模态大型语言模型(MLLMs)的发展,如LLaVA、BLIP-2和Flamingo等,实现了视觉问答、图像描述生成等复杂任务。这些模型不仅拓展了理论边界,还为医疗、教育等领域释放技术潜力,标志着多模态智能系统的重要进步。
144 13
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展

相关产品

  • 云原生数据库 PolarDB
  • 下一篇
    oss创建bucket