阿里云携手 MiniMax 构建云原生数仓最佳实践:大模型时代的 Data + AI 数据处理平台

简介: MiniMax 是全球领先的通用人工智能公司,致力于推动AGI发展。依托自研多模态大模型,服务超200国1.57亿用户及5万企业客户。携手阿里云构建云原生数仓与Data+AI平台,实现数据高效处理、成本大幅降低,支撑全球业务高速迭代与AI创新落地。

01MiniMax 简介

MiniMax 是全球领先的通用人工智能科技公司。自 2022 年初成立以来,MiniMax 以“与所有人共创智能”为使命,致力于推动人工智能科技前沿发展,实现通用人工智能(AGI)。


MiniMax 自主研发了一系列多模态通用大模型,包括 MiniMax M1、Hailuo 02、Speech 2.5 和 Music 01 等,具备超长上下文处理能力,能够理解、生成并整合包括文本、音频、图像、视频和音乐在内的多种模态。自研模型的飞速进展,有力支撑了 MiniMax 的全球业务拓展。迄今,MiniMax 的自研多模态模型及 AI 原生应用已累计为来自超过 200 个国家及地区的逾 1.57 亿名个人用户,以及来自超过 90 个国家及地区的 50,000 余名企业客户以及开发者提供服务。


02业务大数据实践:数据驱动 MiniMax 业务高效迭


业务痛点


自 2024 年起,MiniMax 的海螺 AI、MiniMax Audio 和星野等业务在国内外迎来快速增长,用户数据量呈现爆发式增长,快速攀升至数 10PB 级别,给数据平台的建设带来了诸多技术挑战:

(1)异构架构的效率瓶颈

  • 技术栈碎片化:前期 MiniMax 在国内和海外引入了不同云厂商,部署独立数据平台,需要开发团队同时维护多套不同引擎的开发规范
  • 开发效率低:基于开源 Dolphin Scheduler 二次开发自建大数据治理工具,功能迭代和维护成本高,无法高效满足快速发展的业务需求
  • 运维成本高:双系统并行导致权限治理、资源监控、故障排查等运维工作需要跨平台执行,管理成本线性增长

(2)资源成本与利用率失衡

  • TCO 高昂:部分云服务按量付费模式导致数据扫描、数据传输、计算节点运行时间等成本难以预测和控制
  • 资源利用率低:部分云服务成熟度不足,在大规模实时数仓等复杂场景下优化效果有限
  • 资源优化瓶颈:开源大数据组件的任务优化高度依赖人工经验,调优工作耗费大量人力成本


阿里云原生数仓解决方案


阿里云协助 MiniMax 构建了全球一体化云原生数仓技术架构,该架构以阿里云数据开发治理平台 Dataworks 作为一站式开发治理中枢,实现了异构数据源接入、流批计算融合、实时离线数据协同及数据生命周期全链路管理。


(1)数据源层

聚合多模异构存储,覆盖 OLTP、非结构化数据及实时流数据


(2)计算层

  • 数据治理:DataWorks 实时数据集成提供异构数据源到数仓的一站式同步能力,具备完善的元数据管理、质量监控和权限管控功能
  • 实时计算:基于阿里云实时计算 Flink 版处理 Kafka 流式数据,支撑低延时实时处理
  • 实时数仓:Hologres 支撑海量数据实时写入、更新与分析,提供亚秒级响应能力
  • 离线数仓:MaxCompute 承担批量数据加工处理,支撑复杂离线分析场景
  • 数据检索:Elasticsearch 承载 Flink 处理后的近实时数据,满足全文检索和即席查询需求


(3)存储层

对象存储 OSS 作为冷数据存储层,无缝对接 MaxCompute,实现数据智能冷热分层,优化成本与性能平衡。


640 (13).png

业务价值


基于阿里云云原生数仓解决方案,MiniMax 构建了覆盖全球业务的一体化数仓技术栈依托高性能、低延时与 Serverless 快速弹性能力,为经营分析、用户增长等关键业务场景提供了高效稳定的技术支撑


(1)数据入仓加速,决策效率提升

通过 DataWorks 可视化 ETL 实现数据源到 Hologres 的实时全量与增量同步,利用 MaxCompute 和 Hologres 的跨引擎数据联邦能力,构建实时存储与离线计算解耦架构,关键数据入仓时间提前约 1 小时,显著提升业务决策时效性。


(2)架构统一,运维效率提升

全球统一技术栈基于阿里云云原生数仓的 Serverless 存算分离架构,大幅降低运维复杂度,提升团队交付效率。


(3)稳定支撑大规模数据处理

基于 DataWorks、 MaxCompute、Hologres 等构建的一站式大数据平台,实现开发、调度、运维与治理全链路统一管理,当前数据总量超数十 PB,日均处理量达数百 TB。


(4)资源利用率优化,成本显著降低

通过存算分离、算子优化等技术手段,计算资源用量降低 50%,后续通过进一步优化计算资源利用率,计算资源用量整体降低 75%;通过数据生命周期管理策略,存储成本降低 40%,实现性能与成本的最优平衡。

03基于阿里云 MaxFrame 构建云原生数据流水线:赋能AI工作流加速


在大模型技术迅猛发展的背景下,数据与人工智能的深度融合已成为企业构建核心竞争力的关键要素。大模型训练持续驱动大规模数据处理技术升级迭代,对计算弹性、预处理算子性能及统一数据治理体系提出了更高要求。基于 MiniMax 在阿里云云原生数仓解决方案上的深度业务实践,双方正持续探索更先进的大规模数据处理与 AI 融合解决方案,致力于通过阿里云 MaxFrame 等新一代计算框架,进一步提升数据处理效能,加速 AI 创新落地。


业务痛点


(1)资源弹性瓶颈

模型训练节奏快,常需临时调用大规模弹性资源,对 PB 级数据进行短时高效预处理,并在任务完成后快速释放资源。传统架构难以兼顾资源弹性、处理时效与成本控制。


(2)预处理算子性能不足

数据预处理过程中常出现文件大小限制、内存溢出(OOM)、全量 MinHash 去重任务无法完成等问题,导致作业成功率低、稳定性差,严重影响整体流程效率。


(3)缺乏统一任务管理与可视化支持

原有流程依赖 Python 程序完成开发、调试与生产任务,缺少可视化任务开发、管理、调度和运维能力,多参数迭代效果评估困难,开发效率低下。


(4)开发与运维人力投入受限

自研数据预处理(如 Common Crawl 数据集处理等)需投入大量人力进行开发与维护,团队难以专注于核心 AI 业务创新。


解决方案


MiniMax 基于阿里云 MaxCompute 构建了全托管、一站式 Data + AI 数据处理平台,并通过 MaxFrame 分布式计算框架实现了对多类数据(结构化与非结构化、多模态等)的统一管理与弹性伸缩的大规模预处理能力:


640 (14).png

(1)阿里云自研分布式计算框架,统一 Python 开发生态,同时无缝对接 MaxCompute 计算资源、数据;

(2)提供兼容开源的分布式算子,如 Pandas、Minhash 等,大大提高数据处理效率;

(3)支持分布式数据处理、离线推理等场景,构建 Data + AI 开发整体 Pipeline;

(4)提供开箱即用的 Python 环境,支持用户自定义镜像,提供更便捷的开发体验。

640 (15).png


业务价值


通过引入 MaxFrame 分布式计算框架,MiniMax 在资源利用率、处理效率与平台架构方面实现显著提升:


(1)资源利用率显著提高

  • 借助 MaxCompute“包月固定资源+按需弹性资源”组合模式,MiniMax 可根据业务周期灵活调配资源,高峰时段支持数十万核计算资源的快速弹性扩展;
  • 实现计算资源利用率提升 30%,在资源效率与成本间取得最优平衡;
  • 通过 MaxCompute 原生存储冷热分层能力,对低热度大表自动实施低频/长期存储策略,历史数据存储成本降低 40%


(2)分布式计算框架带来性能突破

  • 基于 MaxFrame 构建的分布式计算架构替代原有开源方案,其内置高性能 Minhash 等优化算子,缩短大模型数据预处理任务耗时;
  • 加载 FastText 模型完成文本分类任务,利用 MaxCompute 弹性 CPU 资源执行批量推理,显著提升处理效率。


(3)数据平台完成架构升级,运维效率提升

  • 基于 MaxCompute MaxFrame 构建国内外一体化 Data+AI 数据处理平台,依托全托管云原生 PaaS 能力,显著降低自研与维护成本,运维资源投入减少 50%
  • 实现开发、调度、运维闭环统一管理,支持多模态数据与复杂 AI 工作流的高效协同。

04总结与展望


MiniMax 与阿里云开展深度技术协同,在大模型时代成功构建了以云原生数据仓库为核心的高效、低成本 Data+AI 一体化数据处理平台,有效应对业务高速迭代与弹性扩展挑战。该方案不仅实现了数据处理效能的显著提升和运营成本的大幅优化,也为大模型驱动下的 AI 应用研发提供了可广泛复用的工程范式。未来,双方将持续深化在大模型数据预处理、多模态数据处理等前沿场景的联合创新,共同推动 Data+AI 技术在全球范围内的规模化产业应用。

相关文章
|
1月前
|
机器学习/深度学习 人工智能 算法
PAIFuser:面向图像视频的训练推理加速框架
阿里云PAI推出PAIFuser框架,专为视频生成模型设计,通过模型并行、量化优化、稀疏运算等技术,显著提升DiT架构的训练与推理效率。实测显示,推理耗时最高降低82.96%,训练时间减少28.13%,助力高效低成本AI视频生成。
275 22
|
1月前
|
人工智能 自然语言处理 搜索推荐
阿里云 AI 搜索 DeepSearch 技术实践
阿里云OpenSearch LLM版推出DeepSearch技术,实现从RAG 1.0到RAG 2.0的升级。基于多智能体协同架构,支持复杂推理、多源检索与深度搜索,显著提升问答准确率,助力企业智能化升级。
586 23
|
1月前
|
SQL 分布式计算 大数据
【跨国数仓迁移最佳实践8】MaxCompute Streaming Insert:大数据数据流写业务迁移的实践与突破
本系列文章将围绕东南亚头部科技集团的真实迁移历程展开,逐步拆解 BigQuery 迁移至 MaxCompute 过程中的关键挑战与技术创新。本篇为第八篇,MaxCompute Streaming Insert:大数据数据流写业务迁移的实践与突破。 注:客户背景为东南亚头部科技集团,文中用 GoTerra 表示。
281 38
|
1月前
|
人工智能 运维 Serverless
ModelScope 模型一键上线?FunModel 帮你 5 分钟从零到生产
FunModel 依托 Serverless + GPU,天然提供了简单,轻量,0 门槛的模型集成方案,给个人开发者良好的玩转模型的体验,也让企业级开发者快速高效的部署、运维和迭代模型。在阿里云 FunModel 平台,开发者可以做到:模型的快速部署上线:从原来的以周为单位的模型接入周期降低到 5 分钟,0 开发,无排期;一键扩缩容,让运维不再是负担:多种扩缩容策略高度适配业务流量,实现“无痛运维”。
|
1月前
|
SQL JSON 分布式计算
【跨国数仓迁移最佳实践6】MaxCompute SQL语法及函数功能增强,10万条SQL转写顺利迁移
本系列文章将围绕东南亚头部科技集团的真实迁移历程展开,逐步拆解 BigQuery 迁移至 MaxCompute 过程中的关键挑战与技术创新。本篇为第六篇,MaxCompute SQL语法及函数功能增强。 注:客户背景为东南亚头部科技集团,文中用 GoTerra 表示。
281 20
|
6月前
|
人工智能 自然语言处理 关系型数据库
如何构建和调优高可用性的Agent?浅谈阿里云服务领域Agent构建的方法论
本文深入探讨了Agent智能体的概念、技术挑战及实际落地方法,涵盖了从狭义到广义的Agent定义、构建过程中的四大挑战(效果不稳定、规划权衡、领域知识集成、响应速度),并提出了相应的解决方案。文章结合阿里云服务领域的实践经验,总结了Agent构建与调优的完整路径,为推动Agent在To B领域的应用提供了有价值的参考。
2923 22
如何构建和调优高可用性的Agent?浅谈阿里云服务领域Agent构建的方法论
|
2月前
|
人工智能 自然语言处理 前端开发
最佳实践2:用通义灵码以自然语言交互实现 AI 高考志愿填报系统
本项目旨在通过自然语言交互,结合通义千问AI模型,构建一个智能高考志愿填报系统。利用Vue3与Python,实现信息采集、AI推荐、专业详情展示及数据存储功能,支持响应式设计与Supabase数据库集成,助力考生精准择校选专业。(239字)
345 12
|
2月前
|
存储 Cloud Native 关系型数据库
PolarDB-PG IMCI实战解析:深度融合DuckDB,复杂查询性能最高百倍级提升
阿里云PolarDB PostgreSQL版创新融合DuckDB向量化引擎,推出IMCI列存索引,实现HTAP一体化。支持实时交易与复杂分析并行,查询性能提升60-100倍,兼容PG生态,秒级数据同步,助力企业高效挖掘数据价值。
380 0
|
1月前
|
人工智能 运维 Serverless
Elasticsearch 8.17 智能检索升级全攻略
Elasticsearch 作为一款强大的搜索与分析引擎,支持传统检索、AI 搜索(如语义检索、RAG、多模态检索)及智能运维场景,结合阿里云AI搜索开放平台提供一站式解决方案。 本文介绍了最新发布的 Elasticsearch 8.17 检索增强型应用在性能和功能上的特性。同时本文介绍了利用容量规划工具优化资源分配,特别适合 AI 应用和高弹性场景,为用户提供高性能、低成本、易扩展的搜索服务。
220 8