MiniMax GenAI 可观测性分析 :基于阿里云 SelectDB 构建 PB 级别日志系统

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 基于阿里云SelectDB,MiniMax构建了覆盖国内及海外业务的日志可观测中台,总体数据规模超过数PB,日均新增日志写入量达数百TB。系统在P95分位查询场景下的响应时间小于3秒,峰值时刻实现了超过10GB/s的读写吞吐。通过存算分离、高压缩比算法和单副本热缓存等技术手段,MiniMax在优化性能的同时显著降低了建设成本,计算资源用量降低40%,热数据存储用量降低50%,为未来业务的高速发展和技术演进奠定了坚实基础。

“阿里云SelectDB作为MiniMax日志存储服务的核心支撑,为在线和离线业务提供了高效、稳定的查询与聚合分析能力。其支持实时物化视图、租户资源隔离、冷热分离等企业级特性,不仅有效解决了日志场景下PB级别数据查询的性能瓶颈,还通过智能化的资源调度与存储优化,实现了成本与效率的最佳平衡,为业务的高效运转提供了坚实保障。”

——MiniMax可观测架构师 香克斯

可观测日志系统的探索与挑战

近年来,MiniMax在多模态与文本模型领域持续发力,凭借其技术突破和应用创新能力,迅速成为全球人工智能领域的焦点。25年1月,MiniMax发布了多项重磅成果:支持主体参考功能的视频新模型S2V-01、基于大规模线性注意力机制的开源模型MiniMax-01系列,以及支持17种语言音频合成的T2A-01系列语音模型。作为一家成立仅三年但估值已突破数十亿美元的初创企业,MiniMax已然跻身人工智能领域最具潜力的独角兽企业之列。

为了深入洞察模型训练迭代和 AI应用的运行状态,精准定位潜在问题以持续优化模型和业务系统的性能,可观测系统的建设成为MiniMax底层基础设施建设中不可或缺的关键环节。然而,随着业务规模的快速扩张,海量日志数据的处理对系统的性能和成本提出了严峻挑战。

Loki架构的尝试与局限性

在可观测系统的建设初期,为降低业务系统复杂度和存储成本,MiniMax采用轻量化的Grafana Loki。其中,Promtail负责采集日志并发送给Loki,Loki负责日志存储和查询,Grafana用于UI展示。Loki通过日志标签和元数据索引显著降低了存储成本和索引复杂度。然而,因缺乏日志内容的索引,查询依赖正则表达式匹配和逐行扫描,造成大规模日志查询时资源消耗过高,查询响应时间延长。此外,每个Kubernetes集群需独立部署完整的日志采集与存储服务,增加了运维复杂度和成本。

图片 1.png

随着业务规模的指数级增长,MiniMax日志数据量迅速攀升至PB级别,Apache Loki在资源消耗、写入性能和查询易用性等方面暴露出瓶颈。为此,MiniMax对日志可观测系统提出了更高要求:

  1. 更高的查询性能:支持上亿条数据的秒级查询响应。

  2. 更低的存储成本:在PB级日志数据规模下,实现更具性价比的日志采集与存储方案。

Doris架构的升级与痛点

为满足上述需求,MiniMax对日志可观测系统进行了全面重构。新系统采用阿里云开源的iLogtail作为日志采集工具,将日志数据推送至Kafka消息队列。随后,数据通过两种方式写入Doris集群:一部分由Mlogs Ingester从Kafka拉取并通过Stream Load写入Doris;另一部分由Doris通过Routine Load直接订阅Kafka消息流。Doris作为核心存储与查询引擎,实现了全量日志数据的统一管理,避免了多集群独立部署的复杂性

图片 3.png

然而,随着MiniMax旗下星野和Talkie等AI应用的日活跃用户数迅速攀升至行业榜首,其日志数据量和查询请求呈爆发式增长,日均新增日志数据量超过数百TiB,MiniMax日志可观测系统逐渐面临了诸多挑战:

  1. 业务快速扩张导致数据和查询量激增,频繁的集群扩容需要进行数据迁移,因数据规模较大,迁移过程繁琐且耗时,影响了业务连续性。

  2. 日志可观测系统负责多个业务的数据分析,单实例多业务并发时,内部资源竞争和干扰导致实例稳定性和查询性能下降,降低用户体验和决策及时性

  3. 自建Doris的运维成本较高,参数调优和集群管理耗费了大量的人力物力

  4. 在遇到Apache Doris内核相关问题时,社区支持的效率和专业性不均衡,增加了企业解决问题的时间成本和风险。

这些问题制约了MiniMax日志可观测系统的优化升级,亟待寻求更高效、稳定的解决方案。

DevOps日志系统最佳实践:阿里云SelectDB

为了应对上述挑战,MiniMax引入了阿里云企业级数据仓库SelectDB。SelectDB沿用了Apache Doris的技术架构,100%兼容Doris语法,并针对写入吞吐和查询性能等方面进行了深度优化。它不仅降低了使用成本,还简化了运维流程,提高了服务等级协议(SLA)保障。通过采用存算分离的云原生架构,SelectDB为处理海量日志提供了近乎无限的扩展能力,从而为MiniMax的日志可观测体系提供了更加稳定和健壮的日志数据处理能力。

阿里云SelectDB技术方案优势

阿里云SelectDB以其实时弹性、简单易用、开源开放等差异化优势,能够实时处理PB级别的日志数据,并且提供了万级QPS实时报表查询和亚秒级即席多维分析的体验。与开源自建方案相比,SelectDB在性价比上有显著提升,并通过深度优化OSS写入方式,实现了超过10GB/s的读写吞吐能力。

优势一:弹性伸缩,提高集群扩容效率

Apache Doris采用MPP架构,基于分桶逻辑进行数据的物理水平拆分,这种架构在用户数据量稳定阶段能有效利用多分桶的并行处理能力解决大规模数据实时查询问题。然而,随着数据写入量和单个分桶数据量的快速增长,单个数据分桶节点可能会达到资源瓶颈,此时集群必须进行水平扩展。Doris的水平扩展需要进行全量数据的Reblance,以避免各个节点间负载不均衡。对于MiniMax来说,单次扩容因涉及PB级数据的重分布,可能需要数小时甚至达到天级别,给运维带来巨大负担。此外,突发业务流量时,扩容效率低可能导致集群资源不足,进而引发实例宕机风险。

阿里云SelectDB采用存算分离的云原生架构,将计算与存储分层解耦,支持独立扩缩容。在扩容过程中无需迁移数据,PB级数据可以实现分钟级扩缩容。业务低谷期可以根据实际情况动态缩减资源,避免了资源浪费,最大化提高资源利用效率。MiniMax在将日志可观测系统迁移到SelectDB 后,整体集群扩容时间可达到分钟级别,大大降低了运维成本,并且能够通过弹性伸缩能力迅速应对突发业务流量。

图片 4.png

优势二:存算分离, 提升吞吐效率并降低存储成本

MiniMax在使用Apache Doris集群时,为了实现数据高可用,生产环境默认采用Doris的两副本模式,导致存储资源消耗和集群写入压力均增至单副本的两倍。此外,考虑到过高的存储成本,MiniMax在Doris数仓中仅保留15天的业务数据,其他数据通过冷归档的方式存储;而需要对这部分归档数据进行查询分析时,则临时从归档库中解压加载后才能进行分析,极大降低了数据查询的效率。

阿里云SelectDB采用存算分离的设计,存储层基于阿里云对象存储OSS提供存储服务。MiniMax在使用SelectDB后,利用OSS的数据高可用能力,计算引擎仅需单份数据写入,存储资源需求减少至Doris的二分之一,实际业务写入吞吐能力提升超20%。此外,由于整体存储成本的降低,SelectDB支持对历史全量数据的实时查询分析,大大提高了数据查询效率

优势三:资源隔离,提高并发读写效率

MiniMax在使用Apache Doris时,存在多个业务团队共享同一实例进行全量数据查询分析的情况,可能导致因不规范或大规模查询耗尽实例资源,进而引发查询或数据导入任务超时。

阿里云SelectDB支持云原生多集群硬隔离能力,用户可以将单个实例的计算资源划分为多个逻辑集群,不同集群之间的分配独立的**计算资源,实现了不同集群的严格物理资源隔离和数据共享,很好的解决负载隔离问题。此外,SelectDB还支持读写分离能力,进一步提高了并发查询效率。MiniMax在使用了SelectDB后,采用了SelectDB多集群隔离能力,并将读写集群分开,避免了读写资源抢占带来的实例稳定性问题,大大提高了并发读写效率。

图片 5.png

优势四:缓存加速,提供高吞吐与低延迟

阿里云SelectDB通过单副本本地读写缓存、智能数据淘汰策略、高效列式存储格式和先进压缩算法,显著提升了海量数据的读写效率。业务进行数据查询时,依据LRU的读缓存策略,保证业务对于实时写入数据和高频查询热数据的查询性能。当发现缓存命中率低和查询性能不及预期时,可以进行实时的缓存空间扩容,以提升缓存命中率,PB级数据P95查询可以在3秒内响应,提高了数据查询效率。

图片 6.png

阿里云SelectDB还具备高SLA保障,持久化数据存储提供同城冗余和12个9的数据可靠性保障。此外,SelectDB还**供了直观的用户界面和产品化的运维工具,支持扩缩容、版本升级、参数配置和监控告警等操作,显著降低了运维复杂度。**用户仅需关注计算资源、缓存大小和数据存储使用率等核心指标,减少了开发和运维团队的负担。

图片 7.png 图片 8.png

业务价值

基于阿里云SelectDB,MiniMax构建了覆盖国内及海外业务的日志可观测中台,总体数据规模超过数PB,日均新增日志写入量达数百TB。系统在P95分位查询场景下的响应时间小于3秒,峰值时刻实现了超过10GB/s的读写吞吐。通过存算分离、高压缩比算法和单副本热缓存等技术手段,MiniMax在优化性能的同时显著降低了建设成本,计算资源用量降低40%,热数据存储用量降低50%,为未来业务的高速发展和技术演进奠定了坚实基础。

总结与展望

回顾MiniMax可观测系统的演进历程,从初期的Loki架构到Apache Doris的引入,再到SelectDB的全面升级,每一次技术迭代都体现了MiniMax对业务需求的深刻理解和对技术创新的不懈追求。阿里云SelectDB凭借其卓越的性能、灵活的架构和强大的生态能力,为MiniMax提供了高效、稳定的日志存储与分析服务,助力其在大模型实践中实现成本与效率的最佳平衡。

未来,随着MiniMax业务的持续高速发展,日志可观测系统将继续作为洞察系统运行状态和优化性能的核心工具。阿里云将与MiniMax携手,进一步挖掘日志数据的潜在价值,为业务创新提供更强有力的支持。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
打赏
0
1
1
0
232
分享
相关文章
PHP 日志系统的最佳搭档:一个 Go 写的远程日志收集服务
为了不再 SSH 上去翻日志,我写了个 Go 小脚本,用来接收远程日志。PHP 负责记录日志,Go 负责存储和展示,按天存储、支持 API 访问、可远程管理,终于能第一时间知道项目炸了。
31 10
阿里云个人博客外网访问中断应急指南:从安全组到日志的七步排查法
1. 检查安全组配置:确认阿里云安全组已开放HTTP/HTTPS端口,添加规则允许目标端口(如80/443),授权对象设为`0.0.0.0/0`。 2. 本地防火墙设置:确保服务器防火墙未阻止外部流量,Windows启用入站规则,Linux检查iptables或临时关闭防火墙测试。 3. 验证Web服务状态:检查Apache/Nginx/IIS是否运行并监听所有IP,使用命令行工具确认监听状态。 4. 测试网络连通性:使用外部工具和内网工具测试服务器端口是否开放,排除本地可访问但外网不可的问题。 5. 排查DNS解析:确认域名A记录指向正确公网IP,使用`ping/nslookup`验证解析正
44 2
让跨 project 联查更轻松,SLS StoreView 查询和分析实践
让跨 project 联查更轻松,SLS StoreView 查询和分析实践
网络安全视角:从地域到账号的阿里云日志审计实践
网络安全视角:从地域到账号的阿里云日志审计实践
图解MySQL【日志】——Redo Log
Redo Log(重做日志)是数据库中用于记录数据页修改的物理日志,确保事务的持久性和一致性。其主要作用包括崩溃恢复、提高性能和保证事务一致性。Redo Log 通过先写日志的方式,在内存中缓存修改操作,并在适当时候刷入磁盘,减少随机写入带来的性能损耗。WAL(Write-Ahead Logging)技术的核心思想是先将修改操作记录到日志文件中,再择机写入磁盘,从而实现高效且安全的数据持久化。Redo Log 的持久化过程涉及 Redo Log Buffer 和不同刷盘时机的控制参数(如 `innodb_flush_log_at_trx_commit`),以平衡性能与数据安全性。
33 5
图解MySQL【日志】——Redo Log
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
本文介绍了Java日志框架的基本概念和使用方法,重点讨论了SLF4J、Log4j、Logback和Log4j2之间的关系及其性能对比。SLF4J作为一个日志抽象层,允许开发者使用统一的日志接口,而Log4j、Logback和Log4j2则是具体的日志实现框架。Log4j2在性能上优于Logback,推荐在新项目中使用。文章还详细说明了如何在Spring Boot项目中配置Log4j2和Logback,以及如何使用Lombok简化日志记录。最后,提供了一些日志配置的最佳实践,包括滚动日志、统一日志格式和提高日志性能的方法。
1315 31
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
什么是Apache日志?为什么Apache日志分析很重要?
Apache是全球广泛使用的Web服务器软件,支持超过30%的活跃网站。它通过接收和处理HTTP请求,与后端服务器通信,返回响应并记录日志,确保网页请求的快速准确处理。Apache日志分为访问日志和错误日志,对提升用户体验、保障安全及优化性能至关重要。EventLog Analyzer等工具可有效管理和分析这些日志,增强Web服务的安全性和可靠性。
MySQL日志详解——日志分类、二进制日志bin log、回滚日志undo log、重做日志redo log
MySQL日志详解——日志分类、二进制日志bin log、回滚日志undo log、重做日志redo log、原理、写入过程;binlog与redolog区别、update语句的执行流程、两阶段提交、主从复制、三种日志的使用场景;查询日志、慢查询日志、错误日志等其他几类日志
122 35
MySQL日志详解——日志分类、二进制日志bin log、回滚日志undo log、重做日志redo log
Tomcat log日志解析
理解和解析Tomcat日志文件对于诊断和解决Web应用中的问题至关重要。通过分析 `catalina.out`、`localhost.log`、`localhost_access_log.*.txt`、`manager.log`和 `host-manager.log`等日志文件,可以快速定位和解决问题,确保Tomcat服务器的稳定运行。掌握这些日志解析技巧,可以显著提高运维和开发效率。
66 13

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等