官方博客-第15页-阿里云开发者社区

在峰

2024-06-24

56453

解锁分布式云多集群统一监控的云上最佳实践

为应对分布式云多集群监控的挑战，阿里云可观测监控 Prometheus 版结合 ACK One，凭借高效纳管与全局监控方案有效破解了用户在该场景的监控运维痛点，为日益增长的业务需求提供了一站式、高效、统一的监控解决方案，实现成本与运维效率的双重优化。助力企业的数字化转型与业务快速增长，在复杂多变的云原生时代中航行，提供了一个强有力的罗盘与风帆。

在峰

56,453

资源编排ROS

2024-06-25

843

阿里云ROS CDK结合OSS的资源编排教程，教你如何以代码定义云资源，简化部署流程。ROS CDK允许使用编程语言（如TypeScript、C#）代替JSON或YAML模板，创建和管理云资源，如OSS Bucket。通过Asset模块，本地文件被转化为云资源，ROS CDK的`ros-cdk-ossassets`和`ros-cdk-ossdeployment`则负责资源上传和管理。教程以创建和部署博客到OSS为例，展示了从初始化项目、配置凭证到编写CDK代码，再到打包、部署和更新资源栈的全过程。使用ROS CDK，开发者能更高效地实现云上资源的自动化运维和管理。

资源编排ROS

843

阿里云云原生

2024-09-02

683

西游再现，一键部署 Flux 文生图大模型生成西游人物

从花果山的灵石出世，到取经路上的九九八十一难，再到大闹天宫的惊心动魄……这些耳熟能详的西游场景，如今都能通过 Flux 模型，以超乎想象的细节和真实感呈现在你眼前。本次实验在函数计算中内置的 flux.1-dev-fp8 大模型，搭配 Lora 模型，无需复杂的配置，一键部署，你就能成为这场视觉盛宴的创造者。

阿里云云原生

683

木将

2024-09-11

448

二级缓存架构极致提升系统性能

本文详细阐述了如何通过二级缓存架构设计提升高并发下的系统性能。

木将

448

阿里云云原生

2024-11-01

982

Serverless GPU：助力 AI 推理加速

近年来，AI 技术发展迅猛，企业纷纷寻求将 AI 能力转化为商业价值，然而，在部署 AI 模型推理服务时，却遭遇成本高昂、弹性不足及运维复杂等挑战。本文将探讨云原生 Serverless GPU 如何从根本上解决这些问题，以实现 AI 技术的高效落地。

阿里云云原生

982

阿里云弹性计算

2025-01-06

171770

对话｜企业如何构建更完善的容器供应链安全防护体系

阿里云与企业共筑容器供应链安全

阿里云弹性计算

171,770

阿里云云原生

2025-04-28

715

StrmVol 存储卷：解锁 K8s 对象存储海量小文件访问性能新高度

本文介绍了阿里云容器服务（ACK）支持的StrmVol存储卷方案，旨在解决Kubernetes环境中海量小文件访问性能瓶颈问题。通过虚拟块设备与内核态文件系统（如EROFS）结合，StrmVol显著降低了小文件访问延迟，适用于AI训练集加载、时序日志分析等场景。其核心优化包括内存预取加速、减少I/O等待、内核态直接读取避免用户态切换开销，以及轻量索引快速初始化。示例中展示了基于Argo Workflows的工作流任务，模拟分布式图像数据集加载，测试结果显示平均处理时间为21秒。StrmVol适合只读场景且OSS端数据无需频繁更新的情况，详细使用方法可参考官方文档。

阿里云云原生

715

阿里云云原生

2025-04-29

686

剑指大规模 AI 可观测，阿里云 Prometheus 2.0 应运而生

本文介绍了阿里云Prometheus 2.0方案，针对大规模AI系统的可观测性挑战进行全面升级。内容涵盖数据采集、存储、计算、查询及生态整合等维度。 Prometheus 2.0引入自研LoongCollector实现多模态数据采集，采用全新时序存储引擎提升性能，并支持RecordingRule与ScheduleSQL预聚合计算。查询阶段提供跨区域、跨账号的统一查询能力，结合PromQL与SPL语言增强分析功能。此外，该方案已成功应用于阿里云内部AI系统，如百炼、通义千问等大模型全链路监控。未来，阿里云将发布云监控2.0产品，进一步完善智能观测技术栈。

阿里云云原生

686

达领

2023-04-23

25781

慢SQL是如何拖垮数据库的

本文结合一个实际故障案例出发，分析慢SQL是如何打垮数据库并引发故障的。

达领

25,781

官方博客-第15页-阿里云开发者社区

类目筛选

内容类型

解锁分布式云多集群统一监控的云上最佳实践

ROS CDK魔法书：点亮博客上云新技能（C#篇）

西游再现，一键部署 Flux 文生图大模型生成西游人物

二级缓存架构极致提升系统性能

Serverless GPU：助力 AI 推理加速

对话｜企业如何构建更完善的容器供应链安全防护体系

StrmVol 存储卷：解锁 K8s 对象存储海量小文件访问性能新高度

剑指大规模 AI 可观测，阿里云 Prometheus 2.0 应运而生

慢SQL是如何拖垮数据库的

官方博客-第15页-阿里云开发者社区

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

类目筛选

内容类型

解锁分布式云多集群统一监控的云上最佳实践

ROS CDK魔法书：点亮博客上云新技能（C#篇）

西游再现，一键部署 Flux 文生图大模型生成西游人物

二级缓存架构极致提升系统性能

Serverless GPU：助力 AI 推理加速

对话｜企业如何构建更完善的容器供应链安全防护体系

StrmVol 存储卷：解锁 K8s 对象存储海量小文件访问性能新高度

剑指大规模 AI 可观测，阿里云 Prometheus 2.0 应运而生

慢SQL是如何拖垮数据库的