官方博客-第30页-阿里云开发者社区

刘佳旭冯诗淳竺夏栋麻嘉豪隋吉智等

2024-12-25

629

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

聚焦近日OpenAI的大规模K8s集群故障，介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案：包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。

刘佳旭冯诗淳竺夏栋麻嘉豪隋吉智等

629

太业

2024-12-27

337

OpenAI全球宕机思考：谈谈可观测采集稳定性建设

文章探讨了为什么大规模集群中的可观测性服务会产生大量API请求、API服务器为何对DNS解析至关重要以及故障恢复过程为何缓慢的原因。

太业

337

赵世振

2025-01-09

2066

阿里云百炼xWaytoAGI共学课DAY3 - 更热门的多模态交互案例带练，实操掌握AI应用开发

本文章旨在帮助读者了解并掌握大模型多模态技术的实际应用，特别是如何构建基于多模态的实用场景。文档通过几个具体的多模态应用场景，如拍立淘、探一下和诗歌相机，展示了这些技术在日常生活中的应用潜力。

赵世振

2,066

阿里云云原生

2025-01-22

526

两步构建 AI 总结助手，实现智能文档摘要

本方案将运用函数计算 FC，构建一套高可用性的 Web 服务，以满足用户多样化的需求。当用户发起请求时，系统内部会自动将包含文本和提示词的信息传递给百炼模型服务，百炼平台将根据后台配置调用相应的大模型服务，对文本数据进行智能识别与解析，最终将总结结果返回给用户。

阿里云云原生

526

封崇

2025-04-16

1428

MCP 正当时：FunctionAI MCP 开发平台来了！

MCP 的价值是统一了 Agent 和 LLM 之间的标准化接口，有了 MCP Server 的托管以及开发态能力只是第一步，接下来重要的是做好 MCP 和 Agent 的集成，FunctionAI 即将上线 Agent 开发能力，敬请期待。

封崇

1,428

阿里云云原生

2025-04-28

715

StrmVol 存储卷：解锁 K8s 对象存储海量小文件访问性能新高度

本文介绍了阿里云容器服务（ACK）支持的StrmVol存储卷方案，旨在解决Kubernetes环境中海量小文件访问性能瓶颈问题。通过虚拟块设备与内核态文件系统（如EROFS）结合，StrmVol显著降低了小文件访问延迟，适用于AI训练集加载、时序日志分析等场景。其核心优化包括内存预取加速、减少I/O等待、内核态直接读取避免用户态切换开销，以及轻量索引快速初始化。示例中展示了基于Argo Workflows的工作流任务，模拟分布式图像数据集加载，测试结果显示平均处理时间为21秒。StrmVol适合只读场景且OSS端数据无需频繁更新的情况，详细使用方法可参考官方文档。

阿里云云原生

715

在峰

2024-06-24

56453

解锁分布式云多集群统一监控的云上最佳实践

为应对分布式云多集群监控的挑战，阿里云可观测监控 Prometheus 版结合 ACK One，凭借高效纳管与全局监控方案有效破解了用户在该场景的监控运维痛点，为日益增长的业务需求提供了一站式、高效、统一的监控解决方案，实现成本与运维效率的双重优化。助力企业的数字化转型与业务快速增长，在复杂多变的云原生时代中航行，提供了一个强有力的罗盘与风帆。

在峰

56,453

杨逍

2024-07-04

495

现已开源｜有这款神器，业务0改动即可实现数据加密

全密态Go驱动开源啦

杨逍

495

徒钟

2024-07-19

13969

Apache RocketMQ ACL 2.0 全新升级

RocketMQ 作为一款流行的分布式消息中间件，被广泛应用于各种大型分布式系统和微服务中，承担着异步通信、系统解耦、削峰填谷和消息通知等重要的角色。随着技术的演进和业务规模的扩大，安全相关的挑战日益突出，消息系统的访问控制也变得尤为重要。然而，RocketMQ 现有的 ACL 1.0 版本已经无法满足未来的发展。因此，我们推出了 RocketMQ ACL 2.0 升级版，进一步提升 RocketMQ 数据的安全性。本文将介绍 RocketMQ ACL 2.0 的新特性、工作原理，以及相关的配置和实践。

徒钟

13,969

官方博客-第30页-阿里云开发者社区

类目筛选

内容类型

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

OpenAI全球宕机思考：谈谈可观测采集稳定性建设

阿里云百炼xWaytoAGI共学课DAY3 - 更热门的多模态交互案例带练，实操掌握AI应用开发

两步构建 AI 总结助手，实现智能文档摘要

MCP 正当时：FunctionAI MCP 开发平台来了！

StrmVol 存储卷：解锁 K8s 对象存储海量小文件访问性能新高度

解锁分布式云多集群统一监控的云上最佳实践

现已开源｜有这款神器，业务0改动即可实现数据加密

Apache RocketMQ ACL 2.0 全新升级

官方博客-第30页-阿里云开发者社区

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

类目筛选

内容类型

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

OpenAI全球宕机思考：谈谈可观测采集稳定性建设

阿里云百炼xWaytoAGI共学课DAY3 - 更热门的多模态交互案例带练，实操掌握AI应用开发

两步构建 AI 总结助手，实现智能文档摘要

MCP 正当时：FunctionAI MCP 开发平台来了！

StrmVol 存储卷：解锁 K8s 对象存储海量小文件访问性能新高度

解锁分布式云多集群统一监控的云上最佳实践

现已开源｜有这款神器，业务0改动即可实现数据加密

Apache RocketMQ ACL 2.0 全新升级