官方博客-第23页-阿里云开发者社区

刘佳旭冯诗淳竺夏栋麻嘉豪隋吉智等

2024-12-25

629

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

聚焦近日OpenAI的大规模K8s集群故障，介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案：包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。

刘佳旭冯诗淳竺夏栋麻嘉豪隋吉智等

629

古琦

2024-12-27

947

编译时插桩，Go应用监控的最佳选择

本文讲解了阿里云编译器团队和可观测团队为了实现Go应用监控选择编译时插桩的原因，同时还介绍了其他的监控方案以及它们的优缺点。

古琦

947

太业

2024-12-27

337

OpenAI全球宕机思考：谈谈可观测采集稳定性建设

文章探讨了为什么大规模集群中的可观测性服务会产生大量API请求、API服务器为何对DNS解析至关重要以及故障恢复过程为何缓慢的原因。

太业

337

阿里云云原生

2025-01-15

414

UU 跑腿云原生化，突围同城配送赛道

从架构演进、网关优化到可观测体系构建等，UU 跑腿的云原生化，让 80% 的微服务轻松上云，还做到了 1 分钟弹性伸缩，实现了 80% 的运维成本降低。

阿里云云原生

414

阿里云网络

2025-01-16

992

NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器

NSDI‘24于4月16-18日在美国加州圣塔克拉拉市举办，汇聚全球网络系统领域的专家。阿里云飞天洛神云网络的两篇论文入选，标志着其创新能力获广泛认可。其中，《Poseidon: A Consolidated Virtual Network Controller that Manages Millions of Tenants via Config Tree》介绍了波塞冬平台，该平台通过统一控制器架构、高性能配置计算引擎等技术，实现了对超大规模租户和设备的高效管理，显著提升了云网络性能与弹性。实验结果显示，波塞冬在启用EIP时的完成时间比Top 5厂商分别快1.8至55倍和2.6至4.8倍。

阿里云网络

992

元乙

2025-02-14

477

2025 年可观测 10 大趋势预测

下述报告主要整理自各大网站发布的对 2025 年可观测趋势的预测，作者合并同类项汇总 10 个共性的趋势，欢迎大家一起讨论。

元乙

477

牧原

2025-02-21

605

K8S异常诊断之俺的内存呢

本文讲述作者如何解决客户集群中出现的OOM（Out of Memory）和Pod驱逐问题。文章不仅详细记录了问题的发生背景、现象特征，还深入探讨了排查过程中的关键步骤和技术细节。

牧原

605

寒斜

2022-10-14

436

人人都是Serverless架构师之传统内容管理系统改造实战二[踩坑实践]

容管理系统是很常见的一种web应用场景，可以用到个人独立站，企业官网展示等场景，具有很高的实用价值，一个标准的内容管理系统主要由三个部分组成主站展示部分、后台管理系统、API接口服务，本篇文章会以一个已有内容管理系统的Serverless架构重构展开，介绍改造的基本思路，改造细节，以及性能优化业务可观测设计等。涉及大家关心的Serverless生产遇到的一些问题，比如数据库、日志、动静态分离、调试、维护、灰度方案等。最真实的展现Serverless架构的实施落地细节。

寒斜

436

霖玉

2023-06-15

14011

大数据SQL数据倾斜与数据膨胀的优化与经验总结

目前市面上大数据查询分析引擎层出不穷，但在业务使用过程中，大多含有性能瓶颈的SQL，主要集中在数据倾斜与数据膨胀问题中。本文结合业界对大数据SQL的使用与优化，尝试给出相对系统性的解决方案。

霖玉

14,011

官方博客-第23页-阿里云开发者社区

类目筛选

内容类型

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

编译时插桩，Go应用监控的最佳选择

OpenAI全球宕机思考：谈谈可观测采集稳定性建设

UU 跑腿云原生化，突围同城配送赛道

NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器

2025 年可观测 10 大趋势预测

K8S异常诊断之俺的内存呢

人人都是Serverless架构师之传统内容管理系统改造实战二[踩坑实践]

大数据SQL数据倾斜与数据膨胀的优化与经验总结

官方博客-第23页-阿里云开发者社区

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

类目筛选

内容类型

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

编译时插桩，Go应用监控的最佳选择

OpenAI全球宕机思考：谈谈可观测采集稳定性建设

UU 跑腿云原生化，突围同城配送赛道

NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器

2025 年可观测 10 大趋势预测

K8S异常诊断之俺的内存呢

人人都是Serverless架构师之传统内容管理系统改造实战二[踩坑实践]

大数据SQL数据倾斜与数据膨胀的优化与经验总结