官方博客-第2页-阿里云开发者社区

正己

2025-01-06

426

OpenAI 宕机思考丨Kubernetes 复杂度带来的服务发现系统的风险和应对措施

Kubernetes 体系基于 DNS 的服务发现为开发者提供了很大的便利，但其高度复杂的架构往往带来更高的稳定性风险。以 Nacos 为代表的独立服务发现系统架构简单，在 Kubernetes 中选择独立服务发现系统可以帮助增强业务可靠性、可伸缩性、性能及可维护性，对于规模大、增长快、稳定性要求高的业务来说是一个较理想的服务发现方案。希望大家都能找到适合自己业务的服务发现系统。

正己

426

言澈

2025-02-28

1305

进行GPU算力管理

本篇主要简单介绍了在AI时代由‘大参数、大数据、大算力’需求下，对GPU算力管理和分配带来的挑战。以及面对这些挑战，GPU算力需要从单卡算力管理、单机多卡算力管理、多机多卡算力管理等多个方面发展出来的业界通用的技术。

言澈

1,305

云服务器ECS

2024-05-15

488

百亿大规模图在广告场景的应用

这篇摘要主要介绍了美团外卖在搜索推荐业务中如何利用图技术解决挑战，包括外卖广告搜索推荐业务的介绍、异构大图的演进、大规模图引擎的建设，以及系统的总结和展望。

云服务器ECS

488

田双坤禹杨杨孙健翔

2024-05-15

101871

阿里云 ACK One Serverless Argo 助力深势科技构建高效任务平台

田双坤禹杨杨孙健翔等

101,871

刘佳旭冯诗淳竺夏栋麻嘉豪隋吉智等

2024-12-25

725

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

聚焦近日OpenAI的大规模K8s集群故障，介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案：包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。

刘佳旭冯诗淳竺夏栋麻嘉豪隋吉智等

725

牧原

2025-02-21

664

K8S异常诊断之俺的内存呢

本文讲述作者如何解决客户集群中出现的OOM（Out of Memory）和Pod驱逐问题。文章不仅详细记录了问题的发生背景、现象特征，还深入探讨了排查过程中的关键步骤和技术细节。

牧原

664

惜鸟

2024-11-15

1025

【提效】docker镜像构建优化-提速10倍

本文主要记录了自己通过查阅相关资料，一步步排查问题，最后通过优化Docerfile文件将docker镜像构建从十几分钟降低到1分钟左右，效率提高了10倍左右。

惜鸟

1,025

匡大虎

2024-05-15

1623

从方法论到最佳实践，深度解析企业云原生 DevSecOps 体系构建

本文主要介绍了云原生安全的现状以及企业应用在云原生化转型中面临的主要安全挑战以及相对成熟的一部分安全体系方法论，深度解析企业云原生 DevSecOps 体系构建。

匡大虎

1,623

在峰

2024-06-24

56497

解锁分布式云多集群统一监控的云上最佳实践

为应对分布式云多集群监控的挑战，阿里云可观测监控 Prometheus 版结合 ACK One，凭借高效纳管与全局监控方案有效破解了用户在该场景的监控运维痛点，为日益增长的业务需求提供了一站式、高效、统一的监控解决方案，实现成本与运维效率的双重优化。助力企业的数字化转型与业务快速增长，在复杂多变的云原生时代中航行，提供了一个强有力的罗盘与风帆。

在峰

56,497

官方博客-第2页-阿里云开发者社区

类目筛选

内容类型

OpenAI 宕机思考丨Kubernetes 复杂度带来的服务发现系统的风险和应对措施

进行GPU算力管理

百亿大规模图在广告场景的应用

阿里云 ACK One Serverless Argo 助力深势科技构建高效任务平台

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

K8S异常诊断之俺的内存呢

【提效】docker镜像构建优化-提速10倍

从方法论到最佳实践，深度解析企业云原生 DevSecOps 体系构建

解锁分布式云多集群统一监控的云上最佳实践

官方博客-第2页-阿里云开发者社区

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

类目筛选

内容类型

OpenAI 宕机思考丨Kubernetes 复杂度带来的服务发现系统的风险和应对措施

进行GPU算力管理

百亿大规模图在广告场景的应用

阿里云 ACK One Serverless Argo 助力深势科技构建高效任务平台

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

K8S异常诊断之俺的内存呢

【提效】docker镜像构建优化-提速10倍

从方法论到最佳实践，深度解析企业云原生 DevSecOps 体系构建

解锁分布式云多集群统一监控的云上最佳实践