官方博客-第2页-阿里云开发者社区

言澈

2025-02-28

1308

进行GPU算力管理

本篇主要简单介绍了在AI时代由‘大参数、大数据、大算力’需求下，对GPU算力管理和分配带来的挑战。以及面对这些挑战，GPU算力需要从单卡算力管理、单机多卡算力管理、多机多卡算力管理等多个方面发展出来的业界通用的技术。

言澈

1,308

张佐玮

2023-12-01

1659

Koordinator 助力云原生应用性能提升，小红书混部技术实践

本文基于 2023 云栖大会上关于 Koordinator 分享的实录，介绍小红书通过规模化落地混部技术来大幅提升集群资源效能，降低业务资源成本。

张佐玮

1,659

田双坤禹杨杨孙健翔

2024-05-15

101874

阿里云 ACK One Serverless Argo 助力深势科技构建高效任务平台

田双坤禹杨杨孙健翔等

101,874

云服务器ECS

2024-05-15

490

百亿大规模图在广告场景的应用

这篇摘要主要介绍了美团外卖在搜索推荐业务中如何利用图技术解决挑战，包括外卖广告搜索推荐业务的介绍、异构大图的演进、大规模图引擎的建设，以及系统的总结和展望。

云服务器ECS

490

正己

2025-01-06

427

OpenAI 宕机思考丨Kubernetes 复杂度带来的服务发现系统的风险和应对措施

Kubernetes 体系基于 DNS 的服务发现为开发者提供了很大的便利，但其高度复杂的架构往往带来更高的稳定性风险。以 Nacos 为代表的独立服务发现系统架构简单，在 Kubernetes 中选择独立服务发现系统可以帮助增强业务可靠性、可伸缩性、性能及可维护性，对于规模大、增长快、稳定性要求高的业务来说是一个较理想的服务发现方案。希望大家都能找到适合自己业务的服务发现系统。

正己

427

寒斜

2024-11-19

874

基于事件驱动构建 AI 原生应用

AI 应用在商业化服务的阶段会面临诸多挑战，比如更快的服务交付速度，更实时、精准的结果以及更人性化的体验等，传统架构限制于同步交互，无法满足上述需求，本篇文章给大家分享一下如何基于事件驱动架构应对上述挑战。

寒斜

874

唐三望宸

2025-01-23

510

海外泼天流量｜浅谈全球化技术架构

本文对海外泼天流量现状做了快速整理，旨在抛砖引玉，促进国内企业在出海过程中，交流如何构建全球化技术架构的落地经验，相信会有越来越多资深人士分享更深层次的实践。

唐三望宸

510

牧原

2025-02-21

666

K8S异常诊断之俺的内存呢

本文讲述作者如何解决客户集群中出现的OOM（Out of Memory）和Pod驱逐问题。文章不仅详细记录了问题的发生背景、现象特征，还深入探讨了排查过程中的关键步骤和技术细节。

牧原

666

刘佳旭冯诗淳竺夏栋麻嘉豪隋吉智等

2024-12-25

726

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

聚焦近日OpenAI的大规模K8s集群故障，介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案：包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。

刘佳旭冯诗淳竺夏栋麻嘉豪隋吉智等

726

官方博客-第2页-阿里云开发者社区

类目筛选

内容类型

进行GPU算力管理

Koordinator 助力云原生应用性能提升，小红书混部技术实践

阿里云 ACK One Serverless Argo 助力深势科技构建高效任务平台

百亿大规模图在广告场景的应用

OpenAI 宕机思考丨Kubernetes 复杂度带来的服务发现系统的风险和应对措施

基于事件驱动构建 AI 原生应用

海外泼天流量｜浅谈全球化技术架构

K8S异常诊断之俺的内存呢

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

官方博客-第2页-阿里云开发者社区

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

类目筛选

内容类型

进行GPU算力管理

Koordinator 助力云原生应用性能提升，小红书混部技术实践

阿里云 ACK One Serverless Argo 助力深势科技构建高效任务平台

百亿大规模图在广告场景的应用

OpenAI 宕机思考丨Kubernetes 复杂度带来的服务发现系统的风险和应对措施

基于事件驱动构建 AI 原生应用

海外泼天流量｜浅谈全球化技术架构

K8S异常诊断之俺的内存呢

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性