官方博客-第2页-阿里云开发者社区

正己

2025-01-06

426

OpenAI 宕机思考丨Kubernetes 复杂度带来的服务发现系统的风险和应对措施

Kubernetes 体系基于 DNS 的服务发现为开发者提供了很大的便利，但其高度复杂的架构往往带来更高的稳定性风险。以 Nacos 为代表的独立服务发现系统架构简单，在 Kubernetes 中选择独立服务发现系统可以帮助增强业务可靠性、可伸缩性、性能及可维护性，对于规模大、增长快、稳定性要求高的业务来说是一个较理想的服务发现方案。希望大家都能找到适合自己业务的服务发现系统。

正己

426

阿里云云原生

2025-01-08

454

GitLab 国际站中国大陆等地区停服，如何将数据快速迁移到云效

对于正在使用 GitLab 国际站托管代码的企业和研发团队，除迁移至极狐 GitLab 外，国内其他主流的 DevOps 平台也具有完备的产品能力，为开发者提供了更多的选择。其中，阿里云云效也提供了针对常见代码托管平台如 GitHub、GitLab 简单便捷的迁移方案，帮助用户快速完成核心代码数据的迁移，确保代码资产安全。

阿里云云原生

454

田双坤禹杨杨孙健翔

2024-05-15

101871

阿里云 ACK One Serverless Argo 助力深势科技构建高效任务平台

田双坤禹杨杨孙健翔等

101,871

云服务器ECS

2024-05-15

487

百亿大规模图在广告场景的应用

这篇摘要主要介绍了美团外卖在搜索推荐业务中如何利用图技术解决挑战，包括外卖广告搜索推荐业务的介绍、异构大图的演进、大规模图引擎的建设，以及系统的总结和展望。

云服务器ECS

487

言澈

2025-02-28

1302

进行GPU算力管理

本篇主要简单介绍了在AI时代由‘大参数、大数据、大算力’需求下，对GPU算力管理和分配带来的挑战。以及面对这些挑战，GPU算力需要从单卡算力管理、单机多卡算力管理、多机多卡算力管理等多个方面发展出来的业界通用的技术。

言澈

1,302

张佐玮

2023-12-01

1652

Koordinator 助力云原生应用性能提升，小红书混部技术实践

本文基于 2023 云栖大会上关于 Koordinator 分享的实录，介绍小红书通过规模化落地混部技术来大幅提升集群资源效能，降低业务资源成本。

张佐玮

1,652

言澈

2024-05-15

1499

全景剖析阿里云容器网络数据链路（一）—— Flannel

本文是[全景剖析容器网络数据链路]第一部分，主要介绍Kubernetes Flannel模式下，数据面链路的转转发链路

言澈

1,499

阿里云云原生

2025-05-06

918

本文介绍了使用阿里云实时数仓 Hologres、函数计算 FC 和通义大模型 Qwen3 构建企业级数据分析 Agent 的方法。通过 MCP（模型上下文协议）标准化接口，解决大模型与外部工具和数据源集成的难题。Hologres 提供高性能数据分析能力，支持实时数据接入和湖仓一体分析；函数计算 FC 提供弹性、安全的 Serverless 运行环境；Qwen3 具备强大的多语言处理和推理能力。方案结合 ModelScope 的 MCP Playground，实现高效的服务化部署，帮助企业快速构建跨数据源、多步骤分解的数据分析 Agent，优化数据分析流程并降低成本。

阿里云云原生

918

刘佳旭冯诗淳竺夏栋麻嘉豪隋吉智等

2024-12-25

725

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

聚焦近日OpenAI的大规模K8s集群故障，介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案：包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。

刘佳旭冯诗淳竺夏栋麻嘉豪隋吉智等

725

官方博客-第2页-阿里云开发者社区

类目筛选

内容类型

OpenAI 宕机思考丨Kubernetes 复杂度带来的服务发现系统的风险和应对措施

GitLab 国际站中国大陆等地区停服，如何将数据快速迁移到云效

阿里云 ACK One Serverless Argo 助力深势科技构建高效任务平台

百亿大规模图在广告场景的应用

进行GPU算力管理

Koordinator 助力云原生应用性能提升，小红书混部技术实践

全景剖析阿里云容器网络数据链路（一）—— Flannel

通过 MCP 构建企业级数据分析 Agent

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

官方博客-第2页-阿里云开发者社区

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

类目筛选

内容类型

OpenAI 宕机思考丨Kubernetes 复杂度带来的服务发现系统的风险和应对措施

GitLab 国际站中国大陆等地区停服，如何将数据快速迁移到云效

阿里云 ACK One Serverless Argo 助力深势科技构建高效任务平台

百亿大规模图在广告场景的应用

进行GPU算力管理

Koordinator 助力云原生应用性能提升，小红书混部技术实践

全景剖析阿里云容器网络数据链路（一）—— Flannel

通过 MCP 构建企业级数据分析 Agent

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性