官方博客-阿里云开发者社区

同涛

2024-09-03

7217

一文详解容器技术简介和基本原理

本文全面阐述了容器技术的发展历程、关键技术、架构和当前的行业生态，特别是容器技术在云环境中的应用和演进。

同涛

7,217

阿里云云原生

2024-05-15

2781

为大模型工程提效，基于阿里云 ACK 的云原生 AI 工程化实践

本文主要介绍了解析云原生 AI 所遇到的技术挑战和应对方案，随后介绍云原生 AI 领域的关键技术与架构细节，最后分享我们在 ACK 的相关经验及工程实践。

阿里云云原生

2,781

子白

2024-05-15

102599

大语言模型推理提速，TensorRT-LLM 高性能推理实践

大型语言模型（Large language models,LLM）是基于大量数据进行预训练的超大型深度学习模型，本文主要讲述TensorRT-LLM利用量化、In-Flight Batching、Attention、Graph Rewriting提升 LLM 模型推理效率。

子白

102,599

吴昆

2024-05-15

222169

Kube Queue：Kubernetes 任务排队的利器

吴昆

222,169

正己

2025-01-06

426

OpenAI 宕机思考丨Kubernetes 复杂度带来的服务发现系统的风险和应对措施

Kubernetes 体系基于 DNS 的服务发现为开发者提供了很大的便利，但其高度复杂的架构往往带来更高的稳定性风险。以 Nacos 为代表的独立服务发现系统架构简单，在 Kubernetes 中选择独立服务发现系统可以帮助增强业务可靠性、可伸缩性、性能及可维护性，对于规模大、增长快、稳定性要求高的业务来说是一个较理想的服务发现方案。希望大家都能找到适合自己业务的服务发现系统。

正己

426

张佐玮

2023-12-01

1652

Koordinator 助力云原生应用性能提升，小红书混部技术实践

本文基于 2023 云栖大会上关于 Koordinator 分享的实录，介绍小红书通过规模化落地混部技术来大幅提升集群资源效能，降低业务资源成本。

张佐玮

1,652

刘佳旭冯诗淳竺夏栋麻嘉豪隋吉智等

2024-12-25

725

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

聚焦近日OpenAI的大规模K8s集群故障，介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案：包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。

刘佳旭冯诗淳竺夏栋麻嘉豪隋吉智等

725

牧原

2025-02-21

661

K8S异常诊断之俺的内存呢

本文讲述作者如何解决客户集群中出现的OOM（Out of Memory）和Pod驱逐问题。文章不仅详细记录了问题的发生背景、现象特征，还深入探讨了排查过程中的关键步骤和技术细节。

牧原

661

田双坤禹杨杨孙健翔

2024-05-15

101868

阿里云 ACK One Serverless Argo 助力深势科技构建高效任务平台

田双坤禹杨杨孙健翔等

101,868

官方博客-阿里云开发者社区

类目筛选

内容类型

一文详解容器技术简介和基本原理

为大模型工程提效，基于阿里云 ACK 的云原生 AI 工程化实践

大语言模型推理提速，TensorRT-LLM 高性能推理实践

Kube Queue：Kubernetes 任务排队的利器

OpenAI 宕机思考丨Kubernetes 复杂度带来的服务发现系统的风险和应对措施

Koordinator 助力云原生应用性能提升，小红书混部技术实践

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

K8S异常诊断之俺的内存呢

阿里云 ACK One Serverless Argo 助力深势科技构建高效任务平台

官方博客-阿里云开发者社区

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

类目筛选

内容类型

一文详解容器技术简介和基本原理

为大模型工程提效，基于阿里云 ACK 的云原生 AI 工程化实践

大语言模型推理提速，TensorRT-LLM 高性能推理实践

Kube Queue：Kubernetes 任务排队的利器

OpenAI 宕机思考丨Kubernetes 复杂度带来的服务发现系统的风险和应对措施

Koordinator 助力云原生应用性能提升，小红书混部技术实践

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

K8S异常诊断之俺的内存呢

阿里云 ACK One Serverless Argo 助力深势科技构建高效任务平台