官方博客-第32页-阿里云开发者社区

刘佳旭冯诗淳竺夏栋麻嘉豪隋吉智等

2024-12-25

613

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

聚焦近日OpenAI的大规模K8s集群故障，介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案：包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。

刘佳旭冯诗淳竺夏栋麻嘉豪隋吉智等

613

阿里云网络

2025-01-16

972

NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器

NSDI‘24于4月16-18日在美国加州圣塔克拉拉市举办，汇聚全球网络系统领域的专家。阿里云飞天洛神云网络的两篇论文入选，标志着其创新能力获广泛认可。其中，《Poseidon: A Consolidated Virtual Network Controller that Manages Millions of Tenants via Config Tree》介绍了波塞冬平台，该平台通过统一控制器架构、高性能配置计算引擎等技术，实现了对超大规模租户和设备的高效管理，显著提升了云网络性能与弹性。实验结果显示，波塞冬在启用EIP时的完成时间比Top 5厂商分别快1.8至55倍和2.6至4.8倍。

阿里云网络

972

阿里云云原生

2025-01-24

770

智能理解 PPT 内容，快速生成讲解视频

本方案利用函数计算 FC 部署 Web 应用，调用百炼模型服务实现 PPT 到视频的自动转换。视觉模型智能理解 PPT 图文内容，快速生成相匹配的解说词；文本模型对解说词进行优化，提高其可读性和吸引力；语音模型则根据解说词生成生动流畅的旁白音频。整个过程高度集成，只需一键操作，系统即可自动整合图片、文本和音频素材，快速生成对应讲解视频。

阿里云云原生

770

羿莉

2025-02-11

567

从大规模恶意攻击 DeepSeek 事件看 AI 创新隐忧：安全可观测体系建设刻不容缓

在近来发生的 DeepSeek 遭遇的安全事件中，我们可以看到当前人工智能行业在网络安全方面的脆弱性，同时也为业界敲响了警钟。唯有通过全行业的协同努力，加强整体、完善的网络安全可观测建设，才能为 AI 技术的创新和发展构建一个安全而稳固的环境。我们期盼并相信，在攻克这些网络安全难题之后，AI 创新将迎来更加安全、灿烂的未来。

羿莉

567

荣阳

2025-02-28

1020

使用A10单卡24G复现DeepSeek R1强化学习过程

本文描述DeepSeek的三个模型的学习过程，其中DeepSeek-R1-Zero模型所涉及的强化学习算法，是DeepSeek最核心的部分之一会重点展示。

荣阳

1,020

望雲十雨言澈

2025-04-10

525

AI Infra之模型显存管理分析

本文围绕某线上客户部署DeepSeek-R1满血版模型时进行多次压测后，发现显存占用一直上升，从未下降的现象，记录了排查过程。

望雲十雨言澈等

525

阿里云云原生

2025-06-30

405

基于 AI 网关和 llmaz，提升 vLLM 推理服务可用性和部署易用性的实践

本文介绍了如何使用 llmaz 快速部署基于 vLLM 的大语言模型推理服务，并结合 Higress AI 网关实现流量控制、可观测性、故障转移等能力，构建稳定、高可用的大模型服务平台。

阿里云云原生

405

寒亭

2023-09-18

47913

一次访问Redis延时高问题排查与总结（2）

本文是一次访问Redis延时高问题排查与总结的续篇，主要讲述了当时没有发现的一些问题和解决方案。

寒亭

47,913

德歌

2023-09-22

1723

沉浸式学习PostgreSQL|PolarDB 17: 向量数据库, 通义大模型AI的外脑

本文所涉及的实验体验的就是怎么建设AI的外脑?向量数据库的核心价值:AI外脑

德歌

1,723

官方博客-第32页-阿里云开发者社区

类目筛选

内容类型

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器

智能理解 PPT 内容，快速生成讲解视频

从大规模恶意攻击 DeepSeek 事件看 AI 创新隐忧：安全可观测体系建设刻不容缓

使用A10单卡24G复现DeepSeek R1强化学习过程

AI Infra之模型显存管理分析

基于 AI 网关和 llmaz，提升 vLLM 推理服务可用性和部署易用性的实践

一次访问Redis延时高问题排查与总结（2）

沉浸式学习PostgreSQL|PolarDB 17: 向量数据库, 通义大模型AI的外脑

官方博客-第32页-阿里云开发者社区

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

类目筛选

内容类型

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器

智能理解 PPT 内容，快速生成讲解视频

从大规模恶意攻击 DeepSeek 事件看 AI 创新隐忧：安全可观测体系建设刻不容缓

使用A10单卡24G复现DeepSeek R1强化学习过程

AI Infra之模型显存管理分析

基于 AI 网关和 llmaz，提升 vLLM 推理服务可用性和部署易用性的实践

一次访问Redis延时高问题排查与总结（2）

沉浸式学习PostgreSQL|PolarDB 17: 向量数据库, 通义大模型AI的外脑