官方博客-第29页-阿里云开发者社区

刘佳旭冯诗淳竺夏栋麻嘉豪隋吉智等

2024-12-25

612

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

聚焦近日OpenAI的大规模K8s集群故障，介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案：包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。

刘佳旭冯诗淳竺夏栋麻嘉豪隋吉智等

612

探索云世界

2025-01-02

373

云端问道11期实践教学-创建专属AI助手

本次分享意在帮助用户更加全面、深入地了解百炼的核心产品能力，并通过实际操作学会如何快速将大模型与自己的系统及应用相结合。主要包括以下三个方面： 1. 阿里云百炼产品定位和能力简介 2. 知识检索 RAG 智能体应用能力和优势 3. 最佳落地案例实践分享

探索云世界

373

阿里云云原生

2025-01-15

394

UU 跑腿云原生化，突围同城配送赛道

从架构演进、网关优化到可观测体系构建等，UU 跑腿的云原生化，让 80% 的微服务轻松上云，还做到了 1 分钟弹性伸缩，实现了 80% 的运维成本降低。

阿里云云原生

394

阿里云云原生

2025-01-22

507

两步构建 AI 总结助手，实现智能文档摘要

本方案将运用函数计算 FC，构建一套高可用性的 Web 服务，以满足用户多样化的需求。当用户发起请求时，系统内部会自动将包含文本和提示词的信息传递给百炼模型服务，百炼平台将根据后台配置调用相应的大模型服务，对文本数据进行智能识别与解析，最终将总结结果返回给用户。

阿里云云原生

507

亦达

2025-02-20

689

破解 vLLM + DeepSeek 规模化部署的“不可能三角”

vLLM 是一种便捷的大型语言模型（LLM）推理服务，旨在简化个人和企业用户对复杂模型的使用。通过 vLLM，用户可以轻松发起推理请求，享受高效、稳定的 LLM 服务。针对大规模部署 vLLM 的挑战，如大模型参数量、高效推理能力和上下文理解等，阿里云函数计算（FC）提供了 GPU 预留实例闲置计费功能，优化了性能、成本和稳定性之间的平衡。此外，FC 支持简便的部署流程和多种应用集成方式，帮助企业快速上线并管理 vLLM 服务。总结来说，vLLM 结合 FC 的解决方案为企业提供了强大的技术支持和灵活的部署选项，满足不同业务需求。

亦达

689

橙唯

2025-02-21

879

基于LLM打造沉浸式3D世界

阿里云数据可视化产品DataV团队一直在三维交互领域进行前沿探索，为了解决LLMs与3D结合的问题，近期在虚幻引擎内结合通义千问大模型家族打造了一套基于LLM的实时可交互3D世界方案，通过自然语言来与引擎内的3D世界进行交互。

橙唯

879

泓逸

2025-04-07

324

不断突破极致：SPL新版数据加工能力焕新登场

SPL 算子不仅完成了旧版 DSL 加工向更强大语法和算子形式的过渡，更将性能调优和场景适配做到了极致，解锁了时序预测和日志分析的更多可能性。作为重要的基础设施模块，SPL 加工能力将持续优化演进。未来的规划将继续聚焦通用性、性能与产品能力，为用户提供更加强大、灵活的技术支持。

泓逸

324

望雲十雨言澈

2025-04-10

520

AI Infra之模型显存管理分析

本文围绕某线上客户部署DeepSeek-R1满血版模型时进行多次压测后，发现显存占用一直上升，从未下降的现象，记录了排查过程。

望雲十雨言澈等

520

阿里云基础设施.

2025-05-01

355

ACK AI Profiling：从黑箱到透明的问题剖析

本文从一个通用的客户问题出发，描述了一个问题如何从前置排查到使用AI Profiling进行详细的排查，最后到问题定位与解决、业务执行过程的分析，从而展现一个从黑箱到透明的精细化的剖析过程。

阿里云基础设施.

355

官方博客-第29页-阿里云开发者社区

类目筛选

内容类型

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

云端问道11期实践教学-创建专属AI助手

UU 跑腿云原生化，突围同城配送赛道

两步构建 AI 总结助手，实现智能文档摘要

破解 vLLM + DeepSeek 规模化部署的“不可能三角”

基于LLM打造沉浸式3D世界

不断突破极致：SPL新版数据加工能力焕新登场

AI Infra之模型显存管理分析

ACK AI Profiling：从黑箱到透明的问题剖析

官方博客-第29页-阿里云开发者社区

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

类目筛选

内容类型

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

云端问道11期实践教学-创建专属AI助手

UU 跑腿云原生化，突围同城配送赛道

两步构建 AI 总结助手，实现智能文档摘要

破解 vLLM + DeepSeek 规模化部署的“不可能三角”

基于LLM打造沉浸式3D世界

不断突破极致：SPL新版数据加工能力焕新登场

AI Infra之模型显存管理分析

ACK AI Profiling：从黑箱到透明的问题剖析