官方博客-第21页-阿里云开发者社区

ModelScope

2024-05-15

1188

vLLM部署Yuan2.0：高吞吐、更便捷

vLLM是UC Berkeley开源的大语言模型高速推理框架，其内存管理核心——PagedAttention、内置的加速算法如Continues Batching等，一方面可以提升Yuan2.0模型推理部署时的内存使用效率，另一方面可以大幅提升在实时应用场景下Yuan2.0的吞吐量。

ModelScope

1,188

浅奕

2024-09-24

596

通过实验深入了解 TCP 数据的发送和接收

本系列文章是组内写给新人和实习生的 TCP入门系列教程，结合了理论和实践，本篇为第二篇，建议先读上篇《通过实验深入了解TCP 连接的建立和关闭》。

浅奕

596

右予故黎

2024-11-21

1008

“无”中生有：基于知识增强的RAG优化实践

本文作者基于自身在RAG技术领域长达半年的实践经验，分享了从初识RAG的潜力到面对实际应用挑战的心路历程，以及如何通过一系列优化措施逐步解决这些挑战的过程。

右予故黎

1,008

阿里云云原生

2025-01-26

1289

最近谈论 SSE 和 WebSocket 的人越来越多的原因

实时通信已经成了大模型应用的标配。

阿里云云原生

1,289

新念

2025-02-14

1469

DeepSeek-V3 高效训练关键技术分析

本文从模型架构、并行策略、通信优化和显存优化四个方面展开，深入分析了DeepSeek-V3高效训练的关键技术，探讨其如何以仅5%的算力实现对标GPT-4o的性能。

新念

1,469

望宸

2025-02-20

688

大模型推理服务全景图

推理性能的提升涉及底层硬件、模型层，以及其他各个软件中间件层的相互协同，因此了解大模型技术架构的全局视角，有助于我们对推理性能的优化方案进行评估和选型。

望宸

688

言澈

2025-02-28

1218

进行GPU算力管理

本篇主要简单介绍了在AI时代由‘大参数、大数据、大算力’需求下，对GPU算力管理和分配带来的挑战。以及面对这些挑战，GPU算力需要从单卡算力管理、单机多卡算力管理、多机多卡算力管理等多个方面发展出来的业界通用的技术。

言澈

1,218

阿里云云原生

2025-04-07

712

极氪汽车云原生架构落地实践

随着极氪数字业务的飞速发展，背后的 IT 技术也在不断更新迭代。极氪极为重视客户对服务的体验，并将系统稳定性、业务功能的迭代效率、问题的快速定位和解决视为构建核心竞争力的基石。

阿里云云原生

712

阿里云云原生

2025-06-24

584

通义灵码用户说 | 编程智能体+MCP加持，秒查附近蜜雪冰城

通义灵码现已全面支持Qwen3，新增智能体模式，具备自主决策、环境感知、工具使用等能力，可端到端完成编码任务。支持问答、文件编辑、智能体多模式自由切换，结合MCP工具与记忆功能，提升开发效率。AI IDE重构编程流程，让开发更智能高效。

阿里云云原生

584

官方博客-第21页-阿里云开发者社区

类目筛选

内容类型

vLLM部署Yuan2.0：高吞吐、更便捷

通过实验深入了解 TCP 数据的发送和接收

“无”中生有：基于知识增强的RAG优化实践

最近谈论 SSE 和 WebSocket 的人越来越多的原因

DeepSeek-V3 高效训练关键技术分析

大模型推理服务全景图

进行GPU算力管理

极氪汽车云原生架构落地实践

通义灵码用户说 | 编程智能体+MCP加持，秒查附近蜜雪冰城

官方博客-第21页-阿里云开发者社区

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

类目筛选

内容类型

vLLM部署Yuan2.0：高吞吐、更便捷

通过实验深入了解 TCP 数据的发送和接收

“无”中生有：基于知识增强的RAG优化实践

最近谈论 SSE 和 WebSocket 的人越来越多的原因

DeepSeek-V3 高效训练关键技术分析

大模型推理服务全景图

进行GPU算力管理

极氪汽车云原生架构落地实践

通义灵码用户说 | 编程智能体+MCP加持，秒查附近蜜雪冰城