DeepSeekV3.2Exp模型详解其稀疏注意力如何提升长文本效率并开源算子与API降价-开发者社区-阿里云

DeepSeek-V3.2-Exp 发布，训练推理提效，API 同步降价

2025-09-30 1049

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 今天，我们正式发布 DeepSeek-V3.2-Exp 模型，这是一个实验性（ Experimental）的版本。作为迈向新一代架构的中间步骤，V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention（一种稀疏注意力机制…

今天，我们正式发布 DeepSeek-V3.2-Exp 模型，这是一个实验性（Experimental）的版本。作为迈向新一代架构的中间步骤，V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention（一种稀疏注意力机制），针对长文本的训练和推理效率进行了探索性的优化和验证。

目前，官方 App、网页端、小程序均已同步更新为 DeepSeek-V3.2-Exp，同时 API 大幅度降价，欢迎广大用户体验测试并向我们反馈意见。

DeepSeek Sparse Attention（DSA）

稀疏注意力机制

DeepSeek Sparse Attention（DSA）首次实现了细粒度稀疏注意力机制，在几乎不影响模型输出效果的前提下，实现了长文本训练和推理效率的大幅提升。

为了严谨地评估引入稀疏注意力带来的影响，我们特意把 DeepSeek-V3.2-Exp 的训练设置与 V3.1-Terminus 进行了严格的对齐。在各领域的公开评测集上，DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 基本持平。

论文链接 & 模型开源

DeepSeek-V3.2-Exp 模型现已在 Huggingface 与魔搭开源：

HuggingFace：

HTTPS://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

ModelScope：

HTTPS://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp

论文也已同步公开：

HTTPS://GitHub.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

TileLang & CUDA 算子开源

在新模型的研究过程中，需要设计和实现很多新的 GPU 算子。我们使用高级语言 TileLang 进行快速原型开发，以支持更深入的探索。在最后阶段，以 TileLang 作为精度基线，逐步使用底层语言实现更高效的版本。因此，本次开源的主要算子包含 TileLang 与 CUDA 两种版本。我们建议社区在进行研究性实验时，使用基于 TileLang 的版本以方便调试和快速迭代。

API 支持

得益于新模型服务成本的大幅降低，官方 API 价格也相应下调，新价格即刻生效。

在新的价格政策下，开发者调用 DeepSeek API 的成本将降低 50% 以上。

目前 API 的模型版本为 DeepSeek-V3.2-Exp，访问方式保持不变。欢迎用户使用 DeepSeek 官方的 API 服务。

用户场景对比测试

作为一个实验性的版本，DeepSeek-V3.2-Exp 虽然已经在公开评测集上得到了有效性验证，但仍然需要在用户的真实使用场景中进行范围更广、规模更大的测试，以排除在某些场景下效果欠佳的可能。为方便用户进行对比测试，我们为 DeepSeek-V3.1-Terminus 临时保留了额外的 API 访问接口。用户只需修改 base_url=「HTTPS://api.deepseek.com/v3.1_terminus_expires_on_20251015」即可访问 V3.1-Terminus，调用价格与 V3.2-Exp 相同。该接口将保留到北京时间 2025 年 10 月 15 日 23:59，更详细的使用方法请参考官方文档 HTTPS://api-docs.deepseek.com/zh-cn/guides/comparison_testing。

诚挚希望广大用户在对比测试中为我们提供宝贵的反馈意见，反馈链接：

HTTPS://feedback.deepseek.com/dsa

https://feedback.deepseek.com/dsa

DeepSeek-V3.2-Exp 发布，训练推理提效，API 同步降价

DeepSeek Sparse Attention（DSA）

稀疏注意力机制

论文链接 & 模型开源

TileLang & CUDA 算子开源

API 支持

用户场景对比测试

ModelScope模型即服务

热门文章

最新文章

相关电子书

相关实验场景