备案控制台

游客ocguhxjgzndzq_个人页

游客ocguhxjgzndzq

文章

2

问答

0

视频

0

个人介绍

暂无个人介绍

擅长的技术

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明

文章
问答
视频

暂无更多信息

2025年03月

03.14 11:43:44

发表了文章 2025-03-14 11:43:44

Attention优化重大突破！显存减半效率倍增

本文探讨了Transformer中Attention机制的演变与优化。从2017年Transformer提出以来，各种改进如MQA、GQA、MLA等层出不穷，旨在降低计算复杂度和显存消耗，同时保持模型性能。文章首先介绍了Attention的基本原理，通过QKV矩阵运算实现序列建模。接着分析了优化方法：kv caching将计算复杂度从O(n^3)降至O(n^2)，但带来显存压力；MQA、GQA等通过减少或压缩K/V降低显存需求；而NSV、MoBA等稀疏化研究进一步缓解长序列下的计算与存储负担，推动大模型向更长上下文扩展。
03.14 11:27:45

发表了文章 2025-03-14 11:27:45

【大模型私有化部署要花多少钱？】一张图看懂你的钱用在哪

本文探讨了高性价比实现DeepSeek大模型私有化部署的方法，分为两部分：一是定义大模型性能指标，包括系统级（吞吐量、并发数）与用户体验级（首token生成时间、单token生成时间）指标，并通过roofline模型分析性能瓶颈；二是评估私有化部署成本，对比不同硬件（如H20和4090）及模型选择，结合业务需求优化资源配置。适合关注数据安全与成本效益的企业参考。

发表了文章 2025-03-14

Attention优化重大突破！显存减半效率倍增
发表了文章 2025-03-14

【大模型私有化部署要花多少钱？】一张图看懂你的钱用在哪

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

正在加载, 请稍后...

暂无更多信息