游客ocguhxjgzndzq_个人页

游客ocguhxjgzndzq
个人头像照片
2
0
0

个人介绍

暂无个人介绍

擅长的技术

获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明
暂无更多信息

2025年03月

  • 03.14 11:43:44
    发表了文章 2025-03-14 11:43:44

    Attention优化重大突破!显存减半效率倍增

    本文探讨了Transformer中Attention机制的演变与优化。从2017年Transformer提出以来,各种改进如MQA、GQA、MLA等层出不穷,旨在降低计算复杂度和显存消耗,同时保持模型性能。文章首先介绍了Attention的基本原理,通过QKV矩阵运算实现序列建模。接着分析了优化方法:kv caching将计算复杂度从O(n^3)降至O(n^2),但带来显存压力;MQA、GQA等通过减少或压缩K/V降低显存需求;而NSV、MoBA等稀疏化研究进一步缓解长序列下的计算与存储负担,推动大模型向更长上下文扩展。
  • 03.14 11:27:45
    发表了文章 2025-03-14 11:27:45

    【大模型私有化部署要花多少钱?】一张图看懂你的钱用在哪

    本文探讨了高性价比实现DeepSeek大模型私有化部署的方法,分为两部分: 一是定义大模型性能指标,包括系统级(吞吐量、并发数)与用户体验级(首token生成时间、单token生成时间)指标,并通过roofline模型分析性能瓶颈; 二是评估私有化部署成本,对比不同硬件(如H20和4090)及模型选择,结合业务需求优化资源配置。适合关注数据安全与成本效益的企业参考。
  • 发表了文章 2025-03-14

    Attention优化重大突破!显存减半效率倍增

  • 发表了文章 2025-03-14

    【大模型私有化部署要花多少钱?】一张图看懂你的钱用在哪

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
暂无更多信息