开发者社区 > ModelScope模型即服务 > 计算机视觉 > 正文

ModelScope中,flash_attn 对模型运行速度帮助大吗?

ModelScope中,flash_attn 对模型运行速度帮助大吗?

展开
收起
多麻辣哦 2023-11-08 20:42:10 216 0
2 条回答
写回答
取消 提交回答
  • 是的,Flash Attention是一种加速计算、节省显存并具有IO感知能力的精确注意力机制。它通过kernel融合和分块计算,大量减少了HBM访问次数,尽管由于后向传递中的重计算增加了额外的计算量FLOPs,但总体上减少了运行时间,使得计算速度更快,例如在GPT2的情况下,它的运行速度可以达到标准的7.6倍。因此,对于内存受限的场景,Flash Attention可以大大提高模型的运行速度。

    2023-11-09 10:49:27
    赞同 展开评论 打赏
  • 没做对比,安装的话,您参考一下这个。0457840c93bc3029e85ad4526a614acb.png——此回答整理自钉群:魔搭ModelScope开发者联盟群 ①

    2023-11-08 21:50:30
    赞同 展开评论 打赏

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

相关电子书

更多
视觉AI能力的开放现状及ModelScope实战 立即下载
ModelScope助力语音AI模型创新与应用 立即下载
低代码开发师(初级)实战教程 立即下载