带你读《2022技术人的百宝黑皮书》——MNN 2.0 发布 ——移动端推理引擎到通用深度学习引擎(9) https://developer.aliyun.com/article/1248029?groupCode=taobaotech
并发/算法/读写
这几类冗余的压制往往是互相冲突的,需要计算方法与内存排布的精心设计与内核计算的深度调优,寻找一个平衡点。
NC4HW4 内存布局
深度学习的CV算子往往具有如下计算特性,在C方向上计算可并行,但需要读取HW方向相邻数据。为了充分利用 SIMD 加速能力,MNN 设计了 NC4HW4 布局,以兼顾 SIMD 使用和内存访问连续的需求。
Strassen 矩阵乘算法与 Winograd 卷积算法
算法方面,MNN 采用 Strassen 算法加速矩阵乘法计算,Winograd 算法加速卷积计算
带你读《2022技术人的百宝黑皮书》——MNN 2.0 发布 ——移动端推理引擎到通用深度学习引擎(11) https://developer.aliyun.com/article/1248025?groupCode=taobaotech