开发者社区> 问答> 正文

带块加速的快速unit矩阵乘法

假设我有一个非常快的子程序,用于固定大小的unit矩阵乘法。(该子例程可能涉及硬件加速)说,一个称为quantum_unmm_256(A, U, m)右乘a m乘以256矩阵A与256 x 256 ary矩阵U 的函数。

现在,我想用一个大小为256的倍数的a矩阵乘以1280x1280 ary矩阵。什么样的快速算法可以最好地利用fast子例程?

假定所有矩阵都是密集的,具有64位或128位浮点复数类型。

展开
收起
游客ufivfoddcd53c 2020-01-04 19:18:21 2614 0
1 条回答
写回答
取消 提交回答
  • 这不是一个完整的答案,但是评论太久了:

    (1280x1280)如果将其重塑为(4, 256, 4, 256),然后移至,则使用它可能会更容易(4,4,256,256)。但是,即使那样也可能需要copy()确保最里面的块(numpy项)是连续的。

    它甚至可以转换为(4,4)对象dtype数组,其中每个元素都是您的“快速”单一数组。

    如果需要,我可以详细说明这些操作,但是我怀疑您有足够的技巧来做到这一点。

    2020-01-04 19:18:35
    赞同 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载