假设我有一个非常快的子程序,用于固定大小的unit矩阵乘法。(该子例程可能涉及硬件加速)说,一个称为quantum_unmm_256(A, U, m)右乘a m乘以256矩阵A与256 x 256 ary矩阵U 的函数。
现在,我想用一个大小为256的倍数的a矩阵乘以1280x1280 ary矩阵。什么样的快速算法可以最好地利用fast子例程?
假定所有矩阵都是密集的,具有64位或128位浮点复数类型。
这不是一个完整的答案,但是评论太久了:
(1280x1280)如果将其重塑为(4, 256, 4, 256),然后移至,则使用它可能会更容易(4,4,256,256)。但是,即使那样也可能需要copy()确保最里面的块(numpy项)是连续的。
它甚至可以转换为(4,4)对象dtype数组,其中每个元素都是您的“快速”单一数组。
如果需要,我可以详细说明这些操作,但是我怀疑您有足够的技巧来做到这一点。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。