软件优化的原理与实践系列之一向量化计算-阿里云开发者社区

软件优化的原理与实践系列之一向量化计算

2018-09-20 1403

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 向量化计算软件优化的原理与实践系列之一前言用过MATLAB仿真语言的同学，都有这样的经验。要尽量多用向量化运算，而不要自己手写循环语句，否则代码的执行效率会相当低下。如果你熟悉python，涉及到数值计算的时候，也要尽量的调用成熟的数值计算的库，比如numpy，而不是自己用循环去实现。一个众所周知的理由是，别人成熟的库已经经过了高度的优化，我们没有必要重复造轮子。事实上，还有另外一

向量化计算

软件优化的原理与实践系列之一

前言

用过MATLAB仿真语言的同学，都有这样的经验。要尽量多用向量化运算，而不要自己手写循环语句，否则代码的执行效率会相当低下。如果你熟悉python，涉及到数值计算的时候，也要尽量的调用成熟的数值计算的库，比如numpy，而不是自己用循环去实现。一个众所周知的理由是，别人成熟的库已经经过了高度的优化，我们没有必要重复造轮子。

事实上，还有另外一个根本性的原因是，向量化计算，就即使没有经过任何优化的代码，也会比非向量化运算要快。本篇博文将试图解释其根本性原因。

背景

现代计算机大都采用了分层的存储器结构：寄存器，cache，主存，磁盘。CPU的计算单元直接和寄存器交换信息，计算时需要把数据逐级传递到寄存器，计算得到的结果也要将结果逐级放回存储器。基于这种存储体系结构，程序员在编制软件的时候，要尽量的减少和cache，主存，磁盘这些存储器交换数据。我们把整个软件的执行实行划分为两部分，CPU真正执行运算的时间和寄存器与存储器交换数据的时间，即：