这篇文章带来ECE111第十一节课的Slides以及自己的一些补充。
该课程的网站如下:
https://link.zhihu.com/?target=http%3A//cwcserv.ucsd.edu/~billlin/classes/ECE111/index.php
还差最后一节Slides这门课就结束了,不知道这一系列文章有没有给大家提供一些帮助,如果持续跟进加上自己动手写前面几个Project的话,我想对于初学者而言还是会有很大的提升的,大家有任何意见和建议欢迎评论或者私信我。
这节课其实还是围绕上节课的Project展开的,因此我不会每一节Slides都讲,主要觉得意义不大。但是一些我觉得有帮助的设计建议我会着重讲一下,这些是需要大家重点掌握的。
哈希算法中对每一个Block一共有64轮加密,每次加密使用的是不同的 �� ,很多人设计的时候就会习惯性的使用64个这样的数组。这样设计并不是不能达到要求,但芯片的功耗、面积是需要我们重点考虑的指标。设计的时候对于可以明显优化的地方一定要重点考虑。
- 首先是避免使用64个数组,这主要是因为 �� 是具有周期性的。它的数据依赖关系只取决于这16组数据,如下图所示。对于0~15轮的�� 而言,直接就是当前的block,共512bit。对于16~31轮的�� 而言,可以发现只取决于0~29轮。可以发现距离自己最远(也就是数据依赖关系最远的也不过相差16轮)。因此从理论上只需要16个这样的数组即可。这样的数组本质上就是寄存器,当然你也可以用SRAM实现。这里为了性能好,一般是采用寄存器。除了本例之外,大家在别的设计中也需要挖掘数据依赖关系最远相差多少轮,这取决于要用几级寄存器“记忆”之前的数据!
- 然后要避免使用变量选择逻辑。如W[t]<=,我解释一下这是为什么。对于硬件而言,它没有那么聪明,知道你写出的代码实际上只要用到某个元素,它综合的时候会默认包含所有的情况,你的t如果是从0~63的话。他默认就是从你所有“有可能”的输入中选择一个进行输出,这就会生成大量64选一的逻辑。而这些逻辑的资源开销和延迟都是无法接受的。
如下图所示,你如果写这样的一个函数(组合逻辑)。硬件又怎么知道你的t是否只会选某一个值呢?它当然会考虑你的t所有可能的情况,把所有的输入都连到一个MUX,然后根据你执行过程中的t值选择其中一个进行输出,这个资源开销太大了。
为了避免这个逻辑,我们再回头看上面的�� 取值,如果我们只允许使用16组的话,那么我们在算最新一轮的�� 的话,以t=16为例。此时t-15=1。因此本质上我们使用W[1]替代W[t-15]即可。并且再思考一下,这个16组数据是在t>=16以后,一直持续不断地更新的。也就是W[16]算出来实际上会替换最旧的一个W,实际上就是一个移位寄存器,我们用计算的新值替换掉16轮之前的值!
这样写出的代码生成的电路图如下下图所示,是不是清晰太多了?每运算出来一个新的值,整个移位寄存器滑动一次,W[1]变到W[0],W[2]变到W[1],我画了一下,大家将就看。
- 还需要注意如果使用流水线实现,我们在某一拍运算的时候,会不会缺少数据?比如要算新的A~H寄存器的值,是依赖于最新一轮的W[t]的,这一组数应该提前准备好!不要等到你要算的时候发现这一组数在这一拍还没有。其实关键就是大家要提前画一下波形,哪一组数在哪一拍要准备好,这个是要明确的。靠大脑思考可能反应不过来,可以动手画一下,或者用wavedrom这种软件都是可以的。
- 还要注意关键路径的优化,这是提升时序最重要的点。我们每一轮运算其实都是算一组新的A~H寄存器的值。而计算A~H寄存器需要W[t]和K[t]的值。K[t]是常数,早就准备好了,而W[t]则是需要计算过程中实时更新的。如果我们提前准备好W[t],就不需要在这一周期用组合逻辑运算好再给别的逻辑,从而可以有效地减少逻辑延迟。
我们看一下下面那个function,可以知道计算下一轮需要上一轮的H和K,而这是早就又得了,至于W也可以提前得到,这样这三个数的和在上一拍都准备好了,可以提前进行运算。
其实上述关于组合逻辑优化的关键点就在于,我这一轮运算需要很多的中间数据,我要先运算出来这些中间数据,才能够运算我的最终数据,这个时候我们完全可以看这些中间数据可不可以提前算出来,也就是找不存在数据依赖的数据!
举个例子,就比如我要运算E=A+B+C+D。而A和B都是我上一个周期就能够运算出来的结果(这个时钟周期更新,比如A=x,B=y),而C和D是依赖于这一轮新更新的其它数据的数据,那确实不能提前运算得到。
但这样的话我们也完全可以用一个新的寄存器,提前算好F(因为A和B是上一轮进行运算的结果,因此同理F也可以在上一轮进行相应的运算得到,当然如果计算F是关键路径的话这个方法就失效了)。这样这个时钟周期的上升沿,我就已经有了F这个数据了,我只要算E=F+C+D即可。这样就少算了一个加法,就可以缩短你的关键路径!(大家可以结合下面这个PPT理解)
纸上得来终觉浅,有些东西只是单纯的讲一遍大家可能还是难以体会。大家可以针对这个SHA256运算的例子,自己去写代码试一下,看哪些中间变量确实是可以提前得到的,而不需要等新的一轮时钟上升沿到来以后再进行运算。提前准备好数据,加速你的设计。