快速入门数字芯片设计,UCSD ECE111(七)enum枚举类型&优化SHA256哈希算法(二)

简介: 快速入门数字芯片设计,UCSD ECE111(七)enum枚举类型&优化SHA256哈希算法(二)

我们看一下这段运算的关键路径在哪里。由于这一段是组合逻辑赋值,因此是由先后顺序之分的。也就是通常所说的组合逻辑链路,计算得到最终的结果需要把这些时间全部给加起来(不考虑中间变量被优化掉)。需要多次位运算,多个32bit的加法,这些时间显然是很长的。

除此之外还有个难题就是W[n]数组。 对于一个Block而言,�� 一共有64组,用于64轮的计算。一个最简单明了的方法,就是用二维数组去实现它。如果我们按照上面的代码去写,会有什么问题呢?

  • 首先就是需要64个32bit的寄存器,众所周知,寄存器很贵,这也是为什么现代CPU使用的寄存器组也不多
  • 一个更严重的问题就是,它需要多个64选1的多路选择器

大家可能不理解这是为什么,我不就是用到了前16组数据吗?怎么就需要64选1的MUX了。这是因为我们代码这样写,数组的索引含有变量t,综合器综合的时候并不知道你是怎么选的,它默认按照覆盖全范围的考虑方式,因此会生成多个64选一的MUX。学过数字电路的同学都知道,64选1的MUX实际上是由多个8选1的MUX搭起来的。因此开销非常大,无法接受。其生成的电路如下图所示:

事实上我们思考一下,你真的需要同时存储64个不同的 �� (t=0,1..63)吗?这样预先进行计算,但是用的时候需要64选1的逻辑,同样会增加逻辑延迟,这个方法并不好!

如果我们只存储16个,那么我们计算第16个W的时候,只需要通过上面这个简单的逻辑运算,就可以得出W[16]了,这样节省了大量的资源。

如上图所示,因为 �� 是算完第t轮就没有用了,所以完全可以采用上面这种移位寄存器的方式进行替换。

基于这种优化方式会有显著的提升。

如何进一步提升主频呢?重点就是挖掘没有依赖的逻辑,实现他们的并行,同时将无法并行的逻辑采用流水线的方式,以减少某级的延迟。这样可以充分提高主频以及吞吐率。

我们仔细看上面的运算逻辑,对于下一轮的a而言,它由t1+t2得到。而t1和t2由依赖于这一轮的a,b。也就是存在严重的数据依赖。怎么解决呢?

去找非依赖项!上面运算中的k和w是并不依赖于A~H。事实上给定了这一轮的Block,k和w是完全确定的。因此我们可以提前一个周期计算好k和w。由于我们没有存储所以的W数组,对于这一轮的W需要用上一轮的结果去运算,因此我们最好提前两个周期就开始计算W,这样两个周期以后我们就有相应的K和W。就不需要额外的运算了!

我们还可以更加激进一点。下一轮的“h”是等于这一轮的“g”的。并且“h”自身是没有数据依赖关系的,也就是“h”自身到不会经过组合逻辑运算链路。并且我们的运算中又需要“h”。大家有想到什么吗?

其实这段话就是告诉大家,我们计算上一轮的时候。就知道下一轮的“h”是多少了,“h”又可以参与t1的运算(h,k,w我们都有了,我们就可以提前一轮把它求出来),这样就不用等到这一轮,再傻傻的等待t1算出结果了。大家可以自己想想怎么做优化,下篇文章我将讲第八课(更多地SV特性)。至于SHA256的完整设计思路,等我自己整理完以后我会单独写一篇文章作为习题课讲解(原课程中没有说明SHA256的具体设计,当做大作业留给大家完成)。


目录
相关文章
|
2月前
|
存储 算法 Java
解析HashSet的工作原理,揭示Set如何利用哈希算法和equals()方法确保元素唯一性,并通过示例代码展示了其“无重复”特性的具体应用
在Java中,Set接口以其独特的“无重复”特性脱颖而出。本文通过解析HashSet的工作原理,揭示Set如何利用哈希算法和equals()方法确保元素唯一性,并通过示例代码展示了其“无重复”特性的具体应用。
46 3
|
7天前
|
存储 关系型数据库 分布式数据库
PolarDB的PolarStore存储引擎以其高效的索引结构、优化的数据压缩算法、出色的事务处理能力著称
PolarDB的PolarStore存储引擎以其高效的索引结构、优化的数据压缩算法、出色的事务处理能力著称。本文深入解析PolarStore的内部机制及优化策略,包括合理调整索引、优化数据分布、控制事务规模等,旨在最大化其性能优势,提升数据存储与访问效率。
20 5
|
22天前
|
算法 调度
基于遗传模拟退火混合优化算法的车间作业最优调度matlab仿真,输出甘特图
车间作业调度问题(JSSP)通过遗传算法(GA)和模拟退火算法(SA)优化多个作业在并行工作中心上的加工顺序和时间,以最小化总完成时间和机器闲置时间。MATLAB2022a版本运行测试,展示了有效性和可行性。核心程序采用作业列表表示法,结合遗传操作和模拟退火过程,提高算法性能。
|
22天前
|
人工智能 算法 大数据
Linux内核中的调度算法演变:从O(1)到CFS的优化之旅###
本文深入探讨了Linux操作系统内核中进程调度算法的发展历程,聚焦于O(1)调度器向完全公平调度器(CFS)的转变。不同于传统摘要对研究背景、方法、结果和结论的概述,本文创新性地采用“技术演进时间线”的形式,简明扼要地勾勒出这一转变背后的关键技术里程碑,旨在为读者提供一个清晰的历史脉络,引领其深入了解Linux调度机制的革新之路。 ###
|
1天前
|
算法
基于大爆炸优化算法的PID控制器参数寻优matlab仿真
本研究基于大爆炸优化算法对PID控制器参数进行寻优,并通过Matlab仿真对比优化前后PID控制效果。使用MATLAB2022a实现核心程序,展示了算法迭代过程及最优PID参数的求解。大爆炸优化算法通过模拟宇宙大爆炸和大收缩过程,在搜索空间中迭代寻找全局最优解,特别适用于PID参数优化,提升控制系统性能。
|
2月前
|
人工智能 算法 数据安全/隐私保护
基于遗传优化的SVD水印嵌入提取算法matlab仿真
该算法基于遗传优化的SVD水印嵌入与提取技术,通过遗传算法优化水印嵌入参数,提高水印的鲁棒性和隐蔽性。在MATLAB2022a环境下测试,展示了优化前后的性能对比及不同干扰下的水印提取效果。核心程序实现了SVD分解、遗传算法流程及其参数优化,有效提升了水印技术的应用价值。
|
1月前
|
存储 缓存 算法
优化轮询算法以提高资源分配的效率
【10月更文挑战第13天】通过以上这些优化措施,可以在一定程度上提高轮询算法的资源分配效率,使其更好地适应不同的应用场景和需求。但需要注意的是,优化策略的选择和实施需要根据具体情况进行详细的分析和评估,以确保优化效果的最大化。
|
2月前
|
并行计算 算法 IDE
【灵码助力Cuda算法分析】分析共享内存的矩阵乘法优化
本文介绍了如何利用通义灵码在Visual Studio 2022中对基于CUDA的共享内存矩阵乘法优化代码进行深入分析。文章从整体程序结构入手,逐步深入到线程调度、矩阵分块、循环展开等关键细节,最后通过带入具体值的方式进一步解析复杂循环逻辑,展示了通义灵码在辅助理解和优化CUDA编程中的强大功能。
|
2月前
|
存储 缓存 算法
前端算法:优化与实战技巧的深度探索
【10月更文挑战第21天】前端算法:优化与实战技巧的深度探索
22 1
|
2月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于贝叶斯优化CNN-LSTM网络的数据分类识别算法matlab仿真
本项目展示了基于贝叶斯优化(BO)的CNN-LSTM网络在数据分类中的应用。通过MATLAB 2022a实现,优化前后效果对比明显。核心代码附带中文注释和操作视频,涵盖BO、CNN、LSTM理论,特别是BO优化CNN-LSTM网络的batchsize和学习率,显著提升模型性能。