• 地平线谭洪贺:AI芯片怎么降功耗?从ISSCC2017说起

    14.5中,根据算法或应用需要,可以动态配置乘法器,为一个16bit乘法,或者是2个8bit乘法,或是4个4bit乘法。这就是DVAFS和DVAS的区别了。有心的人可能早就发现了,14.2中基于LUT的可配置乘法器也是可以当做4个4bit乘...
    文章 2017-05-17 1427浏览量
  • OpenBLAS项目与矩阵乘法优化|AI 研习社

    我们的基准就是,AddDot1*4的基准上怎么做,我们想到第一点做的是,我们可不可以寄存变量来做,而不是操作内存。我可以申请一堆C 00,01这样的寄存变量,在C语言中是register double,还有矩阵A的部分,也...
    文章 2017-08-02 1495浏览量
  • 把深度学习部署到手机、树莓派等更多硬件

    同在DMLC小组的刘洪亮(phunter_lau)进一步在微博上解释了这个工作的意义:“TVM可以把模型部署到不同硬件,比如群众常问的能不能AMD的GPU,FPGA怎么搞,TVM提供这个中间层有效解决这个问题”。随后陈天奇也...
    文章 2018-01-09 2293浏览量
  • 从奔腾I的VCD播放到AI区块链播放——程序优化的魔法

    如果使用快速算法,快速算法加法移位替换乘法,一般小于16个乘法,这样相当于每个点只做了2次乘法运算,所以说IDCT快速算法是非常有效的。这时候我们思考,那时还没有SIMD技术,能不能做的更快一点呢?1、统计分析...
    文章 2018-04-23 1034浏览量
  • 重学计算机组成原理(二)-制定学习路线,攀登“性能...

    搞明白我们为什么需要CPU时钟(CPU Clock),以及寄存和内存是什么样的硬件组成的之后,我们可以再来看看,整个计算机的数据通路是如何构造出来的。数据通路,其实就是连接了整个运算和控制,并最终组成了...
    文章 2019-08-10 1756浏览量
  • 重学计算机组成原理(四)-玩玩纸带编程

    你应该学会了怎么作为人肉编译和汇编,给纸带打孔编程了,不用再对那些过打孔卡的前辈们顶礼膜拜了。4 总结 打孔卡,其实就是一种存储程序型计算机。只是这整个程序的机器码,不是通过计算机编译出来的,而是由...
    文章 2019-08-13 1881浏览量
  • 重学计算机组成原理(五)-"旋转跳跃"的指令实现

    如果没有像累加这样的寄存,那么在每次计算(加法,乘法,移位等等)后就必须要把结果写回到 内存,也许马上就得读回来。然而存取主存的速度是比从算术逻辑单元到有直接路径的累加存取更慢。第二个操作数0x0则是...
    文章 2019-08-15 735浏览量
  • [转载]三款SDR平台对比:HackRF,bladeRF和USRP

    相比Altera,Xilinx的FPGA中有更多的DSP模块,包括预加法器,乘法器和累加器;而Altera FPGA在DSP模块部分只有乘法器。这意味着,加法需要逻辑阵列来实现,所以同样的功能,Altera FPGA需要更多的逻辑单元。而且,...
    文章 2017-11-15 2335浏览量
  • 摩尔定律搅局者:这家公司光训练 AI,而不是GPU

    Andregg认为两年内还无法准备好最终的产品,但是他兄弟俩已经开始担心人们将怎么利用这个产品 Fathom成立时是一家公益企业,其使命是“为人工智能制造更好的硬件,改善所有人的生活”。这是为了让Fathom有权拒绝他们...
    文章 2018-02-27 1435浏览量
  • 浅谈端上智能之计算优化

    在这种架构下,每次执行乘法运算时,结果会被直接传递给后面的乘法器,并进行求和。在整个过程中,无需访问内存。去除这些访存开销,还会有额外好处,即功耗的降低。我们知道与计算相比,访存才是功耗大户。通过这种...
    文章 2019-11-05 1826浏览量
  • 低配硬件就不能运行深度神经网络了?手把手教你克服...

    那么问题来了,如果你想你想树莓派来做一个目标跟踪,为你看家守院,这可以实现吗?换句话说,如果你需要在不带加速的ARM CPU上运行卷积神经网络了怎么办?雷锋网(公众号:雷锋网)想,大概就会像下图这位小哥...
    文章 2017-08-01 2345浏览量
  • 《高性能科学与工程计算》——第2章 串行代码基本优化...

    解决这个问题的有效途径是使用硬件性能计数,可提供当前系统使用的所有处理信息,并提供芯片和系统内资源使用情况的深入分析。2.1.2节对此会有详细讨论。应该指出,在很多情况下,我们对串行代码的性能提升...
    文章 2017-07-03 862浏览量
  • “寻根问祖”深度学习只需六段代码

    让我们经典OR逻辑运行感知。输入 产量 0 0= 0 0 1= 1 1 0= 1 1 1= 1 感知Python代码实现: from random import choice from numpy import array,dot,random 1_or_0=lambda x:0 if x<0 else 1 training_data...
    文章 2017-09-23 2137浏览量
  • 【新智元专访】Nervana CEO|英特尔英伟达AI芯片霸主...

    Rao:对于目前正在使用TensorFlow的这批开发者,我们要赢得他们,还是要从硬件层面出发,只要我们能够提供足够好的理由——开发者并不需要改变前端代码,他们可以继续使用TensorFlow,elaborate、compile down to ...
    文章 2017-08-01 889浏览量
  • 阿里云大数据计算平台的自动化、精细化运维之路

    交付检查分为软件交付检查和硬件交付检查,软件交付检查就是前面介绍过的工作流,硬件交付检查主要针对 CPU、内存和磁盘,对于 CPU 做法是绑定每个 CPU 算 π,算算它的消耗时间分布,最终把曲线画出来,标准就是...
    文章 2017-02-28 10197浏览量
  • 【深度学习框架大PK】褚晓文教授:五大深度学习框架三...

    为了解决这个问题,当然有很多的解决方案,GPU了非常复杂的内存架构,是一个金字塔型的架构,最顶层是非常快的寄存,它下面还有L1级的Cache,还有L2级的Cache,还有Shared Memory。CPU的Cache对程序员是不透明的...
    文章 2017-09-20 2187浏览量
  • 揭开神经网络加速的神秘面纱之DianNao

    DianNao中计算单元称之为NFU(Neuron Function Unit),这是一个典型的点乘(dot-product)方案,可以看到这个NFU分了三个阶段,分别为:负责做乘法的NFU-1;负责做累加的NFU-2;及负责做激活函数的NFU-3。上面这个架构...
    文章 2017-07-03 6243浏览量
  • 《从问题到程序:Python学编程和计算》——第2章 ...

    为了更清楚,在表示交互式计算的情况时,我们将一直正体表示人的输入(出现在提示符之后),斜体表示解释给出的计算结果。并不是任何数字序列都是合法的Python程序单元,例如: gt;gt;gt;01 SyntaxError:...
    文章 2017-05-02 1204浏览量
  • 《从问题到程序:Python学编程和计算》——第2章 ...

    为了更清楚,在表示交互式计算的情况时,我们将一直正体表示人的输入(出现在提示符之后),斜体表示解释给出的计算结果。并不是任何数字序列都是合法的Python程序单元,例如: gt;gt;gt;01 SyntaxError:...
    文章 2017-07-03 1801浏览量
  • 《计算机科学概论》—第1章1.2节计算的历史

    17世纪末,德国数学家Gottfried Wilhelm von Leibniz建造了第一台能够进行四种整数运算(加法、减法、乘法和除法)的机械设备。遗憾的是,当时的机械齿轮和操作杆的水平有限,这使Leibniz机的结果不那么可信。18世纪...
    文章 2017-05-02 1195浏览量
  • 【干货储备】C++性能优化

    以rdtsc为计时方式,我们可实现一个性能分析profiler,测量出函数调用和虚函数调用的额外开销(不同的软硬件会影响测试数据),可以发现开销是很低的。我们前面说的测试方式属于插桩测试。插桩测试的开销随测试...
    文章 2021-09-30 131浏览量
  • 车真的那么容易偷吗?汽车无线钥匙通信安全科普

    但是你仍然要接触到钥匙,还要懂得怎么测量控制的功耗,能分析出啥时候在算乘法啥时候在算加法……估计全世界懂这个技术的人也不多了。所以!开车门也不是那么容易的。实践中,小偷们的开门方法其实是这样的。以上...
    文章 2017-11-21 1491浏览量
  • Web 高级着色语言(WHLSL)-为WebGPU设计的Web图形...

    当编译看到上面的代码时,它知道乘法运算符要求参数类型相同,第一个参数显然是浮点数。所以,当编译看到 float(a)5 时,它说“好吧,我知道第一个参数是一个浮点数,这意味着我必须使用(浮点数,浮点数)重载...
    文章 2019-08-06 1427浏览量
  • 未来计算是什么样的?张晓东、丛京生等六大教授这样说

    Luis CEZE:我不觉得 CMOS 会消失,肯定会有 CMOS 在这里面会发挥作用,怎么用正确的技术应用在正确的领域里,我们需要很多这种团队进行研究,我相信会有很多,比如像现在的实验室也好,包括其他各种领域的科学家,...
    文章 2017-11-03 921浏览量
  • 玩深度学习选哪块英伟达 GPU?有性价比排名还不够!

    出于最初的激动,我走上了多卡交火的不归路—— 40Gbit/s 的 InfiniBand 桥接连接,我搭建了一个迷你 GPU“集群”,万分激动地试验多卡是否能有更好的表现。但很快我就发现,让神经网络在多卡上高效地并行处理,...
    文章 2017-08-02 2228浏览量
  • 脑芯编|窥脑究竟,结网造芯(三)

    有了神经元,知道了怎么把神经元连成网络,这个系列终于进入了主题——怎么实现神经网络。如果在这个问题上加一个条件,那就是“怎样芯片实现神经网络的计算”?在回答这个问题以前,让我们先去拜访两位长者——...
    文章 2017-08-01 1104浏览量
  • 自学习芯片、实时3D表情捕捉渲染,百倍DNN模型无损...

    整套HERO硬件系统采用了英特尔酷睿系列CPU,搭载英特尔Arria 10 GX系列1150型FPGA作为异构加速,能够实时处理大量数据并运行多种智能算法。英特尔中国研究员介绍,HERO平台的平台架构逻辑上分为两个主要的部分,...
    文章 2017-12-01 1857浏览量
  • FPGA 那些事儿之异构计算

    为了让您 OpenCL 实现的 FPGA 应用能够有更高的性能,您需要熟悉如下介绍的硬件。另外,将会介绍编译优化选项,有助于将您的 OpenCL 应用更好的实现 RTL 的转换和映射,并部署到 FPGA 上执行。FPGA 概览 FPGA 是高...
    文章 2016-09-28 9089浏览量
  • 《从问题到程序:Python学编程和计算》——第1章 ...

    程序存储计算机的特点就是把需要执行的程序编码,像数据一样存入计算机的存储,然后让计算机的执行部件自动提取程序的内容,执行相应操作。这样,一方面计算机能摆脱外部拖累,自己的速度快速执行程序。另一方面...
    文章 2017-05-02 510浏览量
  • 《从问题到程序:Python学编程和计算》——第1章 ...

    程序存储计算机的特点就是把需要执行的程序编码,像数据一样存入计算机的存储,然后让计算机的执行部件自动提取程序的内容,执行相应操作。这样,一方面计算机能摆脱外部拖累,自己的速度快速执行程序。另一方面...
    文章 2017-07-03 1753浏览量
1 2 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化