清华大学尹首一:AI芯片计算架构创新是实现AIoT的必然途径 | AIoT+智慧城市峰会

简介: 清华大学微纳电子系副主任、微电子学研究所副所长尹首一教授分享了他对AI算法如何在物联网设备上实现AI功能的看法以及超高能效AI芯片的最新进展。

12月20日,雷锋网主办的AIoT+智慧城市峰会在深圳举行,峰会上清华大学微纳电子系副主任、微电子学研究所副所长尹首一教授分享了他对AI算法如何在物联网设备上实现AI功能的看法以及超高能效AI芯片的最新进展。尹教授认为,未来计算架构的创新将是实现无处不在的AIoT的必然途径。

IoT AI芯片需要解决的核心问题

今天讲到的AI,其核心技术是深度学习,深度学习背后核心技术基础是神经网络。如今已被我们广泛的AI应用,如语音助手、以图搜图,其核心计算大部分都在云上完成。随着物联网场景的拓展,在很多场景中考虑到通讯延时、设备供电以及个人隐私的问题,需要在IoT终端以及传感器上实现AI计算。

TB1whdKx7zoK1RjSZFlXXai4VXa.jpg

清华大学微纳电子系副主任、微电子学研究所副所长尹首一教授

国际产业巨头,如谷歌、ARM等,均一致认为,未来的AI计算一定是分布式、分层次、分等级的综合系统,这将催生巨大的深度学习芯片市场。据美国Tractica咨询公司的统计和预测,2016到2025年这十年间深度学习芯片市场将飞速增长,到2025年市场规模将达到近700亿美金,其中会有近400亿美金的芯片应用在各种移动设备、机器人、无人机、消费电子、可穿戴设备等IoT领域。

TB1VddHxVzqK1RjSZFCXXbbxVXa.png

不过,尹教授指出,要满足IoT设备对AI的需求,需要解决的最核心的问题就是AI算力需求和IoT场景供电能力之间的巨大反差。

尹教授进一步表示,许多IoT的应用对芯片功耗有非常严格的约束,比如我们每天使用的智能手机,用户希望随时随地能够语音唤醒手机、通过语言做自然交互,这就需要手机在具备智能语音识别能力的同时还不影响手机续航。这样的AI计算所能容忍的功耗上限大概是1-2毫瓦,否则手机待机时间就会受到影响。此外,在智能家电、智能眼镜、无人机等场景下,AI计算也面临非常严苛的功耗约束。这就是实现未来AI+IoT愿景所必须解决的问题,如何在这些苛刻的功耗约束下实现超高能效的AI计算。

AIoT的AI芯片必须满足的3个条件

尹教授指出,从应用以及用户体验的角度出发,要实现满足AIoT需求的AI芯片必须满足三个条件:

第一,  可编程性,只有具备可编程性才能满足不同IoT场景下的不同AI算法的需求;

第二,  对计算密集型和访存密集型算法都非常友好,因为今天的AI算法就具备这样的特点;

第三,超高能效,某些场景下我们希望芯片能耗是毫瓦量级,有些场景甚至需要微瓦量级才能满足长时间的IoT计算需求。

超高能效AI计算芯片的进展

目前从AIoT芯片发展来看,大家正在从两个不同的维度(算法和架构)努力实现超高能效的AI计算。算法层面努力的方向是让深度神经网络模型更加紧凑。尹教授介绍,2016年开始看到学术界有很大的进展,目前已经能够把神经网络的权重位宽压缩到1bit,使网络模型实现十倍甚至几十倍的缩小。

TB1yphQx4YaK1RjSZFnXXa80pXa.png

更值得注意的是,从统计看,在极低位网络中,即便把网络压缩到1-2bit,精度仍然接近于全精度神经网络。最新成果显示,用压缩后的神经网络做检测和识别时与全精度神经网络误差只有1个百分点左右,这个差距在绝大部分的应用场景已经可以忽略不计。

除了算法层面,许多科学家在探索如何从计算架构的角度实现更高能效的AI计算,从2014年开始到今天,学术界和工业界提出了很多AI计算架构方案。但是在未来IoT场景里,目前提出的计算架构仍然难以平衡可编程性、超低功耗和特殊网络模型的需求。

从2015年开始,一种新型计算架构,Coarse-grained Reconfigurable Architecture(CGRA),获得国际学术界和工业界的广泛关注。 2015年《国际半导体技术路线图》(ITRS报告)将其视为未来大有希望的可编程计算架构。2017年美国国防部高级研究计划局(DARPA),为了保证美国未来仍然能保持国际电子信息领域的领先地位,发起了“电子复兴计划”,该计划大力布局一项被称为“软件定义硬件”的研究计划。这项计划所研究的是“运行时快速重构”的硬件架构,也就是前面提到的CGRA架构。

就在前几天宣布“开源MIPS指令集”的Wave Computing公司,雷锋网(公众号:雷锋网)在《Wave Computing将于明年提供免费MIPS架构,MIPS能在AI时代崛起吗?》一文中也进行了介绍,其AI芯片的技术来源就是CGRA。CGRA之所以受到广泛关注,正是因为可重构架构能够实现比CPU、GPU、FPGA更高的能量效率,同时还具有良好的可编程性,可以很好满足AIoT的需求。

可重构芯片的实现

尹教授介绍,清华大学可重构计算团队最早从2006年开始关注可重构架构。过去十多年时间在可重构架构的基础理论上做了很多探索性的工作。2015年开始,将可重构架构应用在AI计算、神经网络计算场景,并设计了Thinker系列AI芯片。

具体而言,Thinker系列AI芯片区别于传统处理器使用指令级可编程性的技术路线,在核心运算部件、基本处理单元和处理单元阵列等三个层次上实现了硬件可重构能力。比如在基本的乘法累加部件里实现不同位宽的自适应,很好地支持超低位宽的神经网络;在基本处理单元层面实现电路级重构,支持神经网络中的不同算子;在处理单元阵列实现架构级重构,支持不同类型的神经网络。

从2006年开始尹教授的团队已经设计了三款Thinker芯片,其最高能效可达每瓦十万亿次运算,最低功耗可达微瓦量级,可以嵌入到任何一个需要AI计算但电池有限的IoT设备中。

TB18U45x4naK1RjSZFtXXbC2VXa.png

回顾过去30年间处理器的发展历程,处理器的性能提升得益于半导体工艺进步和计算架构创新的双轮驱动。但随着摩尔定律放缓,半导体工艺的提升越来越有限。尹教授表示,去年图灵奖获得者是两位计算机体系结构的大师John Hennessy和David Patterson,他们在图灵奖的获奖感言里提到,今天是计算机体系结构的新的黄金时代。这句话很好地诠释了未来我们的技术创新和产业发展应该落脚在哪里。

AIoT+智慧城市峰会演讲视频全集稍后将在雷锋网会员【AI投研邦】里推出,并及时通知大家。大家可扫描二维码关注【AI投研邦】。

TB1CZFFxW6qK1RjSZFmXXX0PFXa.png
目录
相关文章
|
9月前
|
人工智能 架构师 关系型数据库
第二届固件技术峰会盛大召开,共探 AI 时代固件创新之路
阿里云联合字节跳动、固件联盟主办的第二届固件技术峰会在长沙顺利召开,探索AI时代固件技术发展新趋势。
|
4月前
|
人工智能 并行计算 PyTorch
以Lama Cleaner的AI去水印工具理解人工智能中经常会用到GPU来计算的CUDA是什么? 优雅草-卓伊凡
以Lama Cleaner的AI去水印工具理解人工智能中经常会用到GPU来计算的CUDA是什么? 优雅草-卓伊凡
359 4
|
6月前
|
人工智能 自然语言处理 机器人
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
|
5月前
|
人工智能 异构计算
敬请锁定《C位面对面》,洞察通用计算如何在AI时代持续赋能企业创新,助力业务发展!
敬请锁定《C位面对面》,洞察通用计算如何在AI时代持续赋能企业创新,助力业务发展!
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
​​超越CNN与RNN:为什么Transformer是AI发展的必然选择?​
本文深入解析Transformer及其在AI领域的三大突破:自然语言处理、视觉识别(ViT)与图像生成(DiT)。以“注意力即一切”为核心,揭示其如何成为AI时代的通用架构。
610 2
|
5月前
|
机器学习/深度学习 人工智能 容灾
硅谷GPU云托管:驱动AI革命的下一代计算基石
在人工智能与高性能计算席卷全球的今天,硅谷作为科技创新的心脏,正通过GPU云托管服务重新定义计算能力的边界。无论您是初创公司的机器学习工程师,还是跨国企业的研究团队,硅谷GPU云托管已成为实现突破性创新的关键基础设施。
|
9月前
|
人工智能 城市大脑 运维
2025数字中国建设峰会:阿里云+AI深入千行百业
近日,第八届数字中国建设峰会在福州召开。峰会期间,阿里云及通义大模型服务政企的一批领先成果被重点展示。
783 1
|
11月前
|
并行计算 PyTorch 算法框架/工具
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
本文探讨了如何通过技术手段混合使用AMD与NVIDIA GPU集群以支持PyTorch分布式训练。面对CUDA与ROCm框架互操作性不足的问题,文章提出利用UCC和UCX等统一通信框架实现高效数据传输,并在异构Kubernetes集群中部署任务。通过解决轻度与强度异构环境下的挑战,如计算能力不平衡、内存容量差异及通信性能优化,文章展示了如何无需重构代码即可充分利用异构硬件资源。尽管存在RDMA验证不足、通信性能次优等局限性,但该方案为最大化GPU资源利用率、降低供应商锁定提供了可行路径。源代码已公开,供读者参考实践。
979 3
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
|
12月前
|
机器学习/深度学习 人工智能 搜索推荐
BioEmu:微软黑科技炸场!生成式AI重构蛋白质模拟:千倍效率碾压传统计算,新药研发周期砍半
BioEmu 是微软推出的生成式深度学习系统,可在单个 GPU 上每小时生成数千种蛋白质结构样本,支持模拟动态变化、预测热力学性质,并显著降低计算成本。
674 2
BioEmu:微软黑科技炸场!生成式AI重构蛋白质模拟:千倍效率碾压传统计算,新药研发周期砍半
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与情感计算:AI如何理解人类情感
人工智能与情感计算:AI如何理解人类情感
2503 20