清华大学尹首一:AI芯片计算架构创新是实现AIoT的必然途径 | AIoT+智慧城市峰会

简介: 清华大学微纳电子系副主任、微电子学研究所副所长尹首一教授分享了他对AI算法如何在物联网设备上实现AI功能的看法以及超高能效AI芯片的最新进展。

12月20日,雷锋网主办的AIoT+智慧城市峰会在深圳举行,峰会上清华大学微纳电子系副主任、微电子学研究所副所长尹首一教授分享了他对AI算法如何在物联网设备上实现AI功能的看法以及超高能效AI芯片的最新进展。尹教授认为,未来计算架构的创新将是实现无处不在的AIoT的必然途径。

IoT AI芯片需要解决的核心问题

今天讲到的AI,其核心技术是深度学习,深度学习背后核心技术基础是神经网络。如今已被我们广泛的AI应用,如语音助手、以图搜图,其核心计算大部分都在云上完成。随着物联网场景的拓展,在很多场景中考虑到通讯延时、设备供电以及个人隐私的问题,需要在IoT终端以及传感器上实现AI计算。

TB1whdKx7zoK1RjSZFlXXai4VXa.jpg

清华大学微纳电子系副主任、微电子学研究所副所长尹首一教授

国际产业巨头,如谷歌、ARM等,均一致认为,未来的AI计算一定是分布式、分层次、分等级的综合系统,这将催生巨大的深度学习芯片市场。据美国Tractica咨询公司的统计和预测,2016到2025年这十年间深度学习芯片市场将飞速增长,到2025年市场规模将达到近700亿美金,其中会有近400亿美金的芯片应用在各种移动设备、机器人、无人机、消费电子、可穿戴设备等IoT领域。

TB1VddHxVzqK1RjSZFCXXbbxVXa.png

不过,尹教授指出,要满足IoT设备对AI的需求,需要解决的最核心的问题就是AI算力需求和IoT场景供电能力之间的巨大反差。

尹教授进一步表示,许多IoT的应用对芯片功耗有非常严格的约束,比如我们每天使用的智能手机,用户希望随时随地能够语音唤醒手机、通过语言做自然交互,这就需要手机在具备智能语音识别能力的同时还不影响手机续航。这样的AI计算所能容忍的功耗上限大概是1-2毫瓦,否则手机待机时间就会受到影响。此外,在智能家电、智能眼镜、无人机等场景下,AI计算也面临非常严苛的功耗约束。这就是实现未来AI+IoT愿景所必须解决的问题,如何在这些苛刻的功耗约束下实现超高能效的AI计算。

AIoT的AI芯片必须满足的3个条件

尹教授指出,从应用以及用户体验的角度出发,要实现满足AIoT需求的AI芯片必须满足三个条件:

第一,  可编程性,只有具备可编程性才能满足不同IoT场景下的不同AI算法的需求;

第二,  对计算密集型和访存密集型算法都非常友好,因为今天的AI算法就具备这样的特点;

第三,超高能效,某些场景下我们希望芯片能耗是毫瓦量级,有些场景甚至需要微瓦量级才能满足长时间的IoT计算需求。

超高能效AI计算芯片的进展

目前从AIoT芯片发展来看,大家正在从两个不同的维度(算法和架构)努力实现超高能效的AI计算。算法层面努力的方向是让深度神经网络模型更加紧凑。尹教授介绍,2016年开始看到学术界有很大的进展,目前已经能够把神经网络的权重位宽压缩到1bit,使网络模型实现十倍甚至几十倍的缩小。

TB1yphQx4YaK1RjSZFnXXa80pXa.png

更值得注意的是,从统计看,在极低位网络中,即便把网络压缩到1-2bit,精度仍然接近于全精度神经网络。最新成果显示,用压缩后的神经网络做检测和识别时与全精度神经网络误差只有1个百分点左右,这个差距在绝大部分的应用场景已经可以忽略不计。

除了算法层面,许多科学家在探索如何从计算架构的角度实现更高能效的AI计算,从2014年开始到今天,学术界和工业界提出了很多AI计算架构方案。但是在未来IoT场景里,目前提出的计算架构仍然难以平衡可编程性、超低功耗和特殊网络模型的需求。

从2015年开始,一种新型计算架构,Coarse-grained Reconfigurable Architecture(CGRA),获得国际学术界和工业界的广泛关注。 2015年《国际半导体技术路线图》(ITRS报告)将其视为未来大有希望的可编程计算架构。2017年美国国防部高级研究计划局(DARPA),为了保证美国未来仍然能保持国际电子信息领域的领先地位,发起了“电子复兴计划”,该计划大力布局一项被称为“软件定义硬件”的研究计划。这项计划所研究的是“运行时快速重构”的硬件架构,也就是前面提到的CGRA架构。

就在前几天宣布“开源MIPS指令集”的Wave Computing公司,雷锋网(公众号:雷锋网)在《Wave Computing将于明年提供免费MIPS架构,MIPS能在AI时代崛起吗?》一文中也进行了介绍,其AI芯片的技术来源就是CGRA。CGRA之所以受到广泛关注,正是因为可重构架构能够实现比CPU、GPU、FPGA更高的能量效率,同时还具有良好的可编程性,可以很好满足AIoT的需求。

可重构芯片的实现

尹教授介绍,清华大学可重构计算团队最早从2006年开始关注可重构架构。过去十多年时间在可重构架构的基础理论上做了很多探索性的工作。2015年开始,将可重构架构应用在AI计算、神经网络计算场景,并设计了Thinker系列AI芯片。

具体而言,Thinker系列AI芯片区别于传统处理器使用指令级可编程性的技术路线,在核心运算部件、基本处理单元和处理单元阵列等三个层次上实现了硬件可重构能力。比如在基本的乘法累加部件里实现不同位宽的自适应,很好地支持超低位宽的神经网络;在基本处理单元层面实现电路级重构,支持神经网络中的不同算子;在处理单元阵列实现架构级重构,支持不同类型的神经网络。

从2006年开始尹教授的团队已经设计了三款Thinker芯片,其最高能效可达每瓦十万亿次运算,最低功耗可达微瓦量级,可以嵌入到任何一个需要AI计算但电池有限的IoT设备中。

TB18U45x4naK1RjSZFtXXbC2VXa.png

回顾过去30年间处理器的发展历程,处理器的性能提升得益于半导体工艺进步和计算架构创新的双轮驱动。但随着摩尔定律放缓,半导体工艺的提升越来越有限。尹教授表示,去年图灵奖获得者是两位计算机体系结构的大师John Hennessy和David Patterson,他们在图灵奖的获奖感言里提到,今天是计算机体系结构的新的黄金时代。这句话很好地诠释了未来我们的技术创新和产业发展应该落脚在哪里。

AIoT+智慧城市峰会演讲视频全集稍后将在雷锋网会员【AI投研邦】里推出,并及时通知大家。大家可扫描二维码关注【AI投研邦】。

TB1CZFFxW6qK1RjSZFmXXX0PFXa.png
目录
相关文章
|
19天前
|
人工智能 前端开发 编译器
【AI系统】LLVM 架构设计和原理
本文介绍了LLVM的诞生背景及其与GCC的区别,重点阐述了LLVM的架构特点,包括其组件独立性、中间表示(IR)的优势及整体架构。通过Clang+LLVM的实际编译案例,展示了从C代码到可执行文件的全过程,突显了LLVM在编译器领域的创新与优势。
40 3
|
14天前
|
机器学习/深度学习 人工智能 并行计算
【AI系统】Kernel 层架构
推理引擎的Kernel层负责执行底层数学运算,如矩阵乘法、卷积等,直接影响推理速度与效率。它与Runtime层紧密配合,通过算法优化、内存布局调整、汇编优化及调度优化等手段,实现高性能计算。Kernel层针对不同硬件(如CPU、GPU)进行特定优化,支持NEON、AVX、CUDA等技术,确保在多种平台上高效运行。
66 32
|
14天前
|
存储 机器学习/深度学习 人工智能
【AI系统】计算图优化架构
本文介绍了推理引擎转换中的图优化模块,涵盖算子融合、布局转换、算子替换及内存优化等技术,旨在提升模型推理效率。计算图优化技术通过减少计算冗余、提高计算效率和减少内存占用,显著改善模型在资源受限设备上的运行表现。文中详细探讨了离线优化模块面临的挑战及解决方案,包括结构冗余、精度冗余、算法冗余和读写冗余的处理方法。此外,文章还介绍了ONNX Runtime的图优化机制及其在实际应用中的实现,展示了如何通过图优化提高模型推理性能的具体示例。
45 4
【AI系统】计算图优化架构
|
16天前
|
存储 人工智能 监控
【AI系统】推理系统架构
本文深入探讨了AI推理系统架构,特别是以NVIDIA Triton Inference Server为核心,涵盖推理、部署、服务化三大环节。Triton通过高性能、可扩展、多框架支持等特点,提供了一站式的模型服务解决方案。文章还介绍了模型预编排、推理引擎、返回与监控等功能,以及自定义Backend开发和模型生命周期管理的最佳实践,如金丝雀发布和回滚策略,旨在帮助构建高效、可靠的AI应用。
76 15
|
19天前
|
人工智能 并行计算 程序员
【AI系统】SIMD & SIMT 与芯片架构
本文深入解析了SIMD(单指令多数据)与SIMT(单指令多线程)的计算本质及其在AI芯片中的应用,特别是NVIDIA CUDA如何实现这两种计算模式。SIMD通过单指令对多个数据进行操作,提高数据并行处理能力;而SIMT则在GPU上实现了多线程并行,每个线程独立执行相同指令,增强了灵活性和性能。文章详细探讨了两者的硬件结构、编程模型及硬件执行模型的区别与联系,为理解现代AI计算架构提供了理论基础。
61 12
存储 人工智能 自然语言处理
48 6
|
16天前
|
机器学习/深度学习 人工智能 API
【AI系统】昇腾异构计算架构 CANN
本文介绍了昇腾 AI 异构计算架构 CANN,涵盖硬件层面的达·芬奇架构和软件层面的全栈支持,旨在提供高性能神经网络计算所需的硬件基础和软件环境。通过多层级架构,CANN 实现了高效的 AI 应用开发与性能优化,支持多种主流 AI 框架,并提供丰富的开发工具和接口,助力开发者快速构建和优化神经网络模型。
36 1
|
19天前
|
机器学习/深度学习 人工智能 前端开发
【AI系统】AI 编译器基本架构
本文承接前文关于AI编译器发展的三个阶段,深入探讨通用AI编译器架构。文章首先回顾现有AI编译器架构,如PyTorch的转换流程及优化策略,然后介绍理想化的通用AI编译器架构,涵盖从前端接收多框架模型输入到后端生成特定硬件代码的全过程。重点解析了编译器的中间表达IR、前端与后端优化技术,以及现有AI编译器全栈产品的层次结构,为读者提供了全面的技术概览。
23 2
|
22天前
|
存储 人工智能 缓存
官宣开源 阿里云与清华大学共建AI大模型推理项目Mooncake
近日,清华大学和研究组织9#AISoft,联合以阿里云为代表的多家企业和研究机构,正式开源大模型资源池化项目 Mooncake。
|
22天前
|
人工智能 atlas 开发工具
【AI系统】昇腾 AI 架构介绍
昇腾计算产业基于华为昇腾系列处理器,涵盖硬件、基础软件、应用使能等,构建全栈AI计算基础设施。华为通过开放硬件、开源软件,支持多框架,推动AI技术在端、边、云的广泛应用,促进AI产业生态繁荣。
48 1
下一篇
DataWorks