可靠低耗易获得的AI芯片

简介: 2017年12月20日深鉴科技CTO单羿在云栖大会北京峰会现场分享了题为《嵌入云端的智能芯片》的演讲,讲述了随着人工智能的兴起,深度学习算法的能力为人所知,对计算能力也提出了更高的要求。深鉴科技力图打造基于FPGA(一种可编程的硬件芯片,现场可编程门阵列,Field-Programmable Gate Array)的云端到边缘的深度学习处理能力,使得深度学习的计算、人工智能的引擎变得更加强大。

以下为精彩视频内容整理:

 深度学习

7a7b0d62c1e54ada38299bcce08a5d9f797cb176

深度学习是机器学习中一种基于对数据进行表征学习的方法。简单的说它是端到端的技术,互联网时代有PC平台来承载深度学习的能力,移动互联网时代有手机承载它的能力,在AI时代,它的形态可以多种多样,比如智能音箱,无人机等。在AI背后有云端强大的大脑,前端有各种各样的设备。

4ffb53b1163e8ab3c3f75d3812a5ac70c0744cf1

人工智能是目的,是结果;深度学习是方法,是工具。深度学习算法的2个关键因素是算法数据和算力(计算能力)。而计算能力中的训练需要利用大量数据中心服务器的能力训练模型,使其得到收敛,进而获得精准的模型。模型部署在服务器上,给用户提供服务时需要一个高效、低耗、易获得的处理平台,这个平台载体可能是芯片、FPGA、GPU、CPU。深度学习可以承载图像识别、人脸识别、图片分类、娱乐类的图片渲染和美化、辅助驾驶或者无人驾驶等应用。众所周知无人驾驶硬件成本很高,一部分是传感器,另一部分是GPU cluster,只有当它低成本时才是生活中易获取的辅助驾驶能力。在安防领域,中国可能有上亿颗摄像头来维护我们的平安城市,然而监控采集的高清图片高昂的运算成本无论在摄像头端还是云端都是无法接受的。

 摩尔定律和架构创新

105821456d106d426d857e502908f69a53c2b998

当处理器设计的更通用,可获得更高的灵活性,但效率低;当处理器设计的更专用,效率得到提升,但灵活性有损失。深度学习可以把很多应用套在算法框架下实现,算法本身是灵活的,设计专用硬件来完成一类算法灵活性也得以保证了。根据摩尔定律,单纯依赖单核到多核、提高频率已经很难保证性能的进一步提升。在摩尔定律不断减缓甚至会停止的情况下,架构创新会对计算能力增长起到更大的作用。深鉴科技做定制计算,针对应用领域分析其计算特征,以此优化去除算法冗余使得效率更佳。

专用体系结构优化

9f08f9057e8cfc7042d083de549c3c53ef795355

深鉴科技致力于打造软硬件同时优化的深度学习计算更高效的高性能处理平台。集中力量打造神经网络压缩编译工具链、深度学习处理器 DPU 设计、FPGA 开发与系统优化等技术能力,使用户更易获得其计算能力,工程师、程序员操作更便捷,一键部署。在工具上还有独特的技术,比如模型压缩技术,把软和硬结合在一起来做。先在软件上做压缩,然后在硬件上针对压缩的神经网络做一个专用体系结构的优化。

 此外,深鉴科技CTO单羿还分享了两个其产品在不同应用场景的表现,分别是深度学习之LSTM和在安防领域的应用。

 1.深度学习之LSTM

24dff5491a090bbba1de38cd848f8af7e7eceef2

LSTM适合时序序列,变长序列,尤其适合自然语言处理。而这其中存在大量矩阵和向量之间的乘法运算,成为运算的一个瓶颈。首先考虑算法本身是否冗余,实验结果在某公开数据集上一个100%稠密的模型得到的错误率在12左右。通过自动化软件模型压缩工具把运算量降低,准确率几乎保持不变。这主要利用了硬件的并行处理能力,众所周知CPU是串行处理的方式,需要去取指令,做译码,做计算,再把数据写回。而特定的硬件处理器好处就是可以让大量并行运算同时发挥其计算能力,使性能得到提升。通过深鉴科技的加速延时上能获得比英伟达P4的GPU好两倍的左右的效果,与CPU相比加速的倍数约在两个数量级以上。这代表着在未来深鉴科技与阿里云合作后,大规模的云计算对成本和功耗非常敏感的情况下,深鉴科技的方案会帮助阿里云明显降低功耗、减少客户的响应时间和节约服务器运营成本。

 2. CNN for Video Surveillance

67fe149831b71b2d7cbd65a401874c4a33792289

安防领域中的大多数设备都实现着人工智能算法,其处理器也是利用了并行处理的能力。深鉴科技的产品与市面上存在的处理器设计相比最大优势不是工艺和器件,而是基于对市场和应用的理解设计出的高效的架构,它使得处理器的实际利用率提升到80%到90%。目前深鉴科技还在向功耗更小,性能更高的平台方向发展。

 通过算法和商业模式的创新,人工智能可以替代人类产生巨大的商业价值,与此同时它对计算能力、计算平台也提出了很大挑战。阿里云建立了丰富的技术生态系统,对人工智能有很大帮助,深鉴科技在微观层面跟阿里宏观的架构做互补,在每一个服务器里芯片设计层面,提出新的架构来优化处理性能,降低运维成本,满足应用需求。



本文由云栖社区志愿者小组naturally整理,毛鹤审校。编辑:郭雪梅。

目录
相关文章
|
8月前
|
传感器 机器学习/深度学习 算法
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
|
8月前
|
人工智能 芯片 异构计算
英伟达要小心了!爆火的Groq芯片能翻盘吗?AI推理速度「吊打」英伟达?
随着科技的飞速发展,人工智能公司Groq挑战了英伟达的王者地位,其AI芯片不仅展现出卓越的实力,还拥有巨大的潜力。Groq设计了一种独特的推理代币经济学模式,该模式背后牵动着众多因素,却也引发了深度思考:新的技术突破来自何处?中国该如何应对并抓住变革中的机遇?Groq成本如何评估?这些都是值得研究和思考的问题。
|
1月前
|
人工智能 并行计算 程序员
【AI系统】SIMD & SIMT 与芯片架构
本文深入解析了SIMD(单指令多数据)与SIMT(单指令多线程)的计算本质及其在AI芯片中的应用,特别是NVIDIA CUDA如何实现这两种计算模式。SIMD通过单指令对多个数据进行操作,提高数据并行处理能力;而SIMT则在GPU上实现了多线程并行,每个线程独立执行相同指令,增强了灵活性和性能。文章详细探讨了两者的硬件结构、编程模型及硬件执行模型的区别与联系,为理解现代AI计算架构提供了理论基础。
91 12
|
1月前
|
人工智能 数据安全/隐私保护 数据中心
“芯片围城”下国产AI要放缓?答案或截然相反
12月2日,美国对华实施新一轮出口限制,将140余家中国企业列入贸易限制清单。对此,中国多个行业协会呼吁国内企业谨慎选择美国芯片。尽管受限企业表示影响有限,但此事件引发了关于AI领域芯片供应的担忧。华为云推出的昇腾AI云服务,提供全栈自主的算力解决方案,包括大规模算力集群、AI框架等,旨在应对AI算力需求,确保算力供给的稳定性和安全性,助力中国AI产业持续发展。
|
2月前
|
机器学习/深度学习 人工智能 并行计算
【AI系统】芯片的编程体系
本文探讨了SIMD与SIMT的区别及联系,分析了SIMT与CUDA编程的关系,深入讨论了GPU在SIMT编程的本质及其与DSA架构的关系。文章还概述了AI芯片的并行分类与并行处理硬件架构,强调了理解AI芯片编程体系的重要性,旨在帮助开发者更高效地利用AI芯片算力,促进生态繁荣。
52 0
|
2月前
|
机器学习/深度学习 存储 人工智能
【AI系统】谷歌 TPU v2 训练芯片
2017年,谷歌推出TPU v2,专为神经网络训练设计,标志着从推理转向训练的重大转变。TPU v2引入多项创新,包括Vector Memory、Vector Unit、MXU及HBM内存,以应对训练中数据并行、计算复杂度高等挑战。其高效互联技术构建了TPU v2超级计算机,显著提升大规模模型训练的效率和性能。
53 0
|
3月前
|
人工智能 安全 芯片
【通义】AI视界|谷歌 Tensor G5 芯片揭秘:1+5+2 八核 CPU,支持光线追踪
本文由【通义】自动生成,涵盖黄仁勋宣布台积电协助修复Blackwell AI芯片设计缺陷、苹果分阶段推出Apple Intelligence、OpenAI保守派老将辞职、英伟达深化与印度合作推出印地语AI模型,以及谷歌Tensor G5芯片支持光线追踪等最新科技资讯。点击链接或扫描二维码,获取更多精彩内容。
|
3月前
|
人工智能 机器人 云计算
【通义】AI视界|OpenAI据称已计划联手博通和台积电共同打造自研芯片
本文由【通义】自动生成,涵盖苹果iOS 18.2将集成ChatGPT、OpenAI联手博通和台积电自研芯片、微软指责谷歌发起影子运动、英伟达高管预测AI将呈现人类形态、OpenAI董事会主席的初创公司估值达45亿美元等热点资讯。更多精彩内容,请访问通通知道。
|
3月前
|
数据采集 人工智能 搜索推荐
【通义】AI视界|迎接Apple Intelligence,Mac家族进入M4芯片时代
本文概览了近期科技领域的五大热点:苹果宣布Apple Intelligence将于2025年4月支持中文;新款Mac将搭载M4芯片;ChatGPT周活跃用户达2.5亿,主要收入来自订阅;Meta开发AI搜索引擎减少对外部依赖;周鸿祎支持AI发展但反对构建超级智能。更多详情,访问通义平台。
|
4月前
|
机器学习/深度学习 人工智能 自动驾驶
【通义】AI视界|马斯克:特斯拉计划2025年末批量装备AI训练芯片Dojo2
本文精选了24小时内的重要AI新闻,包括特斯拉计划2025年批量装备Dojo 2芯片、英伟达股价大涨、谷歌联合创始人积极参与AI项目、中科院女工程师开源AI模型保护女性,以及快手旗下可灵AI与蓝色光标达成战略合作。更多内容敬请访问通义官网体验。