2018 AI趋势:AI芯片更丰富,用机器学习的企业翻倍 | 德勤报告

简介:
本文来自AI新媒体量子位(QbitAI)

这是一个急速变化但又有很强发展衔接性的时代。

德勤在最新报告Technology, Media and Telecommunications Predictions(科技、传媒和通讯的预测)开头这样说。

这份报告中,德勤预测了增强现实(AR)、智能手机、AI芯片、机器学习、互联网、数字传媒等领域在2018年的大趋势。总体来讲,科技、传媒和通讯领域内将呈现指数级进步,生活中的方方面面也将发生不易察觉的变化。

这份报告长达80页,量子位将其中与人工智能相关的两部分编译整理如下。在2017年的尾巴,我们提前去2018年预览一下。

AI芯片

强大的运算力对训练和推理神经网络来说必不可少。

2009年,第一块GPU问世,这种专门为密集型计算、高度并行计算设计的芯片,比CPU更能满足机器学习任务的要求。自此,越来越多的类型开始丰富“AI芯片”这个新名词。

德勤预测,2018年,GPU和CPU仍是机器学习领域的主流芯片。

GPU的市场需求量大概在50万块左右,在机器学习任务中对FPGA的需求超过20万块,而ASIC芯片的需求量在10万块左右。

 GPU、FPGA和ASIC芯片需求与2016年对比图

在年底,超过25%的数据中心中用来加速机器学习的芯片将为FPGA和ASIC芯片。

 FPGA和ASIC芯片的市场份额超过25%

那么,每种类型的芯片到底向什么方向发展,德勤给出了详细的预测:

机器学习优化的GPU:在2018年,GPU制造者将推出专门优化机器学习任务的特别版GPU。其实现在已经能看到这样的案例,英伟达称自己的Volta架构将使深度学习训练加速12倍,在深度学习推理任务上比Pascal架构还要快6倍。

机器学习优化的CPU:在GPU市场蒸蒸日上的同时,我们也可以看到CPU公司推出机器学习专用的CPU芯片。比如英特尔Knights Mill芯片,比非机器学习优化芯片的性能提升了4倍。

机器学习优化的FPGA:在2016年,全球FPGA芯片的销售额已经超过40亿美元。在2017年年初报告《
Can FPGAs Beat GPUs in Accelerating Next-Generation Deep Neural Networks?》中,研究人员表示在某些情况下,FPGA的速度和运算力可能比GPU还要强。

目前,微软、亚马逊AWS和百度也称将FPGA用于机器学习的相关任务中。总体来说,2018年机器学习任务对FPGA的需求超过了20万。

机器学习优化的ASIC芯片:ASIC是只执行单一任务的芯片,目前ASIC芯片的制造厂商很多。在2017年,整个产业的总收益大约在150亿美元左右。

综合各芯片厂商放出的消息,英特尔的收购的Nervana,能在2018年生产出自己的芯片。此外,日本富士通也计划在2018年推出一款名为深度学习单元(DLU)的芯片。

TPU:TPU是谷歌为适应机器学习任务推出的ASIC芯片,适用于处理在开源的TensorFlow中的任务。在谷歌数据中心的推理任务中,TPU已经显示出良好的性能,和CPU相比,性能可以提升10到50倍。据谷歌预测的数据显示,2018年对TPU的需求大约在10万块左右。

低能耗机器学习加速芯片:德勤预测,在2018年,手机、平板和其他移动设备对机器学习芯片的需求量在5亿左右。移动端芯片的最大特点就是低能耗,GPU芯片的功率大致在250瓦左右,相比之下TPU芯片需要的功率仅为75瓦。对传感器网络来说,所需功率需要低于10毫瓦。

德勤预测,可能再过两三年,低功率的机器学习芯片才能有突破性进展。

光流芯片:除了上面几种,还有一种特殊的芯片类型,IBM的True North芯片就是一种光流芯片,它能加速机器学习任务,并且非常高效。不过德勤表示,现在还很难预测这种光流芯片在2018年的体量,但整体来说可能低于10万块,甚至低于1万块。

机器学习

德勤预测,在2018年,大中型企业将更加看重机器学习在行业中的应用。和2017年相比,用机器学习部署和实现的项目将翻倍,并且2020年将再次翻倍。

 翻倍再翻倍

在报告中,德勤重点提出了让机器学习更广泛应用企业中的5个重要推动力,分别为数据科学的自动化、训练数据需求的减少、训练速度的加快、解释结果和本地部署等。

1. 数据科学自动化:像数据开发和特征工程这种耗时的机器学习任务,可能会占用数据科学家80%的时间。好消息是,这种繁琐的工作正在逐步被自动化取代。从耗时的工作解放出来后,数据科学家执行机器学习试验的时间从几个月缩短到了几天。自动化在一定程度上缓解了数据科学家的短缺,为企业赋予和更多活力。

2. 减少训练数据的需求:训练一个机器学习模型可能需要数以百万计的数据元素,为训练数据获取标记数据也是一件耗时且成本高的事情。目前,已经涌现出致力于减少机器学习需要的训练数据的技术,包括数据合成、算法生成的模拟真实数据特征等。

3. 加速训练:正如上面所说,像GPU、FPGA等机器学习专有硬件的出现可以缩短机器学习模型的训练时间,加速研究进展。

4. 解释结果:虽然机器学习的进展日新月异,但机器学习模型通常存在关键缺陷,比如黑箱,意味着我们无法解释其中的原理。这些不清楚让模型无法适应更多的应用。如果黑箱消失、结果都可解释,是机器学习应用的一大进步。

5. 本地部署:机器学习将随着部署能力一同成长。德勤去年曾经预测,机器学习正在走进移动设备和智能传感器,带来智能家庭、智慧城市、无人驾驶、可穿戴技术和物联网技术。

像谷歌、微软、Facebook等科技巨头正在尝试将机器学习模型压缩到便携设备上,比如谷歌的TensorFlow Lite、Facebook的Caffe2Go和苹果的Core ML。

相关资料

最后,附报告下载地址——

德勤报告网盘地址:
https://pan.baidu.com/s/1qXKx3sS

简笔画版报告摘要:
https://pan.baidu.com/s/1mivJvBE

本文作者:安妮 
原文发布时间:2017-12-14 
相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
4天前
|
存储 人工智能 自然语言处理
效率翻倍!2024免费AI流程图生成工具评测
2分钟了解有哪些好用的AI流程图生成工具。
39 4
效率翻倍!2024免费AI流程图生成工具评测
|
1月前
|
人工智能 并行计算 程序员
【AI系统】SIMD & SIMT 与芯片架构
本文深入解析了SIMD(单指令多数据)与SIMT(单指令多线程)的计算本质及其在AI芯片中的应用,特别是NVIDIA CUDA如何实现这两种计算模式。SIMD通过单指令对多个数据进行操作,提高数据并行处理能力;而SIMT则在GPU上实现了多线程并行,每个线程独立执行相同指令,增强了灵活性和性能。文章详细探讨了两者的硬件结构、编程模型及硬件执行模型的区别与联系,为理解现代AI计算架构提供了理论基础。
75 12
|
29天前
|
人工智能 数据安全/隐私保护 数据中心
“芯片围城”下国产AI要放缓?答案或截然相反
12月2日,美国对华实施新一轮出口限制,将140余家中国企业列入贸易限制清单。对此,中国多个行业协会呼吁国内企业谨慎选择美国芯片。尽管受限企业表示影响有限,但此事件引发了关于AI领域芯片供应的担忧。华为云推出的昇腾AI云服务,提供全栈自主的算力解决方案,包括大规模算力集群、AI框架等,旨在应对AI算力需求,确保算力供给的稳定性和安全性,助力中国AI产业持续发展。
|
1月前
|
人工智能 并行计算 开发者
【AI系统】从 CUDA 对 AI 芯片思考
本文从技术角度探讨英伟达生态,特别是CUDA与SIMT的关系及其对AI芯片DSA架构的影响。通过分析流水编排、SIMT前端、分支预测及交互方式,指出英伟达CUDA的成功在于其硬件设计与软件易用性的结合,为未来AI芯片的设计提供了宝贵的经验和启示。
50 5
|
1月前
|
机器学习/深度学习 人工智能 编译器
【AI系统】AI 芯片的思考
为了应对数据中心算力需求,谷歌自2014年起研发TPU,专为深度学习设计的硬件加速器。TPU加速了谷歌的机器学习任务,尤其在大模型训练和推理方面表现突出。大卫·帕特森教授加入谷歌TPU团队后,分享了TPU发展历程及技术心得,强调了AI模型对内存和算力需求的快速增长、模型结构的快速演变、生产部署中的多租户需求、SRAM与DRAM的权衡、内存优化的重要性、DSA的专业与灵活性、半导体供应链选型、编译器优化及AI应用兼容性等方面的关键挑战与解决方案。
33 2
|
2月前
|
机器学习/深度学习 人工智能 算法
【AI系统】AI芯片驱动智能革命
本课程深入解析AI模型设计演进,探讨AI算法如何影响AI芯片设计,涵盖CPU、GPU、FPGA、ASIC等主流AI芯片,旨在全面理解AI系统体系,适应后摩尔定律时代的技术挑战。
47 5
|
2月前
|
机器学习/深度学习 人工智能 并行计算
【AI系统】芯片的编程体系
本文探讨了SIMD与SIMT的区别及联系,分析了SIMT与CUDA编程的关系,深入讨论了GPU在SIMT编程的本质及其与DSA架构的关系。文章还概述了AI芯片的并行分类与并行处理硬件架构,强调了理解AI芯片编程体系的重要性,旨在帮助开发者更高效地利用AI芯片算力,促进生态繁荣。
50 0
|
2月前
|
机器学习/深度学习 存储 人工智能
【AI系统】谷歌 TPU v2 训练芯片
2017年,谷歌推出TPU v2,专为神经网络训练设计,标志着从推理转向训练的重大转变。TPU v2引入多项创新,包括Vector Memory、Vector Unit、MXU及HBM内存,以应对训练中数据并行、计算复杂度高等挑战。其高效互联技术构建了TPU v2超级计算机,显著提升大规模模型训练的效率和性能。
48 0
|
3月前
|
人工智能 安全 芯片
【通义】AI视界|谷歌 Tensor G5 芯片揭秘:1+5+2 八核 CPU,支持光线追踪
本文由【通义】自动生成,涵盖黄仁勋宣布台积电协助修复Blackwell AI芯片设计缺陷、苹果分阶段推出Apple Intelligence、OpenAI保守派老将辞职、英伟达深化与印度合作推出印地语AI模型,以及谷歌Tensor G5芯片支持光线追踪等最新科技资讯。点击链接或扫描二维码,获取更多精彩内容。
|
3月前
|
人工智能 前端开发 JavaScript
AI+脚本让我的效率翻倍,你也可以试试
本文分享了一名高级软件工程师如何利用 AI 工具(如 VSCode 插件 Codeium、通义灵码,及网页端的通义千问和 GPT-4)提升工作效率的经验。从代码生成、单元测试、脚本生成到文本润色,再到新框架学习,AI 工具在多个方面显著提高了开发效率和代码质量。文章还提供了具体示例和注意事项,帮助读者更好地应用这些工具。