大数据技术正全面重塑芯片方案

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

由Amazon、谷歌以及Facebook等网络巨头所收集到的庞大数据集正带来旺盛的处理需求,这也直接推动了新一代芯片的构建。而其中两项最新成果将在今年6月下旬召开的计算机架构大会上得以亮相。

斯坦福大学的研究人员们将在会上介绍Plasticine,这款可重配置处理器能够提供近百倍于FPGA的每瓦处理性能提升,同时更易于编程。另外,由英伟达公司两位资深设计师打造的一款推理处理器则能够实现两倍于现有设备的性能与能源效率。

这些芯片的出现还仅仅是整个行业研发努力的冰山一角。英特尔公司去年收购了三家机器学习初创企业。而作为英特尔的竞争对手,三星以及戴尔-EMC亦决定注资Graphcore(来自英国布里斯托尔),后者为这一领域六家独立初创企业中的一家。

与此同时,英伟达公司亦在努力推动其GPU产品作为神经网络当中的训练平台。另外,该公司亦在积极调整具体架构以进一步提升相关工作的处理效果。

谷歌公司就此给出了不同答案——其认为无论是大规模x86 CPU集群还是英伟达的GPU都不足以最大程度完成这项任务。因此,谷歌方面推出了自己的两款加速版本,即TPU。

大数据技术正全面重塑芯片方案

Graphcore公司首席执行官Nigel Toon表示,“计算2.0时代已然到来; 这显然代表着计算科学的新世界。考虑到高达98%的营收皆由搜索业务这一理想的机器学习技术应用场景所提供,谷歌公司最终使用大量由TPU构建的机架——其中几乎不存在任何CPU。”

最终,机器学习芯片将广泛出现在各类嵌入式系统当中。与全年1000万台的服务器销售量相比,目前世界范围内汽车的年销售量为1800万辆。Toon指出,“自动驾驶车辆的发展前景将给这项技术带来更为广阔的空间,更重要的是这一市场目前尚未真正建立起来。”

目前行业的普遍愿景在于开发一款AI处理器,并利用其处理当前神经网络当中的训练与推理等任务——甚至希望借此催生出部分自我学习技术。此类处理器需要以大规模并行化方式提供强大性能,但同时具备低功耗以及易于编程等优势。

事实上,连此类处理器的基本运算能力都引发了热烈的讨论。在Toon看来,此类处理器应当能够将16位浮点乘法与32位加法运算相结合,从而提供最佳精度与最低错误率。

而英伟达公司在其Volta张量计算核心当中也正是使用了这一方式,这意味着Graphcore公司将于今年10月开始向合作伙伴进行早期供应的高端芯片面临着巨大的竞争压力。这家初创企业专注于利用新型芯片内/外之内存化与互连机制构建出一款能够接入各单元与集群的大型芯片。

由Kunle Olukotun带领的斯坦福大学研究人员团队也设立起类似的目标,但采用的实现途径却与Plasticine有所不同。

“多核心时代正逐步迈向终点……在机器学习这一时代背景之下,我们需要立足于现代应用本身对计算模式加以变更,”曾率先为一家初创企业设计多核心方案(此项技术最终被引入甲骨文公司的Sparc处理器)的Oluotun解释称。

“面对机器学习中的统计模型,我们真正需要的计算方式将与经典确定性计算存在巨大区别,因此这亦代表着可观的发展机遇。”

与来自布里斯托尔的竞争对手类似,斯坦福大学的研究小组同样抛弃了共享高速缓存等传统思路。“其中最令人兴奋的因素在于硬件,大家可以对其进行重新配置以实现对特定计算任务的优化,”斯坦福大学数据科学项目执行董事Stephen Eglash在介绍Plasticine时表示。

大数据技术正全面重塑芯片方案

Olukotun解释称,“我们的目标在于帮助拥有特定领域专业知识的用户在无需了解机器学习或者硬件认知的前提下构建起高质量机器学习系统。”

为了实现这一目标,斯坦福大学团队定义了Spatial,这种语言负责将算法中的各部分映射至并发处理器中的各部分。“我们立足于一套高级TensorFLow框架构建起一套完整编译器流程以表达硬件……具体来讲,其每瓦性能水平可达FPGA的10倍,而编程易行性则可达FPGA的上百倍,”Olukotun解释称。

Spatial类似于英伟达公司的Cuda GPU编程语言,但在易用性方面应该更为出色。其能够将scatter/gather或者MapReduce等函数映射至硬件当中的具体内存层级结构当中,从而实现经由DRAM与SRAM的流式数据集。

Olukotun解释称,如此一来,Pasticine处理器“即成为一个软件至上型项目”。

Eglash还意识到物联网浪潮带来的边缘计算需求必须具备对应的技术方案。“未来,我们所生产的数据量将远超面向云环境的传输能力,因此我们还需要分布式本地计算资源的协同支持。”

着眼于短期,机器学习将带来“超个性化”智能手机以自动定制用户喜好。如此一来,使用者将不再需要密码或者指纹。“手机能够在数秒钟之内即意识到当前用户是否为其真正的主人,”Eglash表示。

在工业物联网领域,推理工作已经被分配至网关处,通用电气数字公司云工程技术负责人Darren Haas解释称。“我们的一切建设项目皆可被划分为更小的设备,甚至经由Raspberry Pi单片机实现……我们将大规模模型运行在云端,并在边缘位置运行各类轻量级硬件。”

斯坦福大学构建的Plasticine是一种全新架构,并可能为Graphcore等初创企业厂商所采用。其利用并行模式与高层级抽象以捕捉具体的数据位置、内存访问模式以及控制流,从而“跨越多种不同应用密度水平”执行运算,相关论文解释称。

作为其核心,这款芯片采用16 x 8交错式计算单元(简称PCU)与模式内存单元(简称PMU)阵列,且各单元通过三条互连通道利用三种控制协议实现对接。这款113平方毫米的芯片采用Spatial以将应用程序映射至阵列当中,用以交付相当于28纳米制程FPGA芯片约95倍的性能水平以及高达77倍的每瓦性能。

Plasticine在1 GHz时钟频率运行状态下最高能耗为49瓦。其峰值单精度浮点运算性能为12.3万亿次,而片上总容量为16 MB。

PCU属于由执行嵌套模式之可重配置SIMD功能单元构成的多段式管道。PMU采用暂存式内存与专用寻址逻辑及地址解码器。

大数据技术正全面重塑芯片方案

Plasticine采用16 x 8模式计算单元(简称PCU)与模式内存单元(简称PMU)阵列,同时内置有地址生成器与交换机制

这些主单元及其它外围元件通过字级标量、多字向量与bit级控制互连实现对接,且皆使用同样的拓扑结构。各链接采用一套分布式分层控制模式以尽可能降低需要同步的单元数量,意味着其能够实现按序、流水线或者流式执行能力。

该方案“简化了编译器的映射方式并提升了执行效率,”论文当中解释称。“每个Eplasticine组件皆用于对应用程序中的特定部分进行映射:位置地址计算由PMU完成,DRAM地址计算由DRAM地址管理单元完成,而剩余数据计算则由PCU完成。”

“从本质上讲,这可以被视为一组利用特定地址单元生成邻近地址的库式内存,”Olukotun解释称。“大家只需要提供计算布局,其即可在无需解释具体指令的前提下在正确的时间将数据导流至计算单元。”

这款芯片采用四DDR通道以对接外部DRAM,并配合缓冲与管理机制以最大程度降低芯片外处理强度。

Olukotun解释称,“目前大多数机器学习类负载专注于卷积神经网络的实现,但我们的目标是更加灵活地覆盖各类不同计算密度的算法,意味着开发者可以随时对其进行调整,从而将自己的设计思路传达给硬件。”

研究人员们还面向线性代数、机器学习、数据分析以及图形分析等常用方向构建起基准测试方案,旨在利用精确的周期对设计中的综合RTL进行模拟。“我们希望能够将这些思路贯彻到芯片方案当中,并计划在未来6到18个月之内完成芯片设计。”

大数据技术正全面重塑芯片方案

Plasticine与英特尔28纳米Startix-V的性能比较结果

由九位成员组成的研究人员小组(其中七位来自英伟达公司)将出席Sparse CNN(简称SCNN)卷积神经网络推理加速器大会。该团队中包括经验丰富的微处理器设计师Joel Emer(曾协助定义并发多线程机制)以及英伟达公司首席科学家William Dally。

SCNN与“同等配置密度的CNN加速器”相比能够提供2.7倍性能水平以及2.3倍能源效率,论文指出。该芯片采取较此前项目更具进取性的设计思路,旨在消除无关紧要的数学运算并高度专注于处理CNN加权及其它操作。

除此之外,其“采用一种新的数据流以降低压缩编码过程中的加权与操作量,从而消除不必要的数据传输活动并降低存储资源需求,”论文同时强调称。“另外,SCNN的数据流将使这些加权与操作更加高效地被传递至乘法器阵列内,并在这里进行广泛使用。”

这套方案使得“较大CNN的所有活动始终处于片上各层间的缓冲区内,这将彻底消除跨层DRAM调用所带来的高昂网络资源需求。”

大数据技术正全面重塑芯片方案

SCNN采用处理元素(简称PE)阵列以操作加权与输入/输出活动

作为核心设计概念,这款芯片中的每个处理元素(简称PE)采用一套乘法器阵列,其能够接收加权与活动向量。在采用16纳米制程技术的情况下,64个PE与16个乘数可全部被纳入1个7.4平方毫米的芯片内,这意味着其尺寸相较于同等密度的CNN加速器要略大一点。

这篇论文主要探讨了SCNN与其它研究性芯片间的差异。然而,Dally表示他认为SCNN“将凭借着低密度用例的处理优势而超越其它商用型推理加速器。”

在Plasticine方面,目前公布的结果皆立足于模拟,即尚无任何芯片制备计划。Dally指出,“我们正在进行布局设计(即布局与布线)以及时序收敛规划。”

英伟达公司并没有公布任何将此类技术进行商业化的计划,仅表示“我们仍在继续推进这方面的研究工作。”



原文发布时间为:2017年5月27日

本文作者:李超

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
运维 算法 数据可视化
【2021 高校大数据挑战赛-智能运维中的异常检测与趋势预测】2 方案设计与实现-Python
文章详细介绍了参加2021高校大数据挑战赛中智能运维异常检测与趋势预测任务的方案设计与Python实现,包括问题一的异常点和异常周期检测、问题二的异常预测多变量分类问题,以及问题三的多变量KPI指标预测问题的算法过程描述和代码实现。
59 0
|
12天前
|
机器学习/深度学习 运维 分布式计算
大数据技术专业就业前景
大数据技术专业就业前景广阔,广泛应用于互联网、金融、医疗等众多行业,助力企业数字化转型。岗位涵盖大数据开发、分析、运维及管理,如大数据工程师、分析师和系统运维工程师等。这些岗位因专业性和稀缺性而享有优厚薪资,尤其在一线城市可达20万至50万年薪。随着技术进步和经验积累,从业者可晋升为高级职位或投身数据咨询、创业等领域,发展空间巨大。
25 5
|
17天前
|
人工智能 编解码 搜索推荐
大模型、大数据与显示技术深度融合 加速智慧医疗多元化场景落地
大模型、大数据与显示技术深度融合 加速智慧医疗多元化场景落地
|
2月前
|
分布式计算 搜索推荐 物联网
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
|
2月前
|
存储 人工智能 算法
AI与大数据的结合:案例分析与技术探讨
【8月更文挑战第22天】AI与大数据的结合为各行各业带来了前所未有的机遇和挑战。通过具体案例分析可以看出,AI与大数据在电商、智能驾驶、医疗等领域的应用已经取得了显著成效。未来,随着技术的不断进步和应用场景的不断拓展,AI与大数据的结合将继续推动各行业的创新与变革。
|
2月前
|
消息中间件 监控 大数据
"探索Streaming技术:如何重塑大数据未来,实时处理引领数据价值即时转化新纪元"
【8月更文挑战第10天】信息技术高速发展,数据成为推动社会进步的关键。面对数据爆炸,高效实时处理成挑战。流处理(Streaming)技术应运而生,即时处理数据流,无需积累。应用于实时监控、日志分析等场景。例如,电商平台利用流处理分析用户行为,推送个性化推荐;智能交通系统预测拥堵。结合Apache Kafka和Flink,实现从数据收集到复杂流处理的全过程。流处理技术促进数据即时价值挖掘,与AI、云计算融合,引领大数据未来发展。
97 5
|
2月前
|
机器学习/深度学习 数据采集 大数据
2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 问题二建模方案及代码实现详解
本文详细介绍了2022年第三届MathorCup高校数学建模挑战赛大数据竞赛赛道B的问题二的建模方案和Python代码实现,包括数据预处理、特征工程、模型训练以及预测结果的输出,旨在通过数据分析与建模方法帮助中国移动北京公司提升客户满意度。
54 2
|
2月前
|
大数据 数据处理 分布式计算
JSF 逆袭大数据江湖!看前端框架如何挑战数据处理极限?揭秘这场技术与勇气的较量!
【8月更文挑战第31天】在信息爆炸时代,大数据已成为企业和政府决策的关键。JavaServer Faces(JSF)作为标准的 Java Web 框架,如何与大数据技术结合,高效处理大规模数据集?本文探讨大数据的挑战与机遇,介绍 JSF 与 Hadoop、Apache Spark 等技术的融合,展示其实现高效数据存储和处理的潜力,并提供示例代码,助您构建强大的大数据系统。
35 0
|
2月前
|
机器学习/深度学习 数据采集 大数据
2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 问题一建模方案及代码实现详解
本文详细介绍了2022年第三届MathorCup高校数学建模挑战赛大数据竞赛赛道B的题目——北京移动用户体验影响因素研究,提供了问题一的建模方案、代码实现以及相关性分析,并对问题二的建模方案进行了阐述。
39 0
2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 问题一建模方案及代码实现详解
|
2月前
|
机器学习/深度学习 数据采集 算法
【 2021 MathorCup杯大数据挑战赛 A题 二手车估价】初赛复赛总结、方案代码及论文
总结了2021 MathorCup杯大数据挑战赛A题“二手车估价”的初赛和复赛经验,包括题目要求、解题思路、所用方法和结果,提供了详细的数据分析、模型构建、论文撰写和工具使用技巧,并展示了初赛和复赛的论文。
39 2

热门文章

最新文章