浪潮科大讯飞Altera用OpenCL实现FPGA深度学习语音识别加速方案

简介:

11月17日,在正在举行的2015全球超级计算大会(SC15)上,浪潮联合全球可编程逻辑芯片巨头Altera,以及中国最大的智能语音技术提供商科大讯飞,共同发布了一套面向深度学习、基于AlteraArria 10 FPGA平台、采用OpenCL开发语言进行并行化设计和优化的深度学习DNN的语音识别方案。同时,此次发布也标志着浪潮成为全球领先的具备GPU、MIC和FPGA三项HPC异构计算应用能力的HPC系统厂商。

浪潮科大讯飞Altera用OpenCL实现FPGA深度学习语音识别加速方案

深度学习,需要HPC“提速”

让计算机拥有接近人类的智能水平是IT行业最伟大,也是最难实现的梦想,而深度学习则是通往人工智能的漫漫长路上一项重要的技术。深度学习的出发点是通过构建深层神经网络,模拟人脑神经元和神经突触的信息和数据传输及计算,在抽象出来的规则限定下,逐渐让机器像人一样理解真实的世界。

浪潮科大讯飞Altera用OpenCL实现FPGA深度学习语音识别加速方案

不过,由于人脑每天能接触数以万计的信息并且在短短几秒内给出判断和反映,所以要实现让机器能真正像人类一样思考不仅依靠算法模型的精确,同时也需要媲美人脑计算效率的高性能计算技术。

可以说,深度学习对计算力资源的需求如同“黑洞”一般永无止境,这使得近几年异构加速技术在该领域得到越加广泛的应用,协处理器运算速度的快速提升让深度学习技术得到了硬件层面的有力支持。

FPGA,通用和专用之间的半定制化芯片

FPGA(Field-ProgrammableGate Array,现场可编程门阵列)介于专用芯片和通用芯片之间,具有一定的可编程性,可同时进行数据并行和任务并行计算,在处理特定应用时有更加明显的效率。更重要的是,FPGA具有明显的性能功耗比优势,其能耗比是CPU的10倍以上、GPU的3倍。此外,可定制化也是FPGA的一大重要特性。

浪潮科大讯飞Altera用OpenCL实现FPGA深度学习语音识别加速方案

正是因为具备极强的性能功耗比优势和定制化特点,FPGA在诸多领域得到应用,如逻辑控制,信号处理,图像处理等方面,最近更是在深度学习中的在线识别系统中开始尝试使用。

不过,传统FPGA开发采用Verilog、VHDL等硬件描述语言,对开发者要求较高,开发周期也较长,因此在高性能计算应用受到限制。而采用OpenCL,利用软件高级语言和模型编程,开发周期可大幅缩短,对于一些应用可以实现几个人月完成,为FPGA的应用发展提供了更为广阔的平台。

浪潮科大讯飞Altera用OpenCL实现FPGA深度学习语音识别加速方案

利用OpenCL实现基于FPGA平台的语音识别系统

科大讯飞拥有中国最大的语音识别系统,在常用场景下准确率已达到98%,在业内领先。。为了进一步提升DNN算法的效率和性能,科大讯飞计划在语音识别业务中启用FPGA平台,而若性能符合要求,则将在未来建造一个上万规模的FPGA语音识别系统。科大讯飞技术总监于振华表示,深度学习模型的软件算法需要不断地微调和优化,随着时间的推移,固定功能的服务器加速器效率会变得越来越低,浪费空间和电力。相比之下,FPGA可以更加灵活的定制化,并且功耗更低。这也是科大讯飞决定将DNN算法移植到FPGA平台的重要原因。

浪潮科大讯飞Altera用OpenCL实现FPGA深度学习语音识别加速方案

于是一项由浪潮、科大讯飞和Altera公司共同发起的合作诞生了——由Altera公司提供Altera Arria 10 FPGA平台,科大讯飞提供DNN识别算法,浪潮则负责完成基于FPGA 平台,采用OpenCL进行DNN的并行设计、迁移与优化。经过努力,三方最终完成了基于OpenCL的FPGA线上深度学习语音识别加速方案。该方案硬件平台采用CPU+AlteraArria 10 FPGA异构架构,软件完全采用高级编程模式OpenCL实现从CPU到FPGA的迁移,具备四大特点:

高性能:处理100 bound数据,基于IntelXeon E5-2650 V2 双路CPU(启动16个线程),DNN运行时间为242.027s,而基于Altera ARRIA 10 FPGA,DNN运行时间为84.312s,性能加速2.871倍;

低功耗:Altera Arria 10FPGA功耗为30W,Intel Xeon E5-2650 V2 双路CPU功耗为190W,FPGA功耗只有CPU的15.7%,在DNN 实际运行测试中,FPGA可实现30GFlops/W的高性能功耗比,能大大节省应用功耗成本;

易编程:采用OpenCL编程模型,基于FPGA的DNN并行程序开发完全由软件工程师完成,仅仅耗费4个人月。若采用传统的Verilog、VHDL等底层语言,同样的开发工作至少需要12个人月,并且需要软件工程师和硬件工程师配合完成。

高适用性:FPGA即可以采用DNRange模式实现数据并行,也可以采用Pipeline模式实现任务并行,从而满足了更多的应用场景,可以为更多的应用软件带来性能提升。

Altera公司服务器和存储事业部总经理DavidGamba表示,此次三方成功完成基于Altera ARRIA 10 FPGA平台的OpenCL 并行化设计与开发,创造出极高的功耗性能比,进一步验证了Altera FPGA平台的优势。本次方案的开发成功将成为FPGA在深度学习领域应用的重要参考。

浪潮科大讯飞Altera用OpenCL实现FPGA深度学习语音识别加速方案通过此次合作,三方实现了基于FPGA的HPC新异构加速模式和技术的可行性研究,在实际深度学习DNN应用的验证中,此方案在提升性能、节省功耗的同时,实现了OpenCL易编程性的印证。

谈及下一步合作,浪潮集团副总裁胡雷钧表示,浪潮一直致力于为用户提供最适合其需求的计算系统解决方案。FPGA具有极高的性能功耗比优势,浪潮将进一步和科大讯飞、Altera公司开展基于FPGA的线上语音深度学习应用合作,同时浪潮还将研发基于FPGA的通用系统方案,包括整机柜计算、网络、存储FPGA方案,并将方案推广到其它应用领域和客户。

谈及下一步合作,浪潮集团副总裁胡雷钧表示,浪潮一直致力于为用户提供最适合其需求的计算系统解决方案。FPGA具有极高的性能功耗比优势,浪潮将进一步和科大讯飞、Altera公司开展基于FPGA的线上语音深度学习应用合作,bing研发基于FPGA的通用系统方案,包括整机柜计算、网络、存储FPGA方案,并将方案推广到其它应用领域和客户。未来,CPU+FPGA或许将作为HPC新的异构模式,被越来越多的HPC大应用、数据中心、互联网深度学习等越来越多的应用领域采用。

浪潮、科大讯飞、Altera简介

浪潮依托高效能服务器和存储技术国家重点实验室、国家信息存储技术工程中心、Inspur-Intel中国并行计算联合实验室、Inspur-NIVDIA云超算创新中心等全球领先的研发创新体系,浪潮拥有从万亿次到千万亿次的超级计算机产品研发、系统建设、运维服务能力,拥有完备的HPC软硬件产品线,为中国高校科研、石油勘探、气象预报、生命基因、航天航空、制造设计、动漫渲染、环保监测等众多行业用户提供了领先优质的超算系统与应用服务,并实现国产高性能计算机系统的海外出口产业化。

科大讯飞作为中国最大的智能语音技术提供商,在智能语音技术领域有着长期的研究积累,并在语音合成、语音识别、口语评测、自然语言处理等多项技术上拥有国际领先的成果。科大讯飞的语音识别技术在常用场景下准确率已达到98%,业内领先。

Altera公司站在技术创新的最前沿,30 多年来一直为业界提供最新的可编程逻辑、工艺技术、IP 内核以及开发工具。公司的 FPGA、SoC和嵌入式处理器系统、CPLD、ASIC,以及互补技术,例如,电源解决方案等,受到了全世界各类最终市场上 12,000 多名客户的欢迎。

谈及下一步合作,浪潮集团副总裁胡雷钧表示,浪潮一直致力于为用户提供最适合其需求的计算系统解决方案。FPGA具有极高的性能功耗比优势,浪潮将进一步和科大讯飞、Altera公司开展基于FPGA的线上语音深度学习应用合作,并研发基于FPGA的通用系统方案,包括整机柜计算、网络、存储FPGA方案,并将方案推广到其它应用领域和客户。


原文发布时间为:2015年11月18日

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

相关文章
|
3月前
|
机器学习/深度学习 算法 TensorFlow
【深度学习】深度学习语音识别算法的详细解析
深度学习语音识别算法是一种基于人工神经网络的语音识别技术,其核心在于利用深度神经网络(Deep Neural Network,DNN)自动从语音信号中学习有意义的特征,并生成高效的语音识别模型。以下是对深度学习语音识别算法的详细解析
123 5
|
3月前
|
机器学习/深度学习 人工智能 算法
【语音识别算法】深度学习语音识别算法与传统语音识别算法的区别、对比及联系
深度学习语音识别算法与传统语音识别算法在理论基础、实现方式、性能表现等方面存在显著区别,同时也有一些联系。下面将从几个方面详细比较这两种方法,并给出应用实例和代码示例
44 4
|
3月前
|
机器学习/深度学习 人工智能 语音技术
使用深度学习进行语音识别:技术探索与实践
【8月更文挑战第12天】深度学习技术的快速发展为语音识别领域带来了革命性的变化。通过不断优化模型架构和算法,我们可以期待更加准确、高效和智能的语音识别系统的出现。未来,随着技术的不断进步和应用场景的不断拓展,语音识别技术将在更多领域发挥重要作用,为人类带来更加便捷和智能的生活体验。
|
4月前
|
机器学习/深度学习 自然语言处理 算法
深度学习在语音识别中的进展
【7月更文挑战第4天】深度学习在语音识别领域的应用极大地提升了语音识别的准确率和速度,为人工智能技术的发展注入了新的活力。随着技术的不断进步和研究的深入,我们有理由相信,语音识别技术将在更广泛的领域中得到应用和推广,为人类的生活和工作带来更多便利。
|
5月前
|
机器学习/深度学习 人工智能 语音技术
探索深度学习在语音识别中的应用
【6月更文挑战第6天】本文探讨了深度学习在语音识别中的应用,包括声学模型(使用RNN和CNN自动学习深层特征)和语言模型(利用RNN和LSTM捕捉上下文信息)。深度学习的优势在于强大的特征学习、端到端学习和实时性。然而,数据稀疏性、多语种及口音识别、背景噪声等问题仍是挑战。未来,深度学习有望在语音识别领域实现更多突破。
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
利用深度学习提升语音识别准确率的技术探讨
传统的语音识别技术在面对复杂的语音场景时常常表现出准确率不高的问题。本文探讨了如何利用深度学习技术,特别是深度神经网络,来提升语音识别的精度。通过分析深度学习在语音处理中的应用以及优势,我们展示了如何结合最新的研究成果和算法来解决现有技术的局限性,进一步推动语音识别技术的发展。 【7月更文挑战第3天】
243 0
|
5月前
|
机器学习/深度学习 自然语言处理 语音技术
深度学习在语音识别与自然语言理解
深度学习在语音识别与自然语言理解
49 0
|
8天前
|
算法 数据安全/隐私保护 异构计算
基于FPGA的1024QAM基带通信系统,包含testbench,高斯信道模块,误码率统计模块,可以设置不同SNR
本文介绍了基于FPGA的1024QAM调制解调系统的仿真与实现。通过Vivado 2019.2进行仿真,分别在SNR=40dB和35dB下验证了算法效果,并将数据导入Matlab生成星座图。1024QAM调制将10比特映射到复数平面上的1024个星座点之一,适用于高数据传输速率的应用。系统包含数据接口、串并转换、星座映射、调制器、解调器等模块。Verilog核心程序实现了调制、加噪声信道和解调过程,并统计误码率。
26 1
|
29天前
|
算法 数据安全/隐私保护 异构计算
基于FPGA的64QAM基带通信系统,包含testbench,高斯信道模块,误码率统计模块,可以设置不同SNR
本文介绍了基于FPGA的64QAM调制解调通信系统的设计与实现,包括信号生成、调制、解调和误码率测试。系统在Vivado 2019.2中进行了仿真,通过设置不同SNR值(15、20、25)验证了系统的性能,并展示了相应的星座图。核心程序使用Verilog语言编写,加入了信道噪声模块和误码率统计功能,提升了仿真效率。
44 4
|
29天前
|
监控 算法 数据安全/隐私保护
基于三帧差算法的运动目标检测系统FPGA实现,包含testbench和MATLAB辅助验证程序
本项目展示了基于FPGA与MATLAB实现的三帧差算法运动目标检测。使用Vivado 2019.2和MATLAB 2022a开发环境,通过对比连续三帧图像的像素值变化,有效识别运动区域。项目包括完整无水印的运行效果预览、详细中文注释的代码及操作步骤视频,适合学习和研究。