英特尔Omni-Path让视频深度学习性能提升近百倍

简介:

Viscovery公司已经成立8年,在2010年投入影像和视频分析。目前,行业内对流量变现这个需求非常强烈,无论是过去做移动端或者云端以及现在IoT在线视频。如今视频网站生存不易,数据量非常大,它们透过CDN、透过很多基础设施提供服务,但是怎么样让视频的投资报酬率可以回收呢。Viscovery所提供一个视频分析工具重点在于可以帮助他们在广告或者电商上做好分析功能,这就是目前的主要业务。

“借助基于英特尔全新一代至强融核处理器的高性能计算能力,Viscovery首次尝试构建CPU-Only的全新架构的视频深度学习平台,在视频流识别的能效上比传统方案提升明显。”Viscovery CEO黄俊杰这样评价KNL。借助软硬件的协同整合,Viscovery能更全面、高效的服务视频与直播平台需求,将深度学习广泛应用在商业环境之中。

Omni-Path平台让视频深度学习性能提升近百倍

Viscovery对于视频处理的需求非常强烈,但一直以来都受限于服务器性能不足,只能暂时使用其他的产品替代方案来处理。受限于网络系统、内存空间的不足,过去在做大规模运算的时候存在瓶颈,使得深度网络学习的层面没有办法增加。此次英特尔推出Omni-Path这个架构之后改变了整个应用环境,它可以节省大量的处理时间。举例来讲,过去Viscovery要花一个月的处理时间,而现在两天或者三天就可以完成了,对于客户来说更具有时效性。

Viscovery CEO 黄俊杰

此次英特尔KNL新产品的推出,也充分解决了高性能计算客户应用中的几个主要瓶颈。上一代产品没有办法针对大量的矩阵数据做有效处理,所以新的KNL处理器支持AVX512指令集。它是一个指令同时可以处理32个数据,对于深度学习确实有很大的加速效果。另外,过去受限于其他替代方案内存大小的限制、能够训练的网络的大小的限制,同时并行化、规模化的时候,4台、8台机器的时候效能没有办法线性成长。英特尔新的Omni-Path的平台比过去以太网快了10倍到100倍,同时它的响应时间也快了也非常多,有效地突破了Viscovery做分散式群体深度学习运算的瓶颈。

CPU与KNL均分负载,拒绝资源闲置

易用性方面,陈彦呈表示:Viscovery一开始就与英特尔有很密切的合作。首先,在GPU运算的时候所有代码都必须重新写,相比执行新KNL用英特尔自己的编译器就可以针对AVX的指令集做优化,自动变成用AVX512指令集,所以并行化部分,对于最终用户来说更容易一些。

Viscovery首席科学家 陈彦呈博士

此外,代码编译好之后,传统上针对GPU加速的代码是没办法在CPU上面执行的,所以传统的深度学习解决方案常常是GPU满载但是CPU闲置的状态,而现在英特尔KNL可以做协处理器的形式,在一个主CPU旁边插很多KNL,同一个代码不需要重新编译就可以直接分散在不同的运算节点上做运算,这一点对Viscovery也很有吸引力。

另外,在执行层面上,现在买100台GPU的机器可能只能快30倍,但是KNL通过Omni-Path的架构能够实现线性增长,100台可以快80、90倍以上。

基于以上这些优势,KNL比较适合Viscovery的主要应用。所以一台GPU机器能够用三天完成的话,基本符合需求。但是如果真需要在一两小时内就要把顾客新的东西“训练”好,目前用英特尔KNL+Omni-Path的架构确实有它的优势。

  X86架构KNL更具兼容性优势

对于KNL来说,大家可以发现“协处理器”的“协”去掉了,这是它很大的优势,在过去KNC叫Knights Corner,这个卡的形态和GPU类似,这种形态最大的问题就是需要既写一部分CPU代码也写一部分KNC代码或者GPU代码。

但这方面有很大问题,GPU、KNC运行的时候很多情况下CPU是闲置的,仅仅偶尔跑一下。对于KNL来说,做成x86兼容和至强一样,无论任何情况下都可以跑至强的代码,第一步是可以用起来,无论什么时候都不会闲置。无论是跑一个生命科学代码或者其他代码都可以。最傻瓜的方式是拿一个可执行文件,只要至强可以跑的都可以跑。

其次,如果花一两天更新工具里的重新编译选项,稍微设置一下,就可以获得不小的提升,轻松超过双路的E5 2697 v4的处理器。相比之下KNL的节点功耗只是双路至强节点的60%到70%,但是性能往往比它快40%到50%,这样一看性能功耗比就是两倍了。如果还想利用好KNL的优势,比如高达 500 GB/秒的可持续高内存带宽,那个内存非常有用,它对访存I/O密集型应用有很大的提升,包括机器学习。

大家知道高性能计算有一个测试的基准Linpack,它纯粹是考虑计算,不考虑I/O、缓存。现在通常会用HPCG来衡量HPC或者超级计算真实应用的效果。这种标准最后得出KNL更适合于真实应用场景,但是能够发现它是AVX512也需要一些编程,但要比CUDA容易很多,所用的时间也更少。并且英特尔的工具可以很容易的帮助用户发现软件里的热点,在什么地方可以扩展用AVX512,什么地方可以用很高性能的内存,这种情况下更易于开发。

GPU加速卡很久以前就早已被业界所熟悉,多年来的高性能计算机都通过其来进行“加速”,但应用编译需要耗费大量的人力、物力和时间成本,因此对于商业项目来说应用范围并不广泛。而当英特尔此次推出KNL以及Omni-Path架构之后这一情景得到了彻底改变,x86架构的东西兼容性没得说,高内存带宽带来提升也是巨大的,对于大规模密集型计算应用来说KNL确实堪称首选。


本文作者:云中子

来源:51CTO

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
27天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的注意力机制:提升模型性能的关键
在深度学习的世界里,注意力机制如同一位精明的侦探,专注于细节之中发现线索。不同于传统方法的全局视角,它通过聚焦于输入数据的关键部分来提升模型性能。本文将带你领略注意力机制的魅力,从其工作原理到在各领域的应用实例,一探究竟如何让深度学习模型更“专注”。
|
2月前
|
机器学习/深度学习 TensorFlow 算法框架/工具
深度学习中的正则化技术及其对模型性能的影响
【8月更文挑战第26天】本文将深入探讨深度学习领域中的正则化技术,并分析其如何塑造模型性能。我们将从理论出发,逐步引导读者理解不同正则化方法背后的原理,并通过实例展示它们在实际问题中的应用效果。文章旨在启发读者思考如何在特定的深度学习任务中选择合适的正则化策略,以优化模型的表现。
|
2月前
|
机器学习/深度学习 存储 人工智能
提升深度学习性能的利器—全面解析PAI-TorchAcc的优化技术与应用场景
在当今深度学习的快速发展中,模型训练和推理的效率变得尤为重要。为了应对计算需求不断增长的挑战,AI加速引擎应运而生。其中,PAI-TorchAcc作为一个新兴的加速引擎,旨在提升PyTorch框架下的计算性能。本文将详细介绍PAI-TorchAcc的基本概念、主要特性,并通过代码实例展示其性能优势。
18105 166
|
7天前
|
机器学习/深度学习 PyTorch 调度
在Pytorch中为不同层设置不同学习率来提升性能,优化深度学习模型
在深度学习中,学习率作为关键超参数对模型收敛速度和性能至关重要。传统方法采用统一学习率,但研究表明为不同层设置差异化学习率能显著提升性能。本文探讨了这一策略的理论基础及PyTorch实现方法,包括模型定义、参数分组、优化器配置及训练流程。通过示例展示了如何为ResNet18设置不同层的学习率,并介绍了渐进式解冻和层适应学习率等高级技巧,帮助研究者更好地优化模型训练。
15 4
在Pytorch中为不同层设置不同学习率来提升性能,优化深度学习模型
|
2天前
|
机器学习/深度学习 运维 监控
深度学习之视频内容理解
基于深度学习的视频内容理解(Video Content Understanding, VCU)是一项关键技术,旨在通过神经网络模型自动分析、解读和提取视频中的语义信息。
19 10
|
2天前
|
机器学习/深度学习 自然语言处理 监控
深度学习之视频摘要生成
基于深度学习的视频摘要生成是一种通过自动化方式从长视频中提取关键片段,生成简洁且有代表性的视频摘要的技术。其目的是在保留视频主要内容的基础上,大幅缩短视频的播放时长,方便用户快速理解视频的核心信息。
18 7
|
1月前
|
机器学习/深度学习 测试技术 PyTorch
深度学习之测量GPU性能的方式
在深度学习中,测量GPU性能是一个多方面的任务,涉及运行时间、吞吐量、GPU利用率、内存使用情况、计算能力、端到端性能测试、显存带宽、框架自带性能工具和基准测试工具等多种方法。通过综合使用这些方法,可以全面评估和优化GPU的性能,提升深度学习任务的效率和效果。
65 2
|
2月前
|
存储 机器学习/深度学习 算法
Adam-mini:内存占用减半,性能更优的深度学习优化器
论文提出一种新的优化器Adam-mini,在不牺牲性能的情况下减少Adam优化器的内存占用。
98 10
Adam-mini:内存占用减半,性能更优的深度学习优化器
|
2月前
|
机器学习/深度学习 监控
深度学习中的正则化技术及其对模型性能的影响
【8月更文挑战第23天】在深度学习的探索旅程中,正则化技术如同指南针,引导我们避免过拟合的陷阱,确保模型泛化的稳健性。本文将深入探讨正则化技术的核心原理,分析其如何通过引入约束来平衡模型复杂度与训练数据之间的关系。从早期的L1和L2正则化到现代的Dropout和数据增强,我们将一探究竟,这些方法如何影响模型的学习过程,以及它们在实际应用中的表现。通过本文,您将获得关于如何合理应用正则化技术以提升模型性能的深刻见解。
|
2月前
|
机器学习/深度学习 人工智能 算法
深度学习之材料性能预测
基于深度学习的材料性能预测是材料科学领域的一个前沿研究方向,它结合了人工智能和材料学,通过分析和建模复杂的材料数据,来预测材料的性能和特性。
40 3
下一篇
无影云桌面