英特尔Omni-Path让视频深度学习性能提升近百倍

简介:

Viscovery公司已经成立8年,在2010年投入影像和视频分析。目前,行业内对流量变现这个需求非常强烈,无论是过去做移动端或者云端以及现在IoT在线视频。如今视频网站生存不易,数据量非常大,它们透过CDN、透过很多基础设施提供服务,但是怎么样让视频的投资报酬率可以回收呢。Viscovery所提供一个视频分析工具重点在于可以帮助他们在广告或者电商上做好分析功能,这就是目前的主要业务。

“借助基于英特尔全新一代至强融核处理器的高性能计算能力,Viscovery首次尝试构建CPU-Only的全新架构的视频深度学习平台,在视频流识别的能效上比传统方案提升明显。”Viscovery CEO黄俊杰这样评价KNL。借助软硬件的协同整合,Viscovery能更全面、高效的服务视频与直播平台需求,将深度学习广泛应用在商业环境之中。

Omni-Path平台让视频深度学习性能提升近百倍

Viscovery对于视频处理的需求非常强烈,但一直以来都受限于服务器性能不足,只能暂时使用其他的产品替代方案来处理。受限于网络系统、内存空间的不足,过去在做大规模运算的时候存在瓶颈,使得深度网络学习的层面没有办法增加。此次英特尔推出Omni-Path这个架构之后改变了整个应用环境,它可以节省大量的处理时间。举例来讲,过去Viscovery要花一个月的处理时间,而现在两天或者三天就可以完成了,对于客户来说更具有时效性。

Viscovery CEO 黄俊杰

此次英特尔KNL新产品的推出,也充分解决了高性能计算客户应用中的几个主要瓶颈。上一代产品没有办法针对大量的矩阵数据做有效处理,所以新的KNL处理器支持AVX512指令集。它是一个指令同时可以处理32个数据,对于深度学习确实有很大的加速效果。另外,过去受限于其他替代方案内存大小的限制、能够训练的网络的大小的限制,同时并行化、规模化的时候,4台、8台机器的时候效能没有办法线性成长。英特尔新的Omni-Path的平台比过去以太网快了10倍到100倍,同时它的响应时间也快了也非常多,有效地突破了Viscovery做分散式群体深度学习运算的瓶颈。

CPU与KNL均分负载,拒绝资源闲置

易用性方面,陈彦呈表示:Viscovery一开始就与英特尔有很密切的合作。首先,在GPU运算的时候所有代码都必须重新写,相比执行新KNL用英特尔自己的编译器就可以针对AVX的指令集做优化,自动变成用AVX512指令集,所以并行化部分,对于最终用户来说更容易一些。

Viscovery首席科学家 陈彦呈博士

此外,代码编译好之后,传统上针对GPU加速的代码是没办法在CPU上面执行的,所以传统的深度学习解决方案常常是GPU满载但是CPU闲置的状态,而现在英特尔KNL可以做协处理器的形式,在一个主CPU旁边插很多KNL,同一个代码不需要重新编译就可以直接分散在不同的运算节点上做运算,这一点对Viscovery也很有吸引力。

另外,在执行层面上,现在买100台GPU的机器可能只能快30倍,但是KNL通过Omni-Path的架构能够实现线性增长,100台可以快80、90倍以上。

基于以上这些优势,KNL比较适合Viscovery的主要应用。所以一台GPU机器能够用三天完成的话,基本符合需求。但是如果真需要在一两小时内就要把顾客新的东西“训练”好,目前用英特尔KNL+Omni-Path的架构确实有它的优势。

  X86架构KNL更具兼容性优势

对于KNL来说,大家可以发现“协处理器”的“协”去掉了,这是它很大的优势,在过去KNC叫Knights Corner,这个卡的形态和GPU类似,这种形态最大的问题就是需要既写一部分CPU代码也写一部分KNC代码或者GPU代码。

但这方面有很大问题,GPU、KNC运行的时候很多情况下CPU是闲置的,仅仅偶尔跑一下。对于KNL来说,做成x86兼容和至强一样,无论任何情况下都可以跑至强的代码,第一步是可以用起来,无论什么时候都不会闲置。无论是跑一个生命科学代码或者其他代码都可以。最傻瓜的方式是拿一个可执行文件,只要至强可以跑的都可以跑。

其次,如果花一两天更新工具里的重新编译选项,稍微设置一下,就可以获得不小的提升,轻松超过双路的E5 2697 v4的处理器。相比之下KNL的节点功耗只是双路至强节点的60%到70%,但是性能往往比它快40%到50%,这样一看性能功耗比就是两倍了。如果还想利用好KNL的优势,比如高达 500 GB/秒的可持续高内存带宽,那个内存非常有用,它对访存I/O密集型应用有很大的提升,包括机器学习。

大家知道高性能计算有一个测试的基准Linpack,它纯粹是考虑计算,不考虑I/O、缓存。现在通常会用HPCG来衡量HPC或者超级计算真实应用的效果。这种标准最后得出KNL更适合于真实应用场景,但是能够发现它是AVX512也需要一些编程,但要比CUDA容易很多,所用的时间也更少。并且英特尔的工具可以很容易的帮助用户发现软件里的热点,在什么地方可以扩展用AVX512,什么地方可以用很高性能的内存,这种情况下更易于开发。

GPU加速卡很久以前就早已被业界所熟悉,多年来的高性能计算机都通过其来进行“加速”,但应用编译需要耗费大量的人力、物力和时间成本,因此对于商业项目来说应用范围并不广泛。而当英特尔此次推出KNL以及Omni-Path架构之后这一情景得到了彻底改变,x86架构的东西兼容性没得说,高内存带宽带来提升也是巨大的,对于大规模密集型计算应用来说KNL确实堪称首选。


本文作者:云中子

来源:51CTO

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
2月前
|
存储 编解码 监控
针对3-15分钟视频的抽帧策略:让Qwen2.5 VL 32B理解视频内容
针对3-15分钟视频,提出高效抽帧策略:通过每5-10秒定间隔或关键帧检测方法,提取30-100帧关键图像,结合时间均匀采样与运动变化捕捉,降低冗余,提升Qwen2.5 VL 32B对视频内容的理解效率与准确性。
|
3月前
|
数据采集 机器学习/深度学习 编解码
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
422 0
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
|
4月前
|
存储 资源调度 并行计算
# Qwen3-8B 与 Qwen3-14B 的 TTFT 性能对比与底层原理详解
通义千问Qwen3系列是通义实验室2025年推出的最新大模型,包含多种参数版本,其中Qwen3-8B与Qwen3-14B均支持32K token上下文。Qwen3-8B参数量较小,响应更快,适合低延迟交互;Qwen3-14B参数更多,推理更强,适用于复杂任务。两者在TTFT、架构优化、量化技术及部署方案上各有侧重,满足多样应用场景需求。
2125 10
|
4月前
|
机器学习/深度学习 人工智能 测试技术
【ICML2025】大模型后训练性能4倍提升!阿里云PAI团队研究成果ChunkFlow中选
近日,阿里云 PAI 团队、通义实验室与中国科学院大学前沿交叉科学学院合作在机器学习顶级会议 ICML 2025 上发表论文 Efficient Long Context Fine-tuning with Chunk Flow。ChunkFlow 作为阿里云在变长和超长序列数据集上高效训练解决方案,针对处理变长和超长序列数据的性能问题,提出了以 Chunk 为中心的训练机制,支撑 Qwen 全系列模型的长序列续训练和微调任务,在阿里云内部的大量的业务上带来2倍以上的端到端性能收益,大大降低了训练消耗的 GPU 卡时。
|
4月前
|
人工智能 弹性计算 API
再不玩通义 VACE 模型你就过时了!一个模型搞定所有视频任务
介绍通义的开源模型在 ecs 或 acs 场景如何一键部署和使用,如何解决不同视频生成场景的问题。
|
4月前
|
人工智能 弹性计算 JSON
再不玩通义VACE模型你就过时了!一个模型搞定所有视频任务
阿里巴巴开源通义万相Wan2.1-VACE,业界功能最全的视频生成与编辑模型,支持文生视频、图像参考生成、视频重绘、局部编辑、背景延展等,统一模型实现多任务自由组合,轻量版本消费级显卡即可运行。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
415 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
6月前
|
人工智能 自然语言处理 算法
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
525 0
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
|
3月前
|
编解码 自然语言处理
通义万相开源14B数字人Wan2.2-S2V!影视级音频驱动视频生成,助力专业内容创作
今天,通义万相的视频生成模型又开源了!本次开源Wan2.2-S2V-14B,是一款音频驱动的视频生成模型,可生成影视级质感的高质量视频。
795 29