腾讯AI Lab公布首项研究:提出独特神经网络实现实时视频风格变换

简介: 风格变换一直是机器学习领域内的一项重要任务,很多研究机构和研究者都在努力打造速度更快、计算成本更低的风格变换机器学习系统,比如《怎么让你的照片带上艺术大师风格?李飞飞团队开源快速神经网络风格迁移代码》、《谷歌增强型风格迁移新算法:实现基于单个网络的多种风格实时迁移》。如今新成立的腾讯 AI Lab 也加入了此行列,在此文章中机器之心对腾讯 AI Lab 的视频风格变换的研究进行了独家报道。

风格变换一直是机器学习领域内的一项重要任务,很多研究机构和研究者都在努力打造速度更快、计算成本更低的风格变换机器学习系统,比如《怎么让你的照片带上艺术大师风格?李飞飞团队开源快速神经网络风格迁移代码》、《谷歌增强型风格迁移新算法:实现基于单个网络的多种风格实时迁移》。如今新成立的腾讯 AI Lab 也加入了此行列,在此文章中机器之心对腾讯 AI Lab 的视频风格变换的研究进行了独家报道。


E022B913-54C1-46EB-AB76-2841BB1142A5.jpeg

几天前,Facebook 在其官方博客上宣布了一种可以用在移动设备实现实时风格的深度学习系统 Caffe2Go,称能在眨眼之间完成处理的任务,而且还能实现高质量的视频风格变换。


而鲜为人知的是,腾讯新成立的人工智能研究部门腾讯 AI Lab 也在做这方面的研究,技术团队告诉我们腾讯 AI Lab 早在 9 月中就已经研发出了实时的视频风格变换技术,并用此技术对一些电影进行了风格变化,制作了非常酷炫的艺术人工智能电影,在腾讯内部已经有过展示。腾讯 AI Lab 的研究表示,他们已通过首创深度网络学习视频的时空一致性,在很大程度上提高了视频风格变换的质量。


10B43878-F78D-4DBB-A71A-52998A0D6AC7.jpeg

点击查看原视频



近日,机器之心对腾讯 AI Lab 的研究团队进行了独家专访,这也是腾讯 AI Lab 研究团队首次对外发声。


风格变换简史


将一张图像的风格变换成另一种风格的技术已经存在了近 15 年。2001 年,当时加州大学伯克利分校的 Alexei A. Efros 联合另外一位作者在论文《Image Quilting for Texture Synthesis and Transfer》中介绍了一种简单的基于纹理合成的方法,通过「缝合」已有的小型图像块合成新的图像外貌。


但利用神经网络来做这件事是最近才出现的。在论文《A Neural Algorithm of Artistic Style》中,研究者 Gatys、Ecker 和 Bethge 介绍了一种使用深度卷积神经网络(CNN)的方法。他们的风格转换图像是通过优化(optimization)得到的。


一方面,CNN 的高层特征描述了图像的主要的结构化信息。另一方面,基于 CNN 每一层的特征计算得到的 Gram matrix 又可以很好的捕捉图像的风格信息(笔触以及纹理等)。结合这两种信息定义损失函数,指导图像从某个起始点(如:随机噪声或内容图像本身)开始,不断迭代优化,逐渐转变为风格变换后的图像


 

79683506-B912-41C4-B121-2A5D95AF9FA9.png

内容+风格=另一种风格图像(图片来自:Google Reserch)


该成果被认为是深度学习研究领域的一项突破,因为它首次提供了基于神经网络的风格变换的概念证明。不幸的是,这种为单张图像施加风格的方法对计算要求很高。


不过到了 2016 年,俄罗斯的 Dmitry Ulyanov [1] 等人以及斯坦福李飞飞团队 [2] 的研究都大大加速了这一过程。这些研究认识到可以将这个优化问题转变成图像变换问题(image transformation problem),也就是将单个固定的风格应用到任意一张内容图像(比如一张照片)上。


然后该问题就可以这样被解决:训练一个前馈深度卷积神经网络来改变内容图像的语料库(corpus),从而使之匹配某画作的风格。这个训练出的网络有两重目的:保持原有图像的内容,同时匹配绘画的视觉风格。这样得到的最终结果是:以前花几分钟的图像风格转换现在通过前馈网络可以实时得到,进而应用于实时视频风格变换。


风格变换技术如何由图像扩展到视频?


视频是未来互联网上最多的流量载体。在图像风格变换引起爆发性关注之后,一系列的公司,譬如 Aristo,Prisma, Philm 等都开始聚焦短视频的风格变换,包括对人工智能一向深切关注的 Facebook 也将推出视频风格变换技术(智能手机移动端)。


将风格变换技术由图像向视频拓展最为直接的方式就是使用图像风格变换的技术逐帧完成视频的变换,但是这样很难保证视频帧间风格的一致性。为此 Ruder 等人提出了一种迭代式的做法 [3],通过两帧像素之间的对应关系信息来约束视频的风格变换。


但是,这种方法在生成风格化视频的时候复杂度很高,耗时很长。因此,如何构建有效的深度学习模型来学习视频的空间域以及时间域的特性以完成视频风格变换是学术界以及工业界一个重要的研究课题。


为解决这种问题,这个深度学习模型需要:


  1. 在空间域上可以将名画元素有效的提取出来并学习应用;
  2. 在时间域上保持变换风格的时间一致性(temporal consistency);
  3. 保证计算的高效性以支持更多的实际应用场景。


这也是包括 Facebook 和斯坦福大学等业界领先的研究团队比较关注的研究课题。但是迄今,业界的研究团队仍然没有很好的深度学习模型和高效率(如实时)的解决方案。


前向网络(Jonson et al.)主要应用于图像上。迭代式(Ruder et al.)的方法来处理视频的风格变换考虑了时间域的一致性,但是处理速度非常慢,处理一帧视频大约需要 3 分钟。


斯坦福大学的 Justin Johnson(使用前向网络完成图像风格变换的作者 [2])也谈到「将前向网络与基于光流的时间一致性结合是一个开放性的课题」,他本人认为这种结合是可能的,但是不清楚业界是否有人已经实现,而且也不太确定这种结合的正确方式。


针对视频风格变换的技术难点,腾讯 AI Lab 在业界率先构建了深度神经网络,将风格变换的前向网络与视频时空一致性结合起来,高效地完成高质量的视频风格变换。


首先,腾讯 AI Lab 设计了独特的深度神经网络,该网络结合了最新的卷积层以及残差层,能够对图像和视频学习有效的表示。在训练的过程中使用大规模、多场景、多特点的视频数据(数千小时)以及相应的风格图像,一方面学习空间域的风格变换特点(在保持原有视频内容的基础上引入给定图像的风格),另一个方面捕捉视频帧之间极其复杂多变的时域特性,使得产生的风格视频相邻帧之间的时空内容与风格一致。因为是针对视频数据,定义的损失函数(Loss Function)也比做图像数据的损失函数更复杂。


更重要的是,腾讯 AI Lab 还提出了一种针对视频数据的独特训练过程,使得他们的深度神经网络能够更好地捕捉视频时间域上的一致性信息。在风格视频生成阶段,不用做任何预处理和后处理,将输入视频在风格变换网络上进行一次前向传播,实时输出风格化的视频。


不仅如此,为了满足线上需要,腾讯 AI Lab 也挖掘了模型的深度、宽度对输出质量的影响,并基于此对模型进行压缩且输出质量没有肉眼可见损失。「我们有不同的网络模型精简策略和模型压缩算法。压缩后的模型小于 1M」。做此研究的人员说,「这里谈到的模型精简和压缩,是针对深度网络的精简以及相关的压缩策略。压缩会精简深度模型的操作并降低运算的复杂度,但是产生的图像/视频的质量(相比未压缩)不会显著性降低。」


从图像的风格变换到视频的风格变化,数据量的增长是巨大的。在解决数据增长的问题上,研究人员在构建算法的时候考虑到了不同的解决方案。在云端处理时,可以通过并行化的操作来快速完成视频风格生成。在终端处理时,通过网络的精简和压缩,使得在终端上能够实时完成视频的风格变换。


最后,经过上述优化后的深度模型,可以在手机客户端做到针对摄像头数据的实时处理,将用户拍摄的视频画面实时进行风格变换。


除此之外,腾讯 AI Lab 内部也关注了谷歌的多种风格融合的图像风格变化工作。


「整体来说,谷歌发现了不同风格的变换网络的参数之间的关系,因此使用一个基础网络以及另外一个参数变换表格来融合生成多种风格的网络。」腾讯 AI Lab 也正在研究如何将这一技术拓展到视频领域。


手机客户端实时视频风格变换在产品上的应用


立足于腾讯的大数据与平台,AI Lab 作为腾讯新成立的研究部门也在探索人工智能技术的新应用和新业务,将人工智能技术融入产品,满足腾讯庞大用户的需求。这也和谷歌、Facebook、亚马逊、微软等巨头成立人工智能研究部门、开发新技术、融合新产品与业务的公司策略如出一辙。


正如前文所言,腾讯 AI Lab 率先在业界探索了使用前向网络实现实时的视频风格变换,这是腾讯 AI Lab 在将人工智能技术与腾讯用户需求相结合的尝试。


「这使我们有理由相信更多的人工智能技术也能够应用到各类场景下的数据上面(图像/视频,文本,语音等)。」


类似之前朋友圈爆红的一款图像产品 Prisma,我们了解到腾讯 AI Lab 开发的图像滤镜技术已经在天天 P 图的 P 图实验室上线,产品名称是「潮爆艺术画」。目前他们们已经开发了上百款图像滤镜,会陆续在「潮爆艺术画」里登场。而对于视频风格变换技术,腾讯也有了一些产品上的计划。



参考文献:


[1]Ulyanov, Dmitry, Vadim Lebedev, Andrea Vedaldi, and Victor Lempitsky. Texture Networks: Feed-forward Synthesis of Textures and Stylized Images (2016).

[2]J. Johnson, A. Alahi, L. Fei-fei,「Perceptual Losses for Real-Time Style Transfer and Super-Resolution」, ECCV 2016.

[3]Ruder, Manuel, Alexey Dosovitskiy, and Thomas Brox. "Artistic style transfer for videos." arXiv preprint arXiv:1604.08610 (2016).




©本文由机器之心原创,转载请联系本公众号获得授权

相关文章
|
6月前
|
机器学习/深度学习 人工智能 算法
AI 基础知识从 0.6 到 0.7—— 彻底拆解深度神经网络训练的五大核心步骤
本文以一个经典的PyTorch手写数字识别代码示例为引子,深入剖析了简洁代码背后隐藏的深度神经网络(DNN)训练全过程。
1072 56
|
4月前
|
人工智能 API 数据安全/隐私保护
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
1034 12
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
|
6月前
|
人工智能 自然语言处理 数据可视化
AI视频培训|格律诗AI 视频创作与自媒体传播——某诗词学会
近日,TsingtaoAI派驻专家团队为某诗词学会学员交付《格律诗AI 视频创作与自媒体传播》培训。本课程精准切中行业痛点——传统诗词创作与现代传播方式的断层。课程摒弃泛泛而谈,直击实操:首日聚焦"工具认知+创作逻辑",系统梳理即梦、可灵等国产AI工具在格律诗意象可视化中的差异化应用,如将"月光在指尖碎裂"转化为动态场景;次日深入"语音表达+自媒体运营",传授用魔音工坊生成情感化配音、坤行数字人打造诗人形象的秘技,更结合抖音、小红书平台特性,解析"前5秒高光片段设计"等流量密码。
424 3
|
6月前
|
人工智能 安全 网络安全
2025攻防演习回顾,AI赋能下的网络安全新格局
网络安全实战攻防演习历经9年发展,已成为检验安全体系、洞察威胁趋势的重要手段。攻击呈现实战化、体系化特征,APT、0day、勒索攻击等手段升级,AI、大数据等新技术带来新风险。攻击入口多元化、工具智能化、API成重点目标,“AI+人工”协同攻击加剧威胁。面对挑战,企业需构建纵深防御体系,从被动防御转向主动对抗。瑞数信息通过动态安全技术与AI融合,实现0day防护、漏扫干扰、勒索应急等能力,打造WAAP超融合平台,助力关键基础设施构建智能、协同、前瞻的主动防御体系。
542 1
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
840 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
4月前
|
存储 人工智能 安全
拔俗AI临床大数据科研分析平台:让医学研究更智能、更高效
阿里云原生AI临床大数据科研平台,打通异构医疗数据壁垒,实现智能治理、可视化分析与多中心安全协作,助力医院科研提速增效,推动精准医疗发展。
745 1
|
5月前
|
人工智能 运维 安全
AI来了,网络安全运维还能靠“人海战术”吗?
AI来了,网络安全运维还能靠“人海战术”吗?
289 28
|
5月前
|
机器学习/深度学习 资源调度 算法框架/工具
AI-ANNE: 将神经网络迁移到微控制器的深度探索——论文阅读
AI-ANNE框架探索将深度学习模型迁移至微控制器的可行路径,基于MicroPython在Raspberry Pi Pico上实现神经网络核心组件,支持本地化推理,推动TinyML在边缘设备中的应用。
312 10
|
5月前
|
人工智能 编解码 自然语言处理
重磅更新!ModelScope FlowBench 支持视频生成 + 图像编辑,AI创作全面升级!
很高兴地向大家宣布,ModelScope FlowBench 客户端迎来重大功能升级! 本次更新不仅正式支持了视频节点功能,还新增了图像编辑与IC-Light智能打光等实用功能,同时对多个图像处理节点进行了深度优化和扩展。现在,您只需在 FlowBench 中轻松串联节点,即可使用 Wan2.1/Wan2.2、Qwen-Image-Edit、FLUX Kontext、IC-Light等强大模型,轻松实现创意内容的生成与编辑。 无论你是内容创作者、视觉设计师,还是AI技术爱好者,这次更新都将为你打开全新的创作边界。
850 14
|
6月前
|
人工智能 自然语言处理 机器人
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型

热门文章

最新文章