腾讯AI Lab公布首项研究:提出独特神经网络实现实时视频风格变换

简介: 风格变换一直是机器学习领域内的一项重要任务,很多研究机构和研究者都在努力打造速度更快、计算成本更低的风格变换机器学习系统,比如《怎么让你的照片带上艺术大师风格?李飞飞团队开源快速神经网络风格迁移代码》、《谷歌增强型风格迁移新算法:实现基于单个网络的多种风格实时迁移》。如今新成立的腾讯 AI Lab 也加入了此行列,在此文章中机器之心对腾讯 AI Lab 的视频风格变换的研究进行了独家报道。

风格变换一直是机器学习领域内的一项重要任务,很多研究机构和研究者都在努力打造速度更快、计算成本更低的风格变换机器学习系统,比如《怎么让你的照片带上艺术大师风格?李飞飞团队开源快速神经网络风格迁移代码》、《谷歌增强型风格迁移新算法:实现基于单个网络的多种风格实时迁移》。如今新成立的腾讯 AI Lab 也加入了此行列,在此文章中机器之心对腾讯 AI Lab 的视频风格变换的研究进行了独家报道。


E022B913-54C1-46EB-AB76-2841BB1142A5.jpeg

几天前,Facebook 在其官方博客上宣布了一种可以用在移动设备实现实时风格的深度学习系统 Caffe2Go,称能在眨眼之间完成处理的任务,而且还能实现高质量的视频风格变换。


而鲜为人知的是,腾讯新成立的人工智能研究部门腾讯 AI Lab 也在做这方面的研究,技术团队告诉我们腾讯 AI Lab 早在 9 月中就已经研发出了实时的视频风格变换技术,并用此技术对一些电影进行了风格变化,制作了非常酷炫的艺术人工智能电影,在腾讯内部已经有过展示。腾讯 AI Lab 的研究表示,他们已通过首创深度网络学习视频的时空一致性,在很大程度上提高了视频风格变换的质量。


10B43878-F78D-4DBB-A71A-52998A0D6AC7.jpeg

点击查看原视频



近日,机器之心对腾讯 AI Lab 的研究团队进行了独家专访,这也是腾讯 AI Lab 研究团队首次对外发声。


风格变换简史


将一张图像的风格变换成另一种风格的技术已经存在了近 15 年。2001 年,当时加州大学伯克利分校的 Alexei A. Efros 联合另外一位作者在论文《Image Quilting for Texture Synthesis and Transfer》中介绍了一种简单的基于纹理合成的方法,通过「缝合」已有的小型图像块合成新的图像外貌。


但利用神经网络来做这件事是最近才出现的。在论文《A Neural Algorithm of Artistic Style》中,研究者 Gatys、Ecker 和 Bethge 介绍了一种使用深度卷积神经网络(CNN)的方法。他们的风格转换图像是通过优化(optimization)得到的。


一方面,CNN 的高层特征描述了图像的主要的结构化信息。另一方面,基于 CNN 每一层的特征计算得到的 Gram matrix 又可以很好的捕捉图像的风格信息(笔触以及纹理等)。结合这两种信息定义损失函数,指导图像从某个起始点(如:随机噪声或内容图像本身)开始,不断迭代优化,逐渐转变为风格变换后的图像


 

79683506-B912-41C4-B121-2A5D95AF9FA9.png

内容+风格=另一种风格图像(图片来自:Google Reserch)


该成果被认为是深度学习研究领域的一项突破,因为它首次提供了基于神经网络的风格变换的概念证明。不幸的是,这种为单张图像施加风格的方法对计算要求很高。


不过到了 2016 年,俄罗斯的 Dmitry Ulyanov [1] 等人以及斯坦福李飞飞团队 [2] 的研究都大大加速了这一过程。这些研究认识到可以将这个优化问题转变成图像变换问题(image transformation problem),也就是将单个固定的风格应用到任意一张内容图像(比如一张照片)上。


然后该问题就可以这样被解决:训练一个前馈深度卷积神经网络来改变内容图像的语料库(corpus),从而使之匹配某画作的风格。这个训练出的网络有两重目的:保持原有图像的内容,同时匹配绘画的视觉风格。这样得到的最终结果是:以前花几分钟的图像风格转换现在通过前馈网络可以实时得到,进而应用于实时视频风格变换。


风格变换技术如何由图像扩展到视频?


视频是未来互联网上最多的流量载体。在图像风格变换引起爆发性关注之后,一系列的公司,譬如 Aristo,Prisma, Philm 等都开始聚焦短视频的风格变换,包括对人工智能一向深切关注的 Facebook 也将推出视频风格变换技术(智能手机移动端)。


将风格变换技术由图像向视频拓展最为直接的方式就是使用图像风格变换的技术逐帧完成视频的变换,但是这样很难保证视频帧间风格的一致性。为此 Ruder 等人提出了一种迭代式的做法 [3],通过两帧像素之间的对应关系信息来约束视频的风格变换。


但是,这种方法在生成风格化视频的时候复杂度很高,耗时很长。因此,如何构建有效的深度学习模型来学习视频的空间域以及时间域的特性以完成视频风格变换是学术界以及工业界一个重要的研究课题。


为解决这种问题,这个深度学习模型需要:


  1. 在空间域上可以将名画元素有效的提取出来并学习应用;
  2. 在时间域上保持变换风格的时间一致性(temporal consistency);
  3. 保证计算的高效性以支持更多的实际应用场景。


这也是包括 Facebook 和斯坦福大学等业界领先的研究团队比较关注的研究课题。但是迄今,业界的研究团队仍然没有很好的深度学习模型和高效率(如实时)的解决方案。


前向网络(Jonson et al.)主要应用于图像上。迭代式(Ruder et al.)的方法来处理视频的风格变换考虑了时间域的一致性,但是处理速度非常慢,处理一帧视频大约需要 3 分钟。


斯坦福大学的 Justin Johnson(使用前向网络完成图像风格变换的作者 [2])也谈到「将前向网络与基于光流的时间一致性结合是一个开放性的课题」,他本人认为这种结合是可能的,但是不清楚业界是否有人已经实现,而且也不太确定这种结合的正确方式。


针对视频风格变换的技术难点,腾讯 AI Lab 在业界率先构建了深度神经网络,将风格变换的前向网络与视频时空一致性结合起来,高效地完成高质量的视频风格变换。


首先,腾讯 AI Lab 设计了独特的深度神经网络,该网络结合了最新的卷积层以及残差层,能够对图像和视频学习有效的表示。在训练的过程中使用大规模、多场景、多特点的视频数据(数千小时)以及相应的风格图像,一方面学习空间域的风格变换特点(在保持原有视频内容的基础上引入给定图像的风格),另一个方面捕捉视频帧之间极其复杂多变的时域特性,使得产生的风格视频相邻帧之间的时空内容与风格一致。因为是针对视频数据,定义的损失函数(Loss Function)也比做图像数据的损失函数更复杂。


更重要的是,腾讯 AI Lab 还提出了一种针对视频数据的独特训练过程,使得他们的深度神经网络能够更好地捕捉视频时间域上的一致性信息。在风格视频生成阶段,不用做任何预处理和后处理,将输入视频在风格变换网络上进行一次前向传播,实时输出风格化的视频。


不仅如此,为了满足线上需要,腾讯 AI Lab 也挖掘了模型的深度、宽度对输出质量的影响,并基于此对模型进行压缩且输出质量没有肉眼可见损失。「我们有不同的网络模型精简策略和模型压缩算法。压缩后的模型小于 1M」。做此研究的人员说,「这里谈到的模型精简和压缩,是针对深度网络的精简以及相关的压缩策略。压缩会精简深度模型的操作并降低运算的复杂度,但是产生的图像/视频的质量(相比未压缩)不会显著性降低。」


从图像的风格变换到视频的风格变化,数据量的增长是巨大的。在解决数据增长的问题上,研究人员在构建算法的时候考虑到了不同的解决方案。在云端处理时,可以通过并行化的操作来快速完成视频风格生成。在终端处理时,通过网络的精简和压缩,使得在终端上能够实时完成视频的风格变换。


最后,经过上述优化后的深度模型,可以在手机客户端做到针对摄像头数据的实时处理,将用户拍摄的视频画面实时进行风格变换。


除此之外,腾讯 AI Lab 内部也关注了谷歌的多种风格融合的图像风格变化工作。


「整体来说,谷歌发现了不同风格的变换网络的参数之间的关系,因此使用一个基础网络以及另外一个参数变换表格来融合生成多种风格的网络。」腾讯 AI Lab 也正在研究如何将这一技术拓展到视频领域。


手机客户端实时视频风格变换在产品上的应用


立足于腾讯的大数据与平台,AI Lab 作为腾讯新成立的研究部门也在探索人工智能技术的新应用和新业务,将人工智能技术融入产品,满足腾讯庞大用户的需求。这也和谷歌、Facebook、亚马逊、微软等巨头成立人工智能研究部门、开发新技术、融合新产品与业务的公司策略如出一辙。


正如前文所言,腾讯 AI Lab 率先在业界探索了使用前向网络实现实时的视频风格变换,这是腾讯 AI Lab 在将人工智能技术与腾讯用户需求相结合的尝试。


「这使我们有理由相信更多的人工智能技术也能够应用到各类场景下的数据上面(图像/视频,文本,语音等)。」


类似之前朋友圈爆红的一款图像产品 Prisma,我们了解到腾讯 AI Lab 开发的图像滤镜技术已经在天天 P 图的 P 图实验室上线,产品名称是「潮爆艺术画」。目前他们们已经开发了上百款图像滤镜,会陆续在「潮爆艺术画」里登场。而对于视频风格变换技术,腾讯也有了一些产品上的计划。



参考文献:


[1]Ulyanov, Dmitry, Vadim Lebedev, Andrea Vedaldi, and Victor Lempitsky. Texture Networks: Feed-forward Synthesis of Textures and Stylized Images (2016).

[2]J. Johnson, A. Alahi, L. Fei-fei,「Perceptual Losses for Real-Time Style Transfer and Super-Resolution」, ECCV 2016.

[3]Ruder, Manuel, Alexey Dosovitskiy, and Thomas Brox. "Artistic style transfer for videos." arXiv preprint arXiv:1604.08610 (2016).




©本文由机器之心原创,转载请联系本公众号获得授权

相关文章
|
1月前
|
人工智能 自然语言处理 算法
谷歌DeepMind研究再登Nature封面,隐形水印让AI无所遁形
近日,谷歌DeepMind团队在《自然》期刊上发表了一项名为SynthID-Text的研究成果。该方法通过引入隐形水印,为大型语言模型(LLM)生成的文本添加统计签名,从而实现AI生成文本的准确识别和追踪。SynthID-Text采用独特的Tournament采样算法,在保持文本质量的同时嵌入水印,显著提高了水印检测率。实验结果显示,该方法在多个LLM中表现出色,具有广泛的应用潜力。论文地址:https://www.nature.com/articles/s41586-024-08025-4。
77 26
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
通古大模型:古籍研究者狂喜!华南理工开源文言文GPT:AI自动断句+写诗翻译,24亿语料喂出来的学术神器
通古大模型由华南理工大学开发,专注于古籍文言文处理,具备强大的古文句读、文白翻译和诗词创作功能。
35 11
通古大模型:古籍研究者狂喜!华南理工开源文言文GPT:AI自动断句+写诗翻译,24亿语料喂出来的学术神器
|
10天前
|
人工智能 自然语言处理 API
OpenDeepResearcher:开源 AI 研究工具,自动完成搜索、评估、提取和生成报告
OpenDeepResearcher 是一款开源 AI 研究工具,支持异步处理、去重功能和 LLM 驱动的决策,帮助用户高效完成复杂的信息查询和分析任务。
146 18
OpenDeepResearcher:开源 AI 研究工具,自动完成搜索、评估、提取和生成报告
|
12天前
|
存储 人工智能
Scaling Law或将终结?哈佛MIT预警:低精度量化已无路可走,重磅研究掀翻AI圈
哈佛大学和麻省理工学院的研究人员最近发布了一项重磅研究,对Scaling Law在低精度量化中的应用提出严重质疑。研究表明,随着训练数据增加,低精度量化带来的性能损失也增大,且与模型大小无关。这挑战了通过增加规模提升性能的传统观点,提醒我们在追求效率时不能忽视性能损失。该研究结果在AI圈内引发广泛讨论,提示未来需探索其他方法来提高模型效率,如混合精度训练、模型压缩及新型硬件架构。论文地址:https://arxiv.org/pdf/2411.04330。
38 11
|
1月前
|
数据采集 人工智能 自然语言处理
FireCrawl:开源 AI 网络爬虫工具,自动爬取网站及子页面内容,预处理为结构化数据
FireCrawl 是一款开源的 AI 网络爬虫工具,专为处理动态网页内容、自动爬取网站及子页面而设计,支持多种数据提取和输出格式。
295 19
FireCrawl:开源 AI 网络爬虫工具,自动爬取网站及子页面内容,预处理为结构化数据
|
26天前
|
存储 人工智能 安全
AI时代的网络安全:传统技术的落寞与新机遇
在AI时代,网络安全正经历深刻变革。传统技术如多因素身份认证、防火墙和基于密码的系统逐渐失效,难以应对新型攻击。然而,AI带来了新机遇:智能化威胁检测、优化安全流程、生物特征加密及漏洞管理等。AI赋能的安全解决方案大幅提升防护能力,但也面临数据隐私和技能短缺等挑战。企业需制定清晰AI政策,强化人机协作,推动行业持续发展。
58 16
|
26天前
|
机器学习/深度学习 人工智能 算法
Transformer打破三十年数学猜想!Meta研究者用AI给出反例,算法杀手攻克数学难题
《PatternBoost: Constructions in Mathematics with a Little Help from AI》提出了一种结合传统搜索算法和Transformer神经网络的PatternBoost算法,通过局部搜索和全局优化交替进行,成功应用于组合数学问题。该算法在图论中的Ramsey数研究中找到了更小的反例,推翻了一个30年的猜想,展示了AI在数学研究中的巨大潜力,但也面临可解释性和通用性的挑战。论文地址:https://arxiv.org/abs/2411.00566
75 13
|
2月前
|
人工智能 自然语言处理 决策智能
DRT-o1:腾讯推出专注于文学翻译的 AI 模型,擅长理解比喻和隐喻等修辞手法,在翻译时保留原文的情感色彩
DRT-o1 是腾讯研究院推出的文学翻译系列 AI 模型,通过长链思考推理技术显著提升翻译质量,特别擅长处理比喻和隐喻等修辞手法。
83 2
DRT-o1:腾讯推出专注于文学翻译的 AI 模型,擅长理解比喻和隐喻等修辞手法,在翻译时保留原文的情感色彩
|
2月前
|
人工智能
AnchorCrafter:中科院联合腾讯推出的AI虚拟主播带货视频制作技术
AnchorCrafter是由中科院和腾讯联合推出的一项AI虚拟主播带货视频制作技术。该技术基于扩散模型,能够自动生成高保真度的主播风格产品推广视频,通过整合人-物交互(HOI)技术,实现对物体外观和运动控制的高度还原。AnchorCrafter在物体外观保持、交互感知以及视频质量方面优于现有方法,为在线广告和消费者参与提供了新的可能性。
838 30
AnchorCrafter:中科院联合腾讯推出的AI虚拟主播带货视频制作技术
|
2月前
|
机器学习/深度学习 算法 PyTorch
基于图神经网络的大语言模型检索增强生成框架研究:面向知识图谱推理的优化与扩展
本文探讨了图神经网络(GNN)与大型语言模型(LLM)结合在知识图谱问答中的应用。研究首先基于G-Retriever构建了探索性模型,然后深入分析了GNN-RAG架构,通过敏感性研究和架构改进,显著提升了模型的推理能力和答案质量。实验结果表明,改进后的模型在多个评估指标上取得了显著提升,特别是在精确率和召回率方面。最后,文章提出了反思机制和教师网络的概念,进一步增强了模型的推理能力。
83 4
基于图神经网络的大语言模型检索增强生成框架研究:面向知识图谱推理的优化与扩展

热门文章

最新文章