视频精修一帧要花2小时?美图影像研究院的AI只要5.3毫秒!

简介: 视频精修一帧要花2小时?美图影像研究院的AI只要5.3毫秒!
每一帧。

进入全民短视频时代,人像视频的拍摄也正在迈向专业化。随着固化审美的瓦解,十级磨皮的网红滤镜被打破,多元化的高级质感成为新的风向标,「」到每一帧是人们对动态视频提出的更高要求。
目前,大部分手机均可记录主流的  24fps、25fps、30fps、50fps 和 60fps(frame per second,FPS),以常见的 30FPS 为例,1  分钟的视频就需要处理 1800 帧左右,如何保证处理过程中帧与帧之间的效果连续性是算法面临的关键突破点。
事实上,传统磨皮算法是一般实时美颜算法设计的优先选项,其本质是由各类高通滤波算法和图像处理算法组合而成,通过滤波核的大小来实现人像的瑕疵祛除和肤质光滑,经过优化后也能够达到移动端的实时性能要求,但经传统磨皮算法处理后导致的五官与皮肤纹理细节缺失容易形成明显的「假脸」 效果。

image.png

image.png

图 2: 原图 VS 美图美颜算法
围绕用户更具个性化的「变美」 需求,美图影像研究院(MT Lab)自研基于深度学习的实时视频美容方案。通过设计轻量的神经网络生成式模型,结合强大的美图AI推理框架(Manis)千万级人像图库训练优势,实现对动态视频人脸的瑕疵修复与暗沉祛除,同时最大程度地保留了皮肤的真实纹理细节。
image.png
对比之下美图的实时美颜算法既没有弱化面部结构,对细微瑕疵也进行了精细化处理,脸部皮肤呈现干净通透、清晰自然的高级质感。
image.png此外,为了兼顾更好的使用感受,轻量级的网络能在低、中、高端不同档位的移动端产品上实现更大范围地部署,满足移动端的实时性能要求,平均 1 秒钟能够美化处理视频 142 帧,为更多用户带来更好的「变美」 体验。
轻量级模型设计,大幅提升生成效果
轻量级结构设计策略
在进行网络结构设计时,首要考虑如何实现效果和速度的均衡。因此在保证不损失过多效果的前提下,模型结构尽量遵循了并行度高的设计原则,轻量级结构设计(如图 3)的具体策略如下:

  1. 不使用大于 3x3 的卷积核,下采样使用 stride=2 的 3x3 卷积替代,因为 3x3 卷积的计算速度远高于其他大核卷积。
  2. 模型中最大通道数不大于 64,以减少大尺寸 feature map 的计算量。
  3. 网络输入尺寸在不影响效果的前提下尽可能地缩小。同时,一定程度上减少输入宽度,而不是使用 1:1 的输入比例,因为人像两侧存在与美颜无关的背景区域,要避免增加额外的计算量。
  4. 上采样使用最近邻插值加 3x3 卷积替代反卷积和双线性插值,以便于加速。
  5. 非必要情况下尽量采用简单的单路架构,只在 stride=2 卷积后加入 Concate 分支,因为 Add 或者 Concate 操作虽然计算量很小,但是 MAC 很高;同时,网络不使用 ResBlock,以节省内存占用。

image.png

模型生成效果提升方案
为了获得更好的实时生成效果,MT Lab 借鉴了 RepVGG 的重参数等价转换思路,来进一步优化轻量级模型的组件重组流程(如图 4)。
该流程在模型训练阶段,对每个  3x3 卷积增加并行的 1x1 卷积分支和恒等映射分支;而在模型实际推理阶段,则把对应的 1x1 卷积分支和恒等映射分支通过 padding  操作分别等价转换成特殊的 3x3 卷积,根据卷积的线形可加性,再将参数合并到主分支的 3x3 卷积里面。
这个方式相当于只增加模型训练阶段的网络消耗以提升网络生成效果,而在实际模型部署时增加的分支参数等价合并,并不会给网络增加任何额外的计算量。

image.png
同时,为了大幅提升网络训练效率,除了使用常规的重建感知  Loss 和像素级 Loss 外,MT Lab 还借鉴对抗生成网络的思路,设计相应的判别 Loss  来监督网络,在微调(fine-tunning)阶段对实时美化网络进行修正,从而进一步优化模型的生成效果。
判别 Loss 设计流程(如图 5)先对训练数据标定出对应的斑痘、暗沉等瑕疵区域,作为瑕疵 mask。再使用参数多、结构深的大型网络训练出一个精准的瑕疵 mask 分割模型,作为实时美化模型的判别网络。
在训练实时美化网络时,固定判别网络的参数,将实时美化网络输出的结果作为判别网络的输入,同时用一张全“0”mask 作为监督,要求判别网络监督实时美化网络不能生成有瑕疵区域的结果,从而达到提升美化效果的目的。

image.png


模型优化,实现实时美化最佳体验
众所周知,影响模型实时执行的因素包括图片帧率、分辨率和功耗。视频人像美化需要保持实时的高分辨率,模型的  FeatureMap  就会相应的增大,再叠加美化模型内部的高计算量,导致整个推理过程帧率低且耗时长;同时,大量的图像前后处理增加了整体的效果耗时和设备功耗,实时处理难以长时间维持稳定。
MT Lab 基于自研的全平台 AI 推理框架 Manis,通过整合模型智能分发、纹理数据推理加速、效果叠加优化等多种技术方案,来完成美图美化模型在移动端 App 的顺利落地应用,为用户带来最优的实时效果体验。
基于算力配置定制化模型
为保证不同档位的移动端产品均能获得最佳体验效果,MT  Lab 通过 Manis 的天枢平台系统为不同机型的设备能力下发定制的美化模型与 AI 配置,再通过 AI  推理框架(Manis)调度选择最优算力执行推理过程,从而既能保证低端算力设备达到实时效果,也能实现高端算力设备更优品质的画质表现。
模型分发流程以不同设备最优性能的实现为原则,在模型设计之前就与包括华为、MTK、高通、苹果在内的 AI 芯片厂商达成深度交流与合作,从而保证训练后的模型结构和参数完全符合 AI 芯片的计算特性。
GPU  推理方面,Manis 针对高通的 GPU 架构在纹理内存上的访存能力较优的特点,选择 GL texture 纹理推理计算方式;针对 MTK  设备在普通内存上的多种加速特性能力,选择 GL buffer 纹理推理计算方式;而针对支持 OpenCL 规范的共享特性的高通 GPU  设备,则通过 OpenCL 和 OpenGL 上下文关联,将 GL texture 与 CL texture、GL buffer 与 CL  buffer 进行映射,实现 OpenGL/OpenCL 混合执行,再利用渲染和计算方式的优势,从而达到 AI 算法在 GPU 的最优调度。

image.png
实时美化模型优化
事实上,CPU 和 GPU 数据交互同步是一件非常损耗性能的操作,功耗增加导致长时间的处理下容易出现掉帧现象。
对此,MT  Lab 在人脸检测环节采用极速轻量的 CPU 推理,快速获取人脸区域,通过局部的数据操作,降低 FeatureMap  大小的同时保留关键特征图信息,避免大数据量下 GPU 带宽受限带来的性能掉点问题;在图像处理环节通过 GPU  数据流并发推理,弱化了高计算量带来的负面影响。最后,基于双通道数据流在局部区域上进行效果叠加优化,从而保证了视频中每帧数据的高分辨率,呈现高品质的实时画质。

image.png
美图优化加速器— —AI 推理框架 Manis
基于  Manis 的模型优化是视频美化算法得以顺利落地的核心环节,与此同时 Manis  还在美图产品应用场景中扮演着更为重要的角色。它既实现了移动端上极致性能优化,还服务于加速 AI  项目的落地生态打造。通过与主流开源框架的性能数据对比(如图 8),可以很明显地感受到 Manis 所具备的高水平推理能力与性能提升能力。

image.png
在实际应用中,Manis 包含 AI 服务、天枢系统、运维监控等在内的多项功能,主要通过以下三个体系模块来实现对算法的优化加速:
模型转换模块
可以快速实现各主流模型结构向 Manis 模型结构转换,以便算法顺利接入。同时,通过图优化技术简化模型结构,为各种执行设备如 CPU、GPU、AI 芯片添加优化控制手段,达到模型层面的性能优化。
模型测试模块
基于 Manis 在主流手机设备上的部署,能够在线测试输出模型在各种算力使用场景下的性能表现和评估信息,对模型算法进行快速验证,从而帮助模型不断迭代优化,同时缩短优化的开发周期。
模型推理模块
Manis 高度适配 CPU、GPU、DSP、NPU、ANE、APU 等多种硬件设备,其中 GPU 支持 OpenGL、OpenCL、Metal、CUDA 等多种技术方案,CPU 支持 fp32、fp16、bf16、int8 等多种精度方案。  
其中,针对移动端设备的性能优化包括汇编级  CPU neon 优化、图优化、Auto-Tuning、多线程优化以及算子融合;针对移动端的精度优化包含 fp32/fp16  浮点计算方式、bf16 格式计算策略以及 8  位整型量化计算方案,能够结合推理的设备能力,进行动态图切分及混合精度计算,释放设备的最大算力。而针对类似实时美化这样的复杂应用,则采用定制化的优化策略,包括内存复用策略、内存池、模型共享以及数据排布优化。

image.png
目前,美图全部产品的应用落地场景都有着 Manis 的身影,为美图核心 AI 算法在不同平台和硬件上实现低延迟、低内存、低功耗的应用落地。随着 Manis 更进一步的迭代与优化,在拓展实时化应用上的更优性能之外,还将助力美图不断升级用户「变美」 体验,全方位服务用户「变美」 需求,引领影像美化新革命。

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
4月前
|
人工智能 API 数据安全/隐私保护
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
1129 12
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
|
6月前
|
人工智能 自然语言处理 数据可视化
AI视频培训|格律诗AI 视频创作与自媒体传播——某诗词学会
近日,TsingtaoAI派驻专家团队为某诗词学会学员交付《格律诗AI 视频创作与自媒体传播》培训。本课程精准切中行业痛点——传统诗词创作与现代传播方式的断层。课程摒弃泛泛而谈,直击实操:首日聚焦"工具认知+创作逻辑",系统梳理即梦、可灵等国产AI工具在格律诗意象可视化中的差异化应用,如将"月光在指尖碎裂"转化为动态场景;次日深入"语音表达+自媒体运营",传授用魔音工坊生成情感化配音、坤行数字人打造诗人形象的秘技,更结合抖音、小红书平台特性,解析"前5秒高光片段设计"等流量密码。
465 3
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
865 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
9月前
|
人工智能 自然语言处理 算法
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
1041 0
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
|
6月前
|
人工智能 自然语言处理 机器人
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
|
5月前
|
人工智能 编解码 自然语言处理
重磅更新!ModelScope FlowBench 支持视频生成 + 图像编辑,AI创作全面升级!
很高兴地向大家宣布,ModelScope FlowBench 客户端迎来重大功能升级! 本次更新不仅正式支持了视频节点功能,还新增了图像编辑与IC-Light智能打光等实用功能,同时对多个图像处理节点进行了深度优化和扩展。现在,您只需在 FlowBench 中轻松串联节点,即可使用 Wan2.1/Wan2.2、Qwen-Image-Edit、FLUX Kontext、IC-Light等强大模型,轻松实现创意内容的生成与编辑。 无论你是内容创作者、视觉设计师,还是AI技术爱好者,这次更新都将为你打开全新的创作边界。
866 14
|
5月前
|
机器学习/深度学习 人工智能 编解码
AI Compass前沿速览:PixVerse V5、gpt-realtime、Grok Code Fast、HunyuanVideo、OmniHuman-1.5、字节WaverAI视频、MiniCPM 4.5等
AI Compass前沿速览:PixVerse V5、gpt-realtime、Grok Code Fast、HunyuanVideo、OmniHuman-1.5、字节WaverAI视频、MiniCPM 4.5等
AI Compass前沿速览:PixVerse V5、gpt-realtime、Grok Code Fast、HunyuanVideo、OmniHuman-1.5、字节WaverAI视频、MiniCPM 4.5等
|
8月前
|
机器学习/深度学习 人工智能 算法
通义OmniAudio大模型,让 AI 看懂 360° 视频,并“听”出对应的空间音频
OmniAudio 是一项突破性的空间音频生成技术,能够直接从 360° 视频生成 FOA(First-order Ambisonics)空间音频,为虚拟现实和沉浸式娱乐带来全新可能。通过自监督 coarse-to-fine 预训练和双分支视频表示微调,OmniAudio 在非空间音频质量和空间定位准确性上显著优于现有方法。项目包含超过 103,000 个视频片段的 Sphere360 数据集,支持高质量的模型训练与评估。代码、数据及论文均已开源,助力沉浸式体验技术发展。
1096 63
|
6月前
|
存储 人工智能 自然语言处理
让你拥有一个AI大脑,这个32.1k Github项目是你不错的选择,支持PDF、Markdown、代码、视频成为你的知识内容
Quivr 是开源全栈 RAG 平台,助你打造“第二大脑”,支持多文档类型与多种 LLM,实现智能搜索与聊天。具备语义检索、本地部署、隐私保护等功能,适用于个人知识管理与企业知识库,界面简洁易用,是高效智能问答的理想选择。
310 0
|
8月前
|
人工智能 移动开发 开发工具
H5录音、图文视频IndexDB储存最佳实践:用AI生成语音备忘录
随心记是一个由 AI 生成的网页备忘录,它支持语音录入(可下载)、图文视频记录。最重要的是,它支持离线使用,所有数据都储存在浏览器中,不依赖后端,刷新页面数据也不会丢失!
280 0
H5录音、图文视频IndexDB储存最佳实践:用AI生成语音备忘录