AI人像特效之「一键生成N次元虚拟形象」

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
简介: 为了零成本低门槛地提供极致酷炫的人像玩法,我们提出了一套人像风格化通用框架「AI Maleonn」AI 版神笔马良,用于一键生成风格百变的人物虚拟形象,在风格上涵盖手绘、3D、日漫、艺术特效、铅笔画等多种风格,同时可以支持面向小样本的专属风格定制,利用少量目标风格图即可实现快速迁移拓展;在处理维度上,不仅适用于生成头部效果,更支持全图精细化纹理转换,兼容多人场景;在模型鲁棒性上,有效克服了多角度姿态、面部遮挡等各类复杂场景,整体稳定性大大提升。

人工手绘头像过程演示  (1).gif               AI Maleonn 一键生成N次元虚拟形象 .gif

               人工手绘头像过程演示                                               AI Maleonn: 一键生成N次元虚拟形象



What we can do

人像风格特效生成任务旨在通过对指定的人像照片进行夸张的艺术风格转换,得到人物的二次元卡通形象、手绘风格、虚拟3D形象等风格化结果,从而实现具有视觉冲击力的人物美化效果,该项技术被广泛应用于图像内容创作、社交娱乐、短视频、直播、人物隐私保护等场景。而现实生活中,人像虚拟风格创作多由画师进行手工绘制或由设计师通过专业的图像编辑软件(例如,Photoshop)制作,但该过程需要创作人员具备专业的绘图/制图技能,制作门槛较高,同时制作过程耗时费力,存在着效率低下、成本高昂的问题;对于用户而言,单张画像的绘制价格在上百元不等,价格高且用时长。

为了零成本低门槛地提供极致酷炫的人像玩法,我们提出了一套人像风格化通用框架「AI MaleonnAI 版神笔马良,用于一键生成风格百变的人物虚拟形象,在风格上涵盖手绘、3D、日漫、艺术特效、铅笔画等多种风格,同时可以支持面向小样本的专属风格定制,利用少量目标风格图即可实现快速迁移拓展;在处理维度上,不仅适用于生成头部效果,更支持全图精细化纹理转换,兼容多人场景;在模型鲁棒性上,有效克服了多角度姿态、面部遮挡等各类复杂场景,整体稳定性大大提升。



What only we can do

20206月抖音上线人像二次元漫画特效起,AI漫画在日常生活中走入大家的视线,它凭借逼真自然的转换效果,风靡一时。随后,快手、腾讯微视也纷纷基于深度学习推理引擎构建端侧GAN轻量部署框架,提供手机端实时的人像漫画效果。实时的端侧人像特效无疑是给短视频爱好者的一波福利,但由于移动端的硬件和算力有限,实时视频处理的效果往往质量不佳,无法满足精细化的图像转换需求,而一大批基于云服务器处理的神秘力量也在悄悄涌来,包含百度大脑、腾讯云、字节火山引擎在内的各大厂和美图、小视科技、皮卡智能等AI能力供应商纷纷开始投入研发力量,以API调用的形式提供漫画效果,当然我们也是这波浪潮里的一员,在阿里云视觉能力平台率先上线了人像动漫化服务。此后,海外也陆续出现了ToonifyToonMeVoila一系列卡通化应用,频频引发热潮。基于GAN的图像生成技术为大家打开了AI漫画纪元的大门,而该类场景也成为GAN在实际落地应用中的绝佳试炼场,但图像生成能力作为学界和业界新兴能力,在落地过程中势必存在着诸多问题和挑战。



经过一轮的技术研发和用户调研,我们发现业界现有的解决方案中普遍存在几个问题

1.生成效果不佳

a.生成结果存在明显的纹理瑕疵,无法覆盖日常生活中多样化的复杂场景,例如在多角度姿态下贴脸痕迹明显、存在面部遮挡时转换失败;

b.原始人脸的保真度差,相比现实人脸存在内容变形失真、细节丢失等问题。

2.风格效果单一

如百度仅提供二次元动漫形象,腾讯云仅提供一种写实类风格,无法满足多样化、差异化的效果需求。其本质原因在于风格效果的拓展强依赖于数据集,人物卡通数据(无论成对还是非成对)获取都非常困难,在数据均衡性、多样性上往往不足,因而基于小样本的特效生成成为技术难点,而如何利用小样本提升模型在日常多样化场景中的泛化能力更是难上加难。

3.仅支持头部区域,无法全图转换

ToonMeVoilaAPP在上架后火爆一时,该类方法利用生成界明星模型StyleGAN生成逼真的人物3D效果,但由于模型中明确的语义约束限制,仅能生成头部效果,无法完成全图转换。



针对上述问题,我们进行了新一轮的技术升级,提出一套面向小样本人像风格转换通用框架,仅需要少量目标风格数据,即可生成逼真自然效果稳定N次元人像效果,同时能够以自训练的方式实现快速风格迁移拓展,轻松打造定制化效果。



 

想要手绘风?

想要手绘风.gif

想要迪士尼3D特效?

想要迪士尼3D特效?.gif

想要二次元动漫风?

想要二次元动漫风?.gif

扁平插画可以不?

扁平插画可以不?.gif

NBA球星漫画效果?

NBA球星漫画效果?.gif

有配饰、面部遮挡,姿态百变?

有配饰、面部遮挡,姿态百变.gif

试用及快速接入

https://vision.aliyun.com/experience/detail?spm=a211p3.14020179.J_7524944390.15.66cd4850vntfkd&tagName=facebody&children=GenerateHumanAnimeStyle

如果上面的风格都是不是我想要的怎么办?我们建设了一套风格快速迁移框架,少量目标风格数据,无需成对数据标注,即可快速支持。欢迎大家来找我们定制新风格哦,产品需求和相关合作可联系我们。

 



 

技术方案

面对千差万别的风格效果和不易获取的稀少数据,我们在经过大量实践后沉淀出一套面向小样本的通用人像风格化框架,整体框架分为4个模块:数据过滤矫正模块、虚拟数据生成模块、数据筛查补全模块、精细化纹理转换模块。

image.png

1. 面向小样本的人像风格特效生成通用框架



数据过滤矫正模块过滤原始采集风格图像中的不符合标准的低质图像(主要表现为不含人脸、低人脸分辨率、风格特性不明显),通过人脸关键点检测算法及人脸对齐算法完成人脸区域提取及角度矫正。

 

虚拟数据生成模块:针对小样本风格数据,利用深度生成模型进行虚拟数据生成,从而扩增图像数目、增强数据多样性及属性分布均衡性。该模块在大规模真实人脸数据的基础上,基于迁移学习方法对小样本风格化人脸进行学习,通过风格系数融合和人脸ID约束的方式实现风格表征的快速学习,从而能够批量生成大规模的风格化数据;该模块同时内置了属性可控的图像生成算法,能够完成属性解耦及有效方向搜索,从而对缺失类目数据进行快速生成补全。



数据筛查补全模块:针对野生采集数据中容易存在的类目偏置、属性缺失问题,该模块进行类目筛查及缺失数据补全。模块包含人物姿态分析、面部表情评估、人脸属性识别等理解类深度学习算法,能够对每张图像理解分析,进行类目分类和数值回归,完成数据的平衡性分析及缺失类目评估,并协同虚拟数据生成模块完成缺失数据的自动补全。



精细化纹理转换模块:该模块用于实现真实人脸图像到风格化形象的纹理转换过程。目前业界通用的人像特效转换方法均遵循一套通用的处理流程,如图*所示,首先基于人脸关键点对面部区域进行提取和对齐,针对人脸区域,通过域转换的方式实现真实脸到卡通脸的纹理风格转换,得到卡通脸;针对背景图像,通过传统图像算法或深度学习方法进行卡通风格转换,得到背景结果,随后通过调色算法将背景色域调整至人脸一致,最后通过融合的方式得到最终处理结果。但该方式由于人脸和背景分开处理,风格协调性相对较差,在融合过程中极容易出现纹理拼接痕迹、色彩过渡不自然问题;另一方面,人脸转换模型很大程度上依赖语义位置信息进行目标合成,从而导致模型的鲁棒性、泛化性不足,容易在包含面部遮挡及特殊姿态的场景下产生纹理瑕疵,且原始人脸保真度难以保证。因此,在该模块的实现上我们抛弃了业界通用的人脸处理流程,改为一种有人脸感知意识的真“end-to-end”纹理转换模型,在实现夸张人脸转换的同时实现相对写实的背景转换,能够有效解决上述系列问题,同时在多人模式下单次推理即可得到最终结果,you only need to look once! 感兴趣的同学欢迎关注我们后续的相关paper。

image.png

2. 业界通用的人脸处理流程

image.png

3. 有感知意识的全图转换方法

 

结语

欢迎大家积极试用反馈,共同探索更多的业务场景和落地空间。

欢迎对图像生成GAN感兴趣的小伙伴联系我们,一起创造更多可能

在线试用可点击:https://vision.aliyun.com/experience/detail?&tagName=facebody&children=GenerateHumanAnimeStyle

相关文章
|
8月前
|
人工智能 自然语言处理 文字识别
DeepMind首发游戏AI智能体SIMA:开启虚拟世界的智能探索之旅
【4月更文挑战第3天】DeepMind推出了SIMA,一种能在多个3D环境中执行语言指令的智能体,标志着AI在理解和互动虚拟世界上的进步。SIMA通过多样化的训练数据学习导航、操作、决策等技能,并结合预训练模型处理高维度输入输出。尽管在复杂任务上仍有提升空间,SIMA展现了正向迁移能力和潜力,为AI研究和未来机器人技术铺平道路。然而,仍需解决鲁棒性、可控性、评估方法及道德安全问题。
163 4
DeepMind首发游戏AI智能体SIMA:开启虚拟世界的智能探索之旅
|
25天前
|
机器学习/深度学习 人工智能 UED
OOTDiffusion:开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物
OOTDiffusion是一款开源的AI虚拟试衣工具,能够智能适配不同性别和体型,自动调整衣物尺寸和形状,生成自然贴合的试穿效果。该工具支持半身和全身试穿模式,操作简单,适合服装电商、时尚行业从业者及AI试穿技术爱好者使用。
113 27
OOTDiffusion:开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物
|
1月前
|
人工智能 自然语言处理 前端开发
Lobe Vidol:AI数字人交互平台,可与虚拟人和3D模型聊天互动
Lobe Vidol是一款开源的AI数字人交互平台,允许用户创建和互动自己的虚拟偶像。该平台提供流畅的对话体验、丰富的动作姿势库、优雅的用户界面设计以及多种技术支持,如文本到语音和语音到文本技术。Lobe Vidol适用于娱乐互动、在线教育、客户服务、品牌营销和社交媒体等多个应用场景。
105 7
Lobe Vidol:AI数字人交互平台,可与虚拟人和3D模型聊天互动
|
3月前
|
机器学习/深度学习 人工智能 算法
打造你的超级Agent智能体——在虚拟迷宫中智斗未知,解锁AI进化之谜的惊心动魄之旅!
【10月更文挑战第5天】本文介绍了一个基于强化学习的Agent智能体项目实战,通过控制Agent在迷宫环境中找到出口来完成特定任务。文章详细描述了环境定义、Agent行为及Q-learning算法的实现。使用Python和OpenAI Gym框架搭建迷宫环境,并通过训练得到的Q-table测试Agent表现。此项目展示了构建智能体的基本要素,适合初学者理解Agent概念及其实现方法。
118 9
|
4月前
|
人工智能 计算机视觉
AI计算机视觉笔记九:基于mediapipe的钢铁侠操作(虚拟拖拽)
这段代码演示了如何使用OpenCV和MediaPipe库在视频流中实现虚拟物体的拖放功能,模拟了类似钢铁侠电影中的高科技操作界面。具体步骤包括读取视频流、获取手指关键点坐标、计算手指间距离,并判断食指是否位于虚拟方块内。如果手指位于方块内,则更新方块的位置,实现拖放效果。代码提供了详细的实现过程,包括关键点识别、坐标计算及方块绘制等。此外,还提供了半透明效果处理,使视觉效果更加逼真。整个项目基于Mediapipe环境搭建,适合初学者学习计算机视觉应用开发。
49 10
|
4月前
|
人工智能 计算机视觉 Python
AI计算机视觉笔记八:基于mediapipe的虚拟绘画
该项目利用MediaPipe手部关键点识别技术,实现了隔空绘画功能。用户可以通过手势控制绘画工具,选择颜色或橡皮擦。环境配置基于`mediapipe_env`,在PyCharm中运行。项目包括两个文件:`AiVirtualPainter.py`负责绘画逻辑,`HandTrackingModule.py`用于手部关键点检测。此项目展示了AI技术在互动应用中的潜力,适合初学者实践与学习。
87 10
|
4月前
|
人工智能 计算机视觉 C++
AI计算机视觉笔记七:基于mediapipe的虚拟鼠标控制
该项目旨在通过摄像头识别手指动作以实现鼠标控制。利用mediapipe检测手指关键点,并通过食指移动鼠标,当食指与中指距离小于阈值时触发点击事件。环境基于miniconda3,需创建虚拟环境并安装mediapipe、numpy、autopy和opencv等依赖。代码分为`AiVirtualMouse.py`和`HandTrackingModule.py`两个部分,前者用于实现鼠标控制逻辑,后者提供手势检测功能。运行时可能出现`PacketInvoked`错误,需修改`solution_base.py`文件第595行以解决。
|
5月前
|
人工智能 算法 开发者
「天池AI IP形象征集大赛」重磅上线,天池平台Al形象由你来创造!
聚首十年,以文生景,靠想象勾勒非凡,更有丰厚参赛奖励!
|
6月前
|
人工智能 数据安全/隐私保护 计算机视觉
旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包
【7月更文挑战第6天】旷视科技开源AI模型MegActor,以照片生成逼真人像视频,模仿表情包。基于条件扩散模型,解决身份泄露和背景干扰问题,使用合成数据、图像分割、CLIP编码及风格迁移技术。虽有视频质量、隐私风险及计算资源限制,但对动画和虚拟偶像行业带来革新。[链接](https://arxiv.org/abs/2405.20851)
115 3
|
6月前
|
人工智能 编解码 数据可视化
影视与游戏行业AI视频制作实战:第一步,角色形象设计的一致性
随着生成式人工智能技术的发展和应用,影视与游戏行业也迎来了AI化的时代。

热门文章

最新文章