每日学术速递5.3

简介: 用任意语音音频生成说话人肖像是数字人和虚拟世界领域的一个关键问题。一种现代的说话人脸生成方法有望实现通用的音频-嘴唇同步、良好的视频质量和高系统效率的目标。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV


1.Learning Locally Editable Virtual Humans

8ad3d33565ba5971e6cb568b552fedcc.png

标题:学习本地可编辑虚拟人

作者:Hsuan-I Ho, Lixin Xue, Jie Song, Otmar Hilliges

文章链接:https://arxiv.org/abs/2305.00121

项目代码:https://custom-humans.github.io/

3c880b6ffcfc912975e763acf6153568.png

a3c5003faa44527f46839e08c734012d.png

322bb303e5ac9aa92162b689e37838a3.png

94db831d75dad425797816258388a6e3.png

摘要:

       在本文中,我们提出了一种新颖的混合表示和端到端可训练网络架构来对完全可编辑和可定制的神经化身进行建模。我们工作的核心在于将神经场的建模能力与蒙皮网格的易用性和固有 3D 一致性相结合的表示。为此,我们构建了一个可训练的特征码本来存储可变形身体模型顶点上的局部几何和纹理特征,从而利用其在关节下的一致拓扑结构。然后将这种表示用于生成式自动解码器架构,该架构允许适合看不见的扫描和对具有不同外观和几何形状的逼真化身进行采样。此外,我们的表示允许通过在 3D 资产之间交换局部特征来进行局部编辑。为了验证我们的头像创建和编辑方法,我们贡献了一个新的高质量数据集,称为 CustomHumans,用于训练和评估。我们的实验定量和定性地表明,与最先进的方法相比,我们的方法生成了多种详细的化身并实现了更好的模型拟合性能。我们的代码和数据集可在此 https URL 上获得。

2.It is all about where you start: Text-to-image generation with seed selection


971e42c6701a29540deb50d49af60cc3.png


标题:这一切都与您的起点有关:通过种子选择生成文本到图像

作者:Dvir Samuel, Rami Ben-Ari, Simon Raviv, Nir Darshan, Gal Chechik

文章链接:https://arxiv.org/abs/2304.14530

项目代码:https://github.com/microsoft/AdaM

b059974cc604def391d5920c6e89c258.png

8cb9c79aacd994c9910058af01a6eb53.png

d1c08fa5742ed14b1446ecb27914451d.png

36d6a3788eff470222b5e6365596f7d1.png

4e61d4af30882ab2925e53b3814238da.png


v摘要:

       文本到图像的扩散模型可以在新的构图和场景中综合各种概念。然而,他们仍然难以生成不常见的概念、罕见的不寻常组合或像手掌这样的结构化概念。它们的局限性部分是由于其训练数据的长尾性质:网络抓取的数据集非常不平衡,导致模型无法充分代表分布尾部的概念。在这里,我们描述了不平衡训练数据对文本到图像模型的影响,并提供了补救措施。我们表明,通过在噪声空间中仔细选择合适的生成种子,可以正确生成稀有概念,我们称之为 SeedSelect 的技术。SeedSelect 是高效的,不需要重新训练扩散模型。我们评估了 SeedSelect 在一系列问题上的优势。首先,在少样本语义数据增强中,我们为少样本和长尾基准生成语义正确的图像。我们展示了所有类别的分类改进,包括扩散模型训练数据的头部和尾部。我们进一步评估了 SeedSelect 在校正手部图像时的效果,这是当前扩散模型的一个众所周知的缺陷,并表明它显着改善了手部生成。

3.GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking Face Generation

34aae3c5a69d2bf2759d481871be33e6.png

标题:GeneFace++:通用且稳定的实时音频驱动 3D 说话人脸生成

作者:Zhenhui Ye, Jinzheng He, Ziyue Jiang, Rongjie Huang, Jiawei Huang, Jinglin Liu, Yi Ren, Xiang Yin, Zejun Ma, Zhou Zhao

文章链接:https://arxiv.org/abs/2305.00787

项目代码:https://genefaceplusplus.github.io/

网络异常,图片无法展示
|

7f31e6cf9d6786cc09229b409dd0740a.png

99fec37f60ea19efece078b923483f3b.png

10d44a261795c4507d974040c07533c2.png

摘要:

       用任意语音音频生成说话人肖像是数字人和虚拟世界领域的一个关键问题。一种现代的说话人脸生成方法有望实现通用的音频-嘴唇同步、良好的视频质量和高系统效率的目标。最近,神经辐射场(NeRF)成为该领域流行的渲染技术,因为它可以通过几分钟的训练视频实现高保真和 3D 一致的说话人脸生成。然而,基于 NeRF 的方法仍然存在一些挑战:1)对于口型同步,很难生成具有高时间一致性和音频口型精度的长面部运动序列;2)在视频质量方面,由于用于训练渲染器的数据有限,容易受到域外输入条件的影响,偶尔会产生糟糕的渲染结果;3) 至于系统效率,vanilla NeRF 缓慢的训练和推理速度严重阻碍了它在实际应用中的使用。在本文中,我们提出了 GeneFace++ 来应对这些挑战:1)利用音调轮廓作为辅助特征,并在面部运动预测过程中引入时间损失;2) 提出一种地标局部线性嵌入方法来调节预测运动序列中的异常值,以避免鲁棒性问题;3) 设计一个计算高效的基于 NeRF 的运动到视频渲染器,以实现快速训练和实时推理。通过这些设置,GeneFace++ 成为第一个基于 NeRF 的方法,可以通过广义的音频-嘴唇同步实现稳定和实时的说话人脸生成。大量实验表明,我们的方法在主观和客观评估方面优于最先进的基线。此 https URL 提供了视频示例。

目录
相关文章
|
传感器 机器学习/深度学习 编解码
智能驾驶--语义分割 公开数据集 汇总
本文整理了10个质量较好,数据集较大,比较新的,图像语义分割的公开数据集;主要服务于智能驾驶方向(辅助驾驶、自动驾驶等)。
2317 0
|
3天前
|
搜索推荐 编译器 Linux
一个可用于企业开发及通用跨平台的Makefile文件
一款适用于企业级开发的通用跨平台Makefile,支持C/C++混合编译、多目标输出(可执行文件、静态/动态库)、Release/Debug版本管理。配置简洁,仅需修改带`MF_CONFIGURE_`前缀的变量,支持脚本化配置与子Makefile管理,具备完善日志、错误提示和跨平台兼容性,附详细文档与示例,便于学习与集成。
271 116
|
18天前
|
域名解析 人工智能
【实操攻略】手把手教学,免费领取.CN域名
即日起至2025年12月31日,购买万小智AI建站或云·企业官网,每单可免费领1个.CN域名首年!跟我了解领取攻略吧~
|
12天前
|
安全 Java Android开发
深度解析 Android 崩溃捕获原理及从崩溃到归因的闭环实践
崩溃堆栈全是 a.b.c?Native 错误查不到行号?本文详解 Android 崩溃采集全链路原理,教你如何把“天书”变“说明书”。RUM SDK 已支持一键接入。
663 219
|
5天前
|
数据采集 人工智能 自然语言处理
Meta SAM3开源:让图像分割,听懂你的话
Meta发布并开源SAM 3,首个支持文本或视觉提示的统一图像视频分割模型,可精准分割“红色条纹伞”等开放词汇概念,覆盖400万独特概念,性能达人类水平75%–80%,推动视觉分割新突破。
350 34
Meta SAM3开源:让图像分割,听懂你的话
|
10天前
|
人工智能 移动开发 自然语言处理
2025最新HTML静态网页制作工具推荐:10款免费在线生成器小白也能5分钟上手
晓猛团队精选2025年10款真正免费、无需编程的在线HTML建站工具,涵盖AI生成、拖拽编辑、设计稿转代码等多种类型,均支持浏览器直接使用、快速出图与文件导出,特别适合零基础用户快速搭建个人网站、落地页或企业官网。
1587 157
|
存储 人工智能 监控
从代码生成到自主决策:打造一个Coding驱动的“自我编程”Agent
本文介绍了一种基于LLM的“自我编程”Agent系统,通过代码驱动实现复杂逻辑。该Agent以Python为执行引擎,结合Py4j实现Java与Python交互,支持多工具调用、记忆分层与上下文工程,具备感知、认知、表达、自我评估等能力模块,目标是打造可进化的“1.5线”智能助手。
897 61