每日学术速递5.3

简介: 用任意语音音频生成说话人肖像是数字人和虚拟世界领域的一个关键问题。一种现代的说话人脸生成方法有望实现通用的音频-嘴唇同步、良好的视频质量和高系统效率的目标。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV


1.Learning Locally Editable Virtual Humans

8ad3d33565ba5971e6cb568b552fedcc.png

标题:学习本地可编辑虚拟人

作者:Hsuan-I Ho, Lixin Xue, Jie Song, Otmar Hilliges

文章链接:https://arxiv.org/abs/2305.00121

项目代码:https://custom-humans.github.io/

3c880b6ffcfc912975e763acf6153568.png

a3c5003faa44527f46839e08c734012d.png

322bb303e5ac9aa92162b689e37838a3.png

94db831d75dad425797816258388a6e3.png

摘要:

       在本文中,我们提出了一种新颖的混合表示和端到端可训练网络架构来对完全可编辑和可定制的神经化身进行建模。我们工作的核心在于将神经场的建模能力与蒙皮网格的易用性和固有 3D 一致性相结合的表示。为此,我们构建了一个可训练的特征码本来存储可变形身体模型顶点上的局部几何和纹理特征,从而利用其在关节下的一致拓扑结构。然后将这种表示用于生成式自动解码器架构,该架构允许适合看不见的扫描和对具有不同外观和几何形状的逼真化身进行采样。此外,我们的表示允许通过在 3D 资产之间交换局部特征来进行局部编辑。为了验证我们的头像创建和编辑方法,我们贡献了一个新的高质量数据集,称为 CustomHumans,用于训练和评估。我们的实验定量和定性地表明,与最先进的方法相比,我们的方法生成了多种详细的化身并实现了更好的模型拟合性能。我们的代码和数据集可在此 https URL 上获得。

2.It is all about where you start: Text-to-image generation with seed selection


971e42c6701a29540deb50d49af60cc3.png


标题:这一切都与您的起点有关:通过种子选择生成文本到图像

作者:Dvir Samuel, Rami Ben-Ari, Simon Raviv, Nir Darshan, Gal Chechik

文章链接:https://arxiv.org/abs/2304.14530

项目代码:https://github.com/microsoft/AdaM

b059974cc604def391d5920c6e89c258.png

8cb9c79aacd994c9910058af01a6eb53.png

d1c08fa5742ed14b1446ecb27914451d.png

36d6a3788eff470222b5e6365596f7d1.png

4e61d4af30882ab2925e53b3814238da.png


v摘要:

       文本到图像的扩散模型可以在新的构图和场景中综合各种概念。然而,他们仍然难以生成不常见的概念、罕见的不寻常组合或像手掌这样的结构化概念。它们的局限性部分是由于其训练数据的长尾性质:网络抓取的数据集非常不平衡,导致模型无法充分代表分布尾部的概念。在这里,我们描述了不平衡训练数据对文本到图像模型的影响,并提供了补救措施。我们表明,通过在噪声空间中仔细选择合适的生成种子,可以正确生成稀有概念,我们称之为 SeedSelect 的技术。SeedSelect 是高效的,不需要重新训练扩散模型。我们评估了 SeedSelect 在一系列问题上的优势。首先,在少样本语义数据增强中,我们为少样本和长尾基准生成语义正确的图像。我们展示了所有类别的分类改进,包括扩散模型训练数据的头部和尾部。我们进一步评估了 SeedSelect 在校正手部图像时的效果,这是当前扩散模型的一个众所周知的缺陷,并表明它显着改善了手部生成。

3.GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking Face Generation

34aae3c5a69d2bf2759d481871be33e6.png

标题:GeneFace++:通用且稳定的实时音频驱动 3D 说话人脸生成

作者:Zhenhui Ye, Jinzheng He, Ziyue Jiang, Rongjie Huang, Jiawei Huang, Jinglin Liu, Yi Ren, Xiang Yin, Zejun Ma, Zhou Zhao

文章链接:https://arxiv.org/abs/2305.00787

项目代码:https://genefaceplusplus.github.io/

网络异常,图片无法展示
|

7f31e6cf9d6786cc09229b409dd0740a.png

99fec37f60ea19efece078b923483f3b.png

10d44a261795c4507d974040c07533c2.png

摘要:

       用任意语音音频生成说话人肖像是数字人和虚拟世界领域的一个关键问题。一种现代的说话人脸生成方法有望实现通用的音频-嘴唇同步、良好的视频质量和高系统效率的目标。最近,神经辐射场(NeRF)成为该领域流行的渲染技术,因为它可以通过几分钟的训练视频实现高保真和 3D 一致的说话人脸生成。然而,基于 NeRF 的方法仍然存在一些挑战:1)对于口型同步,很难生成具有高时间一致性和音频口型精度的长面部运动序列;2)在视频质量方面,由于用于训练渲染器的数据有限,容易受到域外输入条件的影响,偶尔会产生糟糕的渲染结果;3) 至于系统效率,vanilla NeRF 缓慢的训练和推理速度严重阻碍了它在实际应用中的使用。在本文中,我们提出了 GeneFace++ 来应对这些挑战:1)利用音调轮廓作为辅助特征,并在面部运动预测过程中引入时间损失;2) 提出一种地标局部线性嵌入方法来调节预测运动序列中的异常值,以避免鲁棒性问题;3) 设计一个计算高效的基于 NeRF 的运动到视频渲染器,以实现快速训练和实时推理。通过这些设置,GeneFace++ 成为第一个基于 NeRF 的方法,可以通过广义的音频-嘴唇同步实现稳定和实时的说话人脸生成。大量实验表明,我们的方法在主观和客观评估方面优于最先进的基线。此 https URL 提供了视频示例。

目录
相关文章
|
5月前
|
人工智能 自然语言处理 Serverless
Vibecoding 新体验:实测 Qwen3 Coder 代码生成效果
Qwen3 Coder 是一款强大的编程大语言模型,支持超长 1M 上下文,具备卓越的代码生成能力。结合 VibeCoding 方案,可助力开发者与企业快速构建复杂应用,实现自然语言生成系统,提升开发效率与生产力。
|
传感器 机器学习/深度学习 编解码
智能驾驶--语义分割 公开数据集 汇总
本文整理了10个质量较好,数据集较大,比较新的,图像语义分割的公开数据集;主要服务于智能驾驶方向(辅助驾驶、自动驾驶等)。
2791 0
|
9天前
|
人工智能 JavaScript Linux
【Claude Code 全攻略】终端AI编程助手从入门到进阶(2026最新版)
Claude Code是Anthropic推出的终端原生AI编程助手,支持40+语言、200k超长上下文,无需切换IDE即可实现代码生成、调试、项目导航与自动化任务。本文详解其安装配置、四大核心功能及进阶技巧,助你全面提升开发效率,搭配GitHub Copilot使用更佳。
|
3天前
|
JSON API 数据格式
OpenCode入门使用教程
本教程介绍如何通过安装OpenCode并配置Canopy Wave API来使用开源模型。首先全局安装OpenCode,然后设置API密钥并创建配置文件,最后在控制台中连接模型并开始交互。
1520 5
|
11天前
|
存储 人工智能 自然语言处理
OpenSpec技术规范+实例应用
OpenSpec 是面向 AI 智能体的轻量级规范驱动开发框架,通过“提案-审查-实施-归档”工作流,解决 AI 编程中的需求偏移与不可预测性问题。它以机器可读的规范为“单一真相源”,将模糊提示转化为可落地的工程实践,助力开发者高效构建稳定、可审计的生产级系统,实现从“凭感觉聊天”到“按规范开发”的跃迁。
1666 17
|
9天前
|
人工智能 JavaScript 前端开发
【2026最新最全】一篇文章带你学会Cursor编程工具
本文介绍了Cursor的下载安装、账号注册、汉化设置、核心模式(Agent、Plan、Debug、Ask)及高阶功能,如@引用、@Doc文档库、@Browser自动化和Rules规则配置,助力开发者高效使用AI编程工具。
1267 6
|
10天前
|
消息中间件 人工智能 Kubernetes
阿里云云原生应用平台岗位急招,加入我们,打造 AI 最强基础设施
云原生应用平台作为中国最大云计算公司的基石,现全面转向 AI,打造 AI 时代最强基础设施。寻找热爱技术、具备工程极致追求的架构师、极客与算法专家,共同重构计算、定义未来。杭州、北京、深圳、上海热招中,让我们一起在云端,重构 AI 的未来。
|
13天前
|
IDE 开发工具 C语言
【2026最新】VS2026下载安装使用保姆级教程(附安装包+图文步骤)
Visual Studio 2026是微软推出的最新Windows专属IDE,启动更快、内存占用更低,支持C++、Python等开发。推荐免费的Community版,安装简便,适合初学者与个人开发者使用。
1289 12
|
7天前
|
云安全 安全
免费+限量+领云小宝周边!「阿里云2026云上安全健康体检」火热进行中!
诚邀您进行年度自检,发现潜在风险,守护云上业务连续稳健运行
1180 2