[大语言模型-论文精读] MoRAG - 基于多部分融合的检索增强型人体动作生成

简介: [大语言模型-论文精读] MoRAG - 基于多部分融合的检索增强型人体动作生成

MoRAG--Multi-Fusion Retrieval Augmented Generation for Human Motion

KS Shashank, S Maheshwari, RK Sarvadevabhatla - arXiv preprint arXiv:2409.12140, 2024

MoRAG - 基于多部分融合的检索增强型人体动作生成

1.

目录

MoRAG--Multi-Fusion Retrieval Augmented Generation for Human Motion

1. 摘要

创新点

算法模型

实验效果

结论

推荐阅读指数:★★★★☆


摘要

本文介绍了一种新颖的基于多部分融合的检索增强型文本驱动人体动作生成策略,名为MoRAG。该方法通过改进的运动检索流程来增强运动扩散模型,利用额外的知识来提升生成和检索任务的质量。通过有效提示大型语言模型(LLMs),解决了运动检索中的拼写错误和改写问题。本方法采用多部分检索策略,提高了运动检索在语言空间的泛化能力。通过空间组合检索到的动作,创建了多样化的样本。此外,通过使用低层次的、特定部分的运动信息,我们可以为未见过的文本描述构建运动样本。实验表明,我们的框架可以作为插件模块,提高运动扩散模型的性能。

论文研究背景

技术背景: 文本驱动的人体动作生成是计算机视觉和自然语言处理交叉领域的一个研究热点。近年来,随着深度学习技术的发展,尤其是大型语言模型和生成模型的突破,该领域取得了显著的进展。

发展历史: 早期的工作主要集中在使用编码器-解码器架构来生成动作序列。后来,随着变分自编码器和生成对抗网络的发展,研究者们开始探索使用这些模型来生成更精细、更真实的动作序列。最近,基于扩散模型的方法因其能够生成高质量、高分辨率的动作序列而受到关注。

技术挑战

  • 如何处理复杂的文本描述,尤其是那些训练数据中未出现过的描述。
  • 如何提高生成动作的多样性和真实感。
  • 如何有效地检索和利用与文本描述相关的运动信息。

创新点

  1. 提出了一种新的多部分融合的检索增强型动作生成框架(MoRAG),通过整合特定部分的运动检索模型与大型语言模型来提高生成任务的性能。
  2. 使用多部分检索策略来提高运动检索在语言空间的泛化能力。
  3. 通过空间组合检索到的动作来创建多样化的样本。
  4. 利用低层次的、特定部分的运动信息,为未见过的文本描述构建运动样本

算法模型

  • MoRAG框架:通过整合特定部分的运动检索模型与大型语言模型,来提升文本描述驱动的动作生成质量。
  • 部分特定描述生成:使用LLM生成针对特定身体部分(如躯干、手、腿)的动作描述。
  • 多部分运动检索:独立训练针对不同身体部分的运动检索模型,以检索与文本描述相对应的动作序列。
  • 空间动作组合:将检索到的部分动作序列组合成全身动作序列,以用于动作生成模型的附加条件。

实验效果

  • 定性分析:MoRAG在处理复杂或未见过的文本描述时,展现出更好的泛化能力。
  • 定量分析:与现有的扩散模型相比,在多样性、多模态距离和多模态性能方面取得了更好的结果。
  • 重要数据
  • 精确度:在top-1、top-2和top-3的召回率上,MoRAG均优于其他方法。
  • FID:在生成动作的Fréchet Inception Distance(FID)上,MoRAG达到了更低的值,表明生成的动作与真实动作更接近。
  • 多样性:MoRAG在生成动作的多样性上优于现有技术。

结论

MoRAG通过使用多部分融合策略,显著提高了文本到人体动作生成的性能。该方法不仅能够处理典型的输入条件,还能有效处理复杂或未见过的输入,提高了模型的泛化能力。

推荐阅读指数:★★★★☆

推荐理由

- 本文提出了一种创新的人体动作生成方法,通过结合检索增强型生成策略,提高了模型对文本描述的理解和生成动作的准确性。

- 实验结果表明,MoRAG在处理复杂文本描述和提升动作生成多样性方面具有显著优势。

代码:

Motion-RAG/MoRAG: A framework for text-based retrieval augmented motion generation (github.com)

------------------------------------------

如果您对我的博客内容感兴趣,欢迎三连击( 点赞,关注和评论 ),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更及时地了解前沿技术的发展现状。

相关文章
|
缓存 PyTorch 数据处理
基于Pytorch的PyTorch Geometric(PYG)库构造个人数据集
基于Pytorch的PyTorch Geometric(PYG)库构造个人数据集
1563 0
基于Pytorch的PyTorch Geometric(PYG)库构造个人数据集
|
人工智能 自然语言处理 安全
“一丹一世界”三等奖 | 灵犀共生 经验分享&浅谈AI对摄影的帮助
“一丹一世界”三等奖 | 灵犀共生 经验分享&浅谈AI对摄影的帮助
463 9
|
存储 算法 Java
JVM 内存区域划分与垃圾回收机制详解
本文深入解析JVM内存区域划分与垃圾回收机制,涵盖程序计数器、虚拟机栈、堆、方法区等核心结构,详解对象生命周期、分代收集、GC算法及主流收集器(如G1、ZGC、Shenandoah),并提供调优实践建议,助力开发者掌握Java性能优化核心技能。
273 1
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
41_涌现能力:从zero-shot到in-context学习
在人工智能领域,2022年以来,大语言模型(LLM)展现出的一系列惊人能力引发了广泛关注。其中最令人着迷的现象之一,就是**涌现能力**(Emergent Abilities)——当模型规模超过某个临界点时,突然表现出的在小模型中不存在的新能力。这种量变引发质变的神奇现象,彻底改变了我们对AI发展路径的认知。从最初只能进行简单文本生成的模型,到如今能够理解复杂指令、执行多步推理、甚至在未经过专门训练的任务上表现出色的AI系统,大语言模型正逐步逼近人类级别的认知能力。
913 2
|
机器学习/深度学习 人工智能 编解码
重定义数字人交互!OmniTalker:阿里推出实时多模态说话头像生成框架,音视频实现唇语级同步
阿里巴巴推出的OmniTalker框架通过Thinker-Talker架构实现文本驱动的实时说话头像生成,创新性采用TMRoPE技术确保音视频同步,支持流式多模态输入处理。
3485 2
重定义数字人交互!OmniTalker:阿里推出实时多模态说话头像生成框架,音视频实现唇语级同步
|
机器学习/深度学习 IDE 开发工具
基于OpenCV的车牌识别系统源码分享
基于OpenCV的车牌识别系统主要利用图像边缘和车牌颜色定位车牌,再利用OpenCV的SVM识别具体字符,从而达到车牌识别的效果。
652 4
基于OpenCV的车牌识别系统源码分享
|
机器学习/深度学习 编解码 物联网
极致的显存管理!6G显存运行混元Video模型
混元 Video 模型自发布以来,已成为目前效果最好的开源文生视频模型,然而,这个模型极为高昂的硬件需求让大多数玩家望而却步。魔搭社区的开源项目 DiffSynth-Studio 近期为混元 Video 模型提供了更高效的显存管理的支持,目前已支持使用24G显存进行无任何质量损失的视频生成,并在极致情况下,用低至 6G 的显存运行混元 Video 模型!
1709 14
|
并行计算 openCL Ubuntu
Nvidia GeForce GTX 1650不支持OpenGL4.6
本文讨论了Nvidia GeForce GTX 1650显卡不支持OpenGL 4.6的问题。尽管更新了显卡驱动到最新的NVIDIA 512.15版本,并通过nvidia-smi命令确认了CUDA版本,但在检查OpenGL版本时发现它只支持到4.4。文章还提供了参考链接,包括NVIDIA Developer网站上的OpenGL驱动支持信息和其他用户在不同操作系统上更新OpenGL版本的经验。
1578 0
Nvidia GeForce GTX 1650不支持OpenGL4.6
|
机器学习/深度学习 自然语言处理 人机交互
|
机器学习/深度学习 TensorFlow 算法框架/工具
《池化技术:深度学习热点背后的神秘力量,探寻最大池化与平均池化如何引领图像革命》
【8月更文挑战第21天】池化技术是深度学习中关键的特征提取手段,通过下采样减少数据维度和计算量,同时保持核心特征。主要分为最大池化和平均池化:前者选取局部区域的最大值,保留显著特征并具平移不变性;后者计算区域平均值,平滑噪声并稳定输出。两者依据任务需求选择,如图像分类偏好最大池化以突出关键特征,而去噪任务则倾向平均池化以平滑图像。
582 0

热门文章

最新文章