[大语言模型-论文精读] MoRAG - 基于多部分融合的检索增强型人体动作生成-阿里云开发者社区

本文介绍了一种新颖的基于多部分融合的检索增强型文本驱动人体动作生成策略，名为MoRAG。该方法通过改进的运动检索流程来增强运动扩散模型，利用额外的知识来提升生成和检索任务的质量。通过有效提示大型语言模型（LLMs），解决了运动检索中的拼写错误和改写问题。本方法采用多部分检索策略，提高了运动检索在语言空间的泛化能力。通过空间组合检索到的动作，创建了多样化的样本。此外，通过使用低层次的、特定部分的运动信息，我们可以为未见过的文本描述构建运动样本。实验表明，我们的框架可以作为插件模块，提高运动扩散模型的性能。

论文研究背景

技术背景： 文本驱动的人体动作生成是计算机视觉和自然语言处理交叉领域的一个研究热点。近年来，随着深度学习技术的发展，尤其是大型语言模型和生成模型的突破，该领域取得了显著的进展。

发展历史： 早期的工作主要集中在使用编码器-解码器架构来生成动作序列。后来，随着变分自编码器和生成对抗网络的发展，研究者们开始探索使用这些模型来生成更精细、更真实的动作序列。最近，基于扩散模型的方法因其能够生成高质量、高分辨率的动作序列而受到关注。

技术挑战：

如何处理复杂的文本描述，尤其是那些训练数据中未出现过的描述。
如何提高生成动作的多样性和真实感。
如何有效地检索和利用与文本描述相关的运动信息。

创新点

提出了一种新的多部分融合的检索增强型动作生成框架（MoRAG），通过整合特定部分的运动检索模型与大型语言模型来提高生成任务的性能。
使用多部分检索策略来提高运动检索在语言空间的泛化能力。
通过空间组合检索到的动作来创建多样化的样本。
利用低层次的、特定部分的运动信息，为未见过的文本描述构建运动样本

算法模型

MoRAG框架：通过整合特定部分的运动检索模型与大型语言模型，来提升文本描述驱动的动作生成质量。
部分特定描述生成：使用LLM生成针对特定身体部分（如躯干、手、腿）的动作描述。
多部分运动检索：独立训练针对不同身体部分的运动检索模型，以检索与文本描述相对应的动作序列。
空间动作组合：将检索到的部分动作序列组合成全身动作序列，以用于动作生成模型的附加条件。

实验效果

定性分析：MoRAG在处理复杂或未见过的文本描述时，展现出更好的泛化能力。
定量分析：与现有的扩散模型相比，在多样性、多模态距离和多模态性能方面取得了更好的结果。
重要数据：

精确度：在top-1、top-2和top-3的召回率上，MoRAG均优于其他方法。
FID：在生成动作的Fréchet Inception Distance（FID）上，MoRAG达到了更低的值，表明生成的动作与真实动作更接近。
多样性：MoRAG在生成动作的多样性上优于现有技术。

结论

MoRAG通过使用多部分融合策略，显著提高了文本到人体动作生成的性能。该方法不仅能够处理典型的输入条件，还能有效处理复杂或未见过的输入，提高了模型的泛化能力。

推荐阅读指数：★★★★☆

推荐理由：

- 本文提出了一种创新的人体动作生成方法，通过结合检索增强型生成策略，提高了模型对文本描述的理解和生成动作的准确性。

- 实验结果表明，MoRAG在处理复杂文本描述和提升动作生成多样性方面具有显著优势。

代码:

Motion-RAG/MoRAG: A framework for text-based retrieval augmented motion generation (github.com)

------------------------------------------

如果您对我的博客内容感兴趣，欢迎三连击( 点赞，关注和评论 )，我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型，深度学习，计算机视觉相关方向)最新学术论文及工程实践方面的内容分享，助力您更快更准更及时地了解前沿技术的发展现状。