Large Motion Model:多模态运动生成模型,能够同时处理文本、音乐、视频等多种模态生成相应的运动动作

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: Large Motion Model(LMM)是商汤科技与南洋理工大学联合推出的统一多模态运动生成模型,能够处理文本到运动、音乐到舞蹈等多种任务,展现出强大的泛化能力。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

原文链接:https://mp.weixin.qq.com/s/wn-m3Acle-aYPN1SjdyXiQ


🚀 快速阅读

  1. 功能:LMM 能够处理多种运动生成任务,如文本到运动、音乐到舞蹈等。
  2. 技术:基于 Diffusion Transformer 架构和 ArtAttention 机制,实现精确的运动控制。
  3. 应用:广泛应用于动画制作、虚拟现实、电影制作等领域。

正文(附运行示例)

Large Motion Model 是什么

公众号: 蚝油菜花 - LMM

Large Motion Model(LMM)是由新加坡南洋理工大学 S-Lab 和商汤科技研究团队共同推出的统一多模态运动生成模型。LMM 能够处理包括文本到运动、音乐到舞蹈等多种运动生成任务,并在多个基准测试中展现出与专家模型相媲美的性能。

LMM 基于整合不同模态、格式和任务的数据集创建了全面的 MotionVerse 数据集,采用创新的 ArtAttention 机制和预训练策略,实现对身体部位的精确控制和广泛的知识泛化。LMM 在处理未见任务时展现出强大的泛化能力,为未来大型运动模型的研究提供了新视角。

Large Motion Model 的主要功能

  • 多任务运动生成:能够执行多种运动生成任务,如文本到运动、音乐到舞蹈、动作到运动等。
  • 数据集整合:创建 MotionVerse 数据集,基于整合不同模态、格式和任务的数据集,实现统一的运动表示。
  • 精确控制:采用 ArtAttention 机制,支持对不同身体部位进行精确控制,提高运动生成的精细度。
  • 泛化能力:展现出强大的泛化能力,在多种未见任务上进行有效的运动生成。
  • 多模态输入处理:同时处理多种模态输入,如文本、音乐、视频等,生成相应的运动输出。

Large Motion Model 的技术原理

  • 统一数据集(MotionVerse):基于统一的数据集 MotionVerse,数据集包含多种任务和模态的运动数据,基于 TOMATO 表示法统一不同格式的运动数据。
  • Diffusion Transformer 骨干网络:基于 Transformer 架构的 Diffusion 模型,用去噪扩散概率模型(DDPM)进行高质量的运动序列生成。
  • ArtAttention 机制:设计一种新颖的注意力机制 ArtAttention,机制结合身体部位感知建模,支持模型对不同身体部位进行独立的控制和学习。
  • 预训练策略:采用随机帧率和多种掩码技术的预训练策略,增强模型对不同数据源的学习能力和泛化能力。
  • 零样本学习:采用零样本方法生成长序列运动,让模型在没有额外样本的情况下生成运动。

如何运行 Large Motion Model

1. 创建 Conda 环境

conda create -n mogen python=3.9 -y
conda activate mogen

2. 安装 Pytorch

conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=11.3 -c pytorch -y

3. 安装 MMCV

pip install "mmcv-full>=1.4.2,<=1.9.0" -f https://download.openmmlab.com/mmcv/dist/cu113/torch1.12.1/index.html

4. 安装 Pytorch3d

conda install -c bottler nvidiacub -y
conda install -c fvcore -c iopath -c conda-forge fvcore iopath -y
conda install pytorch3d -c pytorch3d -y

5. 安装 tutel

python3 -m pip install --verbose --upgrade git+https://github.com/microsoft/tutel@main

6. 安装其他依赖

pip install -r requirements/mogen.txt

7. 安装 ImageBind

pip install --no-deps git+https://github.com/facebookresearch/ImageBind@main

8. 数据准备

请参考 文档 获取详细的数据准备指南。

9. 模型推理

你可以尝试在 Hugging Face 上的在线演示,或者从 Google Drive 下载预训练权重并本地运行可视化脚本:

PYTHONPATH=".":$PYTHONPATH python tools/visualize_lmm.py ${CONFIG} ${CHECKPOINT} \
    --text ${TEXT} \
    --speech ${SPEECH_WAV_PATH} \
    --motion_length ${MOTION_LENGTH} \
    --out ${OUTPUT_ANIMATION_PATH} \
    --fps 20.0 \
    --device cpu

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
1月前
|
存储 人工智能 文字识别
Megrez-3B-Omni:无问芯穹开源最强端侧全模态模型,支持理解图像、音频和文本三种模态数据
Megrez-3B-Omni 是无问芯穹开源的端侧全模态理解模型,支持图像、音频和文本三种模态数据的处理,具备高精度和高推理速度,适用于多种应用场景。
101 19
Megrez-3B-Omni:无问芯穹开源最强端侧全模态模型,支持理解图像、音频和文本三种模态数据
|
2月前
|
人工智能
LongAlign:港大推出的提升文本到图像扩散模型处理长文本对齐方法
LongAlign是由香港大学研究团队推出的文本到图像扩散模型的改进方法,旨在提升长文本输入的对齐精度。通过段级编码技术和分解偏好优化,LongAlign显著提高了模型在长文本对齐任务上的性能,超越了现有的先进模型。
45 1
LongAlign:港大推出的提升文本到图像扩散模型处理长文本对齐方法
|
3月前
|
编解码 人工智能 数据可视化
imagen: 具有深度语言理解的逼真的文本到图像扩散模型
imagen: 具有深度语言理解的逼真的文本到图像扩散模型
50 0
|
3月前
|
机器学习/深度学习 人工智能 算法
[大语言模型-论文精读] Diffusion Model技术-通过时间和空间组合扩散模型生成复杂的3D人物动作
[大语言模型-论文精读] Diffusion Model技术-通过时间和空间组合扩散模型生成复杂的3D人物动作
43 0
|
4月前
MUMU:用文本、图像引导,多模态图像生成模型
【9月更文挑战第19天】随着人工智能技术的发展,多模态模型因其能处理文本、图像、音频等多种信息而备受关注。在图像生成领域,一种名为MUMU的新模型展现出巨大潜力。MUMU可接收文本和图像提示并生成相应图像,如根据“一个&lt;图片:男人&gt;男人和他的&lt;图片:狗&gt;狗在一个&lt;图片:卡通&gt;动画风格中”生成图像。通过训练包含文本-图像数据集的视觉-语言编码器及扩散解码器,MUMU能实现风格转换和角色一致性等任务,并在图像编辑和合成方面展示出潜力。然而,其仍受限于复杂场景处理能力和计算资源需求。论文详情见链接:https://arxiv.org/abs/2406.18790。
56 1
|
5月前
|
网络安全 语音技术
语音情感基座模型emotion5vec 问题之什么是歌曲情感识别,在歌曲情感识别任务中,emotion2vec的如何表现
语音情感基座模型emotion5vec 问题之什么是歌曲情感识别?在歌曲情感识别任务中,emotion2vec的如何表现
|
5月前
|
数据可视化 数据挖掘 网络安全
语音情感基座模型emotion6vec 问题之什么是表征可视化,在这项研究中如何应用
语音情感基座模型emotion6vec 问题之什么是表征可视化,在这项研究中如何应用
|
5月前
|
机器人 人机交互 语音技术
语音情感基座模型emotion3vec 问题之什么是帧级别损失,如何计算
语音情感基座模型emotion3vec 问题之什么是帧级别损失,如何计算
|
5月前
|
网络安全 语音技术
语音情感基座模型emotion4vec 问题之计算emotion2vec模型中的总损失L,如何操作
语音情感基座模型emotion4vec 问题之计算emotion2vec模型中的总损失L,如何操作
|
5月前
|
机器学习/深度学习 语音技术
语音情感基座模型emotion2vec 问题之emotion2vec模型进行预训练,如何操作
语音情感基座模型emotion2vec 问题之emotion2vec模型进行预训练,如何操作
131 1

热门文章

最新文章