❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
原文链接:https://mp.weixin.qq.com/s/wn-m3Acle-aYPN1SjdyXiQ
🚀 快速阅读
- 功能:LMM 能够处理多种运动生成任务,如文本到运动、音乐到舞蹈等。
- 技术:基于 Diffusion Transformer 架构和 ArtAttention 机制,实现精确的运动控制。
- 应用:广泛应用于动画制作、虚拟现实、电影制作等领域。
正文(附运行示例)
Large Motion Model 是什么
Large Motion Model(LMM)是由新加坡南洋理工大学 S-Lab 和商汤科技研究团队共同推出的统一多模态运动生成模型。LMM 能够处理包括文本到运动、音乐到舞蹈等多种运动生成任务,并在多个基准测试中展现出与专家模型相媲美的性能。
LMM 基于整合不同模态、格式和任务的数据集创建了全面的 MotionVerse 数据集,采用创新的 ArtAttention 机制和预训练策略,实现对身体部位的精确控制和广泛的知识泛化。LMM 在处理未见任务时展现出强大的泛化能力,为未来大型运动模型的研究提供了新视角。
Large Motion Model 的主要功能
- 多任务运动生成:能够执行多种运动生成任务,如文本到运动、音乐到舞蹈、动作到运动等。
- 数据集整合:创建 MotionVerse 数据集,基于整合不同模态、格式和任务的数据集,实现统一的运动表示。
- 精确控制:采用 ArtAttention 机制,支持对不同身体部位进行精确控制,提高运动生成的精细度。
- 泛化能力:展现出强大的泛化能力,在多种未见任务上进行有效的运动生成。
- 多模态输入处理:同时处理多种模态输入,如文本、音乐、视频等,生成相应的运动输出。
Large Motion Model 的技术原理
- 统一数据集(MotionVerse):基于统一的数据集 MotionVerse,数据集包含多种任务和模态的运动数据,基于 TOMATO 表示法统一不同格式的运动数据。
- Diffusion Transformer 骨干网络:基于 Transformer 架构的 Diffusion 模型,用去噪扩散概率模型(DDPM)进行高质量的运动序列生成。
- ArtAttention 机制:设计一种新颖的注意力机制 ArtAttention,机制结合身体部位感知建模,支持模型对不同身体部位进行独立的控制和学习。
- 预训练策略:采用随机帧率和多种掩码技术的预训练策略,增强模型对不同数据源的学习能力和泛化能力。
- 零样本学习:采用零样本方法生成长序列运动,让模型在没有额外样本的情况下生成运动。
如何运行 Large Motion Model
1. 创建 Conda 环境
conda create -n mogen python=3.9 -y
conda activate mogen
2. 安装 Pytorch
conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=11.3 -c pytorch -y
3. 安装 MMCV
pip install "mmcv-full>=1.4.2,<=1.9.0" -f https://download.openmmlab.com/mmcv/dist/cu113/torch1.12.1/index.html
4. 安装 Pytorch3d
conda install -c bottler nvidiacub -y
conda install -c fvcore -c iopath -c conda-forge fvcore iopath -y
conda install pytorch3d -c pytorch3d -y
5. 安装 tutel
python3 -m pip install --verbose --upgrade git+https://github.com/microsoft/tutel@main
6. 安装其他依赖
pip install -r requirements/mogen.txt
7. 安装 ImageBind
pip install --no-deps git+https://github.com/facebookresearch/ImageBind@main
8. 数据准备
请参考 文档 获取详细的数据准备指南。
9. 模型推理
你可以尝试在 Hugging Face 上的在线演示,或者从 Google Drive 下载预训练权重并本地运行可视化脚本:
PYTHONPATH=".":$PYTHONPATH python tools/visualize_lmm.py ${CONFIG} ${CHECKPOINT} \
--text ${TEXT} \
--speech ${SPEECH_WAV_PATH} \
--motion_length ${MOTION_LENGTH} \
--out ${OUTPUT_ANIMATION_PATH} \
--fps 20.0 \
--device cpu
资源
- 项目官网:https://mingyuan-zhang.github.io/projects/LMM
- GitHub 仓库:https://github.com/mingyuan-zhang/LMM
- arXiv 技术论文:https://arxiv.org/pdf/2404.01284
- 在线体验 Demo:https://huggingface.co/spaces/mingyuan/LMM
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦