HART:麻省理工学院推出的自回归视觉生成模型

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频资源包5000点
简介: HART(Hybrid Autoregressive Transformer)是麻省理工学院推出的自回归视觉生成模型,能够直接生成1024×1024像素的高分辨率图像,质量媲美扩散模型。HART基于混合Tokenizer技术,显著提升了图像生成质量和计算效率,适用于数字艺术创作、游戏开发、电影和视频制作等多个领域。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

高分辨率图像生成:HART能够直接生成1024×1024像素的高分辨率图像。
图像质量提升:基于混合Tokenizer技术,HART在图像重建和生成质量上超越传统自回归模型。
计算效率优化:在保持高图像质量的同时,显著提高计算效率,降低训练成本和推理延迟。

正文(附运行示例)

HART 是什么

HART-website.png

HART(Hybrid Autoregressive Transformer)是麻省理工学院研究团队推出的自回归视觉生成模型。该模型能够直接生成1024×1024像素的高分辨率图像,其生成质量可与扩散模型相媲美。HART的核心技术在于其混合Tokenizer,这种技术将自动编码器的连续潜在表示分解为离散token和连续token。离散token负责捕捉图像的主要结构,而连续token则专注于细节。

HART的轻量级残差扩散模块仅用3700万参数,大幅提升了计算效率。在MJHQ-30K数据集上,HART将重构FID从2.11降至0.30,生成FID从7.85降至5.38,提升了31%。此外,HART在吞吐量上比现有扩散模型提高了4.5-7.7倍,MAC降低6.9-13.4倍。

HART 的主要功能

  • 高分辨率图像生成:直接生成1024×1024像素的高分辨率图像,满足高质量视觉内容的需求。
  • 图像质量提升:基于混合Tokenizer技术,HART在图像重建和生成质量上超越传统的自回归模型,与扩散模型相媲美。
  • 计算效率优化:在保持高图像质量的同时,显著提高计算效率,降低训练成本和推理延迟。
  • 自回归建模:基于自回归方法,逐步生成图像,支持对生成过程进行更精细的控制。

HART 的技术原理

  • 混合Tokenizer:HART的核心是混合Tokenizer,将自动编码器的连续潜在表示分解为离散token和连续token。离散token负责捕捉图像的主要结构,连续token专注于细节。
  • 离散自回归模型:离散部分由一个可扩展分辨率的离散自回归模型建模,支持模型在不同分辨率下生成图像。
  • 轻量级残差扩散模块:连续部分由一个轻量级的残差扩散模块学习,该模块只有3700万个参数,有助于提高模型的效率。
  • 效率与性能平衡:HART在FID和CLIP分数上优于现有的扩散模型,在吞吐量上提高了4.5-7.7倍,MAC降低6.9-13.4倍,实现效率与性能的良好平衡。
  • 自回归生成:HART基于自回归方法,逐步生成图像,每一步都基于前一步的输出,支持模型在生成过程中逐步细化图像细节。

如何运行 HART

环境设置

首先,克隆HART的GitHub仓库并设置环境:

git clone https://github.com/mit-han-lab/hart
cd hart
conda create -n hart python=3.10
conda activate hart
conda install -c nvidia cuda-toolkit -y
pip install -e .
cd hart/kernels && python setup.py install

下载模型和Tokenizer

下载Qwen2-VL-1.5B-Instruct模型和HART tokenizer及模型:

git clone https://huggingface.co/mit-han-lab/Qwen2-VL-1.5B-Instruct
git clone https://huggingface.co/mit-han-lab/hart-0.7b-1024px

运行Gradio Demo

使用以下命令启动Gradio demo:

python app.py --model_path /path/to/model \
   --text_model_path /path/to/Qwen2 \
   --shield_model_path /path/to/ShieldGemma2B

命令行推理

  1. 使用单个提示生成图像:
python sample.py --model_path /path/to/model \
   --text_model_path /path/to/Qwen2 \
   --prompt "YOUR_PROMPT" \
   --sample_folder_dir /path/to/save_dir \
   --shield_model_path /path/to/ShieldGemma2B
  1. 使用多个提示生成图像:
python sample.py --model_path /path/to/model \
   --text_model_path /path/to/Qwen2 \
   --prompt_list [Prompt1, Prompt2, ..., PromptN] \
   --sample_folder_dir /path/to/save_dir \
   --shield_model_path /path/to/ShieldGemma2B

延迟基准测试

使用以下命令进行延迟基准测试:

python latency_profile.py --model_path /path/to/model \
   --text_model_path /path/to/Qwen2

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
4月前
|
人工智能 算法 数据安全/隐私保护
无表情人脸预测政治信仰,AI准确率惊人!斯坦福研究登国际顶刊
【8月更文挑战第10天】斯坦福大学的研究揭示了面部识别技术的新应用:通过分析无表情人脸图片预测政治倾向。研究在《American Psychologist》发表,表明人类评估者与AI均能在控制人口统计学特征的情况下准确预测政治取向,相关系数分别为0.21和0.22。利用年龄、性别和种族信息时,算法准确性提升至0.31。研究还发现保守派倾向于有更大的下半部面部。尽管成果引人注目,但其局限性和潜在的隐私问题仍需审慎考量。
145 62
|
人工智能 算法 数据可视化
LeCun世界模型首项研究来了:自监督视觉,像人一样学习和推理,已开源
LeCun世界模型首项研究来了:自监督视觉,像人一样学习和推理,已开源
218 0
|
机器学习/深度学习 人工智能 自然语言处理
蛋白质语言模型 ProGen:在实验室合成由 AI 预测的蛋白质
蛋白质语言模型 ProGen:在实验室合成由 AI 预测的蛋白质
590 0
|
机器学习/深度学习 人工智能 自然语言处理
CVPR 2022 | 视频Transformer自监督预训练新范式,复旦、微软云AI实现视频识别新SOTA
CVPR 2022 | 视频Transformer自监督预训练新范式,复旦、微软云AI实现视频识别新SOTA
234 0
|
机器学习/深度学习 人工智能 算法
“几何构象增强AI算法”,百度生物计算最新研究成果登上《Nature》子刊
“几何构象增强AI算法”,百度生物计算最新研究成果登上《Nature》子刊
219 0
|
机器学习/深度学习 人工智能
挑战人类认知推理新任务,MIT、UCLA、斯坦福联合提出新一代视觉推理数据集
挑战人类认知推理新任务,MIT、UCLA、斯坦福联合提出新一代视觉推理数据集
244 0
|
机器学习/深度学习 人工智能 自然语言处理
LeCun预言的自监督模型来了:首个多模态高性能自监督算法,语音、图像文本全部SOTA
LeCun预言的自监督模型来了:首个多模态高性能自监督算法,语音、图像文本全部SOTA
247 0
|
机器学习/深度学习 人工智能 自然语言处理
LeCun预言的自监督模型来了:首个多模态高性能自监督算法,语音、图像文本全部SOTA
LeCun预言的自监督模型来了:首个多模态高性能自监督算法,语音、图像文本全部SOTA
278 0
LeCun预言的自监督模型来了:首个多模态高性能自监督算法,语音、图像文本全部SOTA
|
机器学习/深度学习 传感器 机器人
DeepMind提出基于视觉的强化学习模型,十八般兵器对机器人不在话下
人类能够模仿别人的行为,根据给定的目标来规划自己的行动。DeepMind最近发布了一个新模型,赋予机器人相同的能力,最终生成的模型与操作器、任务都无关,具有更好地通用性。
194 0
DeepMind提出基于视觉的强化学习模型,十八般兵器对机器人不在话下
|
机器学习/深度学习 人工智能 算法
英伟达工程师解读NeurIPS 2019最热趋势:贝叶斯深度学习、图神经网络、凸优化
2019年人工智能研究什么最热?从今年最大型的AI顶会NeurIPS可以发现几大趋势:科学家们开始探索深度学习背后的理论和原理,贝叶斯深度学习、图神经网络和凸优化等深度学习新方法成为最热趋势。
311 0
英伟达工程师解读NeurIPS 2019最热趋势:贝叶斯深度学习、图神经网络、凸优化

热门文章

最新文章

下一篇
无影云桌面