多模态 MiniGPT4 正式开源了!

简介: 多模态 MiniGPT4 正式开源了!

火爆的 ChatGPT!还记得 GPT-4 发布的时候根据图片生成网站的功能吗?

就是下面这个视频!👇

640.gif


GPT4 根据一个图片,然后立马生成网站的 HTML 代码

当时大家的第一感觉是震撼,这也太强了吧!可惜 OpenAI 直到现在还没公开这个功能!!不过最近有个同样技术的项目它开源了!!地址 👇

https://github.com/Vision-CAIR/MiniGPT-4

640.png

项目说明

MiniGPT-4 是一个很酷的开源项目,它能让计算机更好地理解图片和文字!

MiniGPT-4 通过训练一个超大的语言模型 Vicuna 和一个视觉编码器 BLIP-2,使得两者可以互相“通话”。这样,计算机就能同时理解图片和文字了,也能生成两者,这听起来像科幻电影里的人工智能啊!

640.png

MiniGPT-4 的训练分两步:

  • 第一步用大量的图片和文字数据进行预训练
  • 第二步用小量优质的数据进一步调优。经过第一步,语言模型就能理解视觉特征了
  • 第三步使其能更流畅地描述图片,也更容易使用

MiniGPT-4 展示了许多酷炫的视觉语言技能,就像 OpenAI 在 GPT-4 发布会上展示的那些。

作者提供了一个线上的 DEMO

https://minigpt-4.github.io/

MiniGPT-4 为研究和应用多模态人工智能开拓了新道路,具有很高的研究价值

部署方式

要玩转 MiniGPT-4, 首先要准备 Python 环境和下载 Vicuna 的预训练模型。

然后下载 MiniGPT-4 的预训练检查点,或者自己训练一个

我们可以在本地部署一个,首先准备好 Python 环境,这个没啥好说的

git clone https://github.com/Vision-CAIR/MiniGPT-4.git
cd MiniGPT-4
conda env create -f environment.yml
conda activate minigpt4

准备预训练的 Vicuna 权重,下载 Vicuna-13B 的模型参数,已经开源提供

vicuna_weights
├── config.json
├── generation_config.json
├── pytorch_model.bin.index.json
├── pytorch_model-00001-of-00003.bin
...

准备预训练的 MiniGPT-4 checkpoint.

然后,在第 11 行的 eval_configs/minigpt4_eval.yaml 中的评估配置文件中设置预训练检查点的路径

运行项目:

python demo.py --cfg-path eval_configs/minigpt4_eval.yaml

以上就是 MiniGPT-4 项目的部署步骤。

主要需要准备环境、下载预训练模型与数据集、训练模型、评估模型效果等。

由于项目开源, 数据集和预训练模型也都可以公开获取, 大家可以动手实践起来哦!

如果你想了解更多关于 ChatGPT 有趣的项目和玩法,欢迎点击下面的链接,加入我们的社群一起交流探讨


相关文章
|
1月前
|
人工智能 自然语言处理 数据库
AI - RAG架构
AI-RAG架构
54 0
|
2月前
|
机器学习/深度学习 算法 计算机视觉
利用深度学习技术实现图像风格迁移
本文将介绍如何利用深度学习技术中的卷积神经网络,结合风格迁移算法,实现图像风格的转换。通过对图像内容和风格的理解,深度学习模型可以生成具有新风格的图像,为图像处理领域带来了新的可能性。
|
3月前
|
文字识别 前端开发
CodeFuse-VLM 开源,支持多模态多任务预训练/微调
随着huggingface开源社区的不断更新,会有更多的vision encoder 和 LLM 底座发布,这些vision encoder 和 LLM底座都有各自的强项,例如 code-llama 适合生成代码类任务,但是不适合生成中文类的任务,因此用户常常需要根据vision encoder和LLM的特长来搭建自己的多模态大语言模型。针对多模态大语言模型种类繁多的落地场景,我们搭建了CodeFuse-VLM 框架,支持多种视觉模型和语言大模型,使得MFT-VLM可以适应不同种类的任务。
204 0
|
4月前
|
人工智能 自然语言处理
AIGC核心技术——多模态预训练大模型
【1月更文挑战第14天】AIGC核心技术——多模态预训练大模型
335 4
AIGC核心技术——多模态预训练大模型
|
2月前
|
人工智能 自然语言处理 数据挖掘
用RAG轻松构建自己的AI大模型应用
如何构建自己的AI大模型应用?
|
2月前
|
人工智能 开发者 Python
Firefly:开源大模型训练工具助力AI技术进步,让你轻松训练各种主流大模型!
Firefly:开源大模型训练工具助力AI技术进步,让你轻松训练各种主流大模型!
203 1
|
3月前
|
机器学习/深度学习 自然语言处理 算法
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
48 1
|
7月前
|
JSON 编解码 物联网
大规模语言LLaVA:多模态GPT-4智能助手,融合语言与视觉,满足用户复杂需求
大规模语言LLaVA:多模态GPT-4智能助手,融合语言与视觉,满足用户复杂需求
|
11月前
|
机器学习/深度学习 传感器 人工智能
多模态技术综述
多模态技术综述
685 0
|
11月前
|
机器学习/深度学习 算法 PyTorch
计算机视觉PyTorch实现风格迁移
计算机视觉PyTorch实现风格迁移
124 1