多模态 MiniGPT4 正式开源了！-阿里云开发者社区

多模态 MiniGPT4 正式开源了！

2023-08-09 580

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 多模态 MiniGPT4 正式开源了！

火爆的 ChatGPT！还记得 GPT-4 发布的时候根据图片生成网站的功能吗？

就是下面这个视频！👇

GPT4 根据一个图片，然后立马生成网站的 HTML 代码

当时大家的第一感觉是震撼，这也太强了吧！可惜 OpenAI 直到现在还没公开这个功能！！不过最近有个同样技术的项目它开源了！！地址 👇

https://github.com/Vision-CAIR/MiniGPT-4

项目说明

MiniGPT-4 是一个很酷的开源项目,它能让计算机更好地理解图片和文字!

MiniGPT-4 通过训练一个超大的语言模型 Vicuna 和一个视觉编码器 BLIP-2,使得两者可以互相“通话”。这样,计算机就能同时理解图片和文字了,也能生成两者,这听起来像科幻电影里的人工智能啊!

MiniGPT-4 的训练分两步:

第一步用大量的图片和文字数据进行预训练
第二步用小量优质的数据进一步调优。经过第一步,语言模型就能理解视觉特征了
第三步使其能更流畅地描述图片,也更容易使用

MiniGPT-4 展示了许多酷炫的视觉语言技能,就像 OpenAI 在 GPT-4 发布会上展示的那些。

作者提供了一个线上的 DEMO

https://minigpt-4.github.io/

MiniGPT-4 为研究和应用多模态人工智能开拓了新道路,具有很高的研究价值

部署方式

要玩转 MiniGPT-4, 首先要准备 Python 环境和下载 Vicuna 的预训练模型。

然后下载 MiniGPT-4 的预训练检查点,或者自己训练一个

我们可以在本地部署一个，首先准备好 Python 环境，这个没啥好说的

git clone https://github.com/Vision-CAIR/MiniGPT-4.git
cd MiniGPT-4
conda env create -f environment.yml
conda activate minigpt4

准备预训练的 Vicuna 权重,下载 Vicuna-13B 的模型参数,已经开源提供

vicuna_weights
├── config.json
├── generation_config.json
├── pytorch_model.bin.index.json
├── pytorch_model-00001-of-00003.bin
...

准备预训练的 MiniGPT-4 checkpoint.

然后，在第 11 行的 eval_configs/minigpt4_eval.yaml 中的评估配置文件中设置预训练检查点的路径

运行项目：

python demo.py --cfg-path eval_configs/minigpt4_eval.yaml

以上就是 MiniGPT-4 项目的部署步骤。

主要需要准备环境、下载预训练模型与数据集、训练模型、评估模型效果等。

由于项目开源, 数据集和预训练模型也都可以公开获取, 大家可以动手实践起来哦！

如果你想了解更多关于 ChatGPT 有趣的项目和玩法，欢迎点击下面的链接，加入我们的社群一起交流探讨

多模态 MiniGPT4 正式开源了！

项目说明

部署方式

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

多模态 MiniGPT4 正式开源了！

项目说明

部署方式

热门文章

最新文章

相关课程

相关电子书

相关实验场景