多模态 MiniGPT4 正式开源了!

简介: 多模态 MiniGPT4 正式开源了!

火爆的 ChatGPT!还记得 GPT-4 发布的时候根据图片生成网站的功能吗?

就是下面这个视频!👇

640.gif


GPT4 根据一个图片,然后立马生成网站的 HTML 代码

当时大家的第一感觉是震撼,这也太强了吧!可惜 OpenAI 直到现在还没公开这个功能!!不过最近有个同样技术的项目它开源了!!地址 👇

https://github.com/Vision-CAIR/MiniGPT-4

640.png

项目说明

MiniGPT-4 是一个很酷的开源项目,它能让计算机更好地理解图片和文字!

MiniGPT-4 通过训练一个超大的语言模型 Vicuna 和一个视觉编码器 BLIP-2,使得两者可以互相“通话”。这样,计算机就能同时理解图片和文字了,也能生成两者,这听起来像科幻电影里的人工智能啊!

640.png

MiniGPT-4 的训练分两步:

  • 第一步用大量的图片和文字数据进行预训练
  • 第二步用小量优质的数据进一步调优。经过第一步,语言模型就能理解视觉特征了
  • 第三步使其能更流畅地描述图片,也更容易使用

MiniGPT-4 展示了许多酷炫的视觉语言技能,就像 OpenAI 在 GPT-4 发布会上展示的那些。

作者提供了一个线上的 DEMO

https://minigpt-4.github.io/

MiniGPT-4 为研究和应用多模态人工智能开拓了新道路,具有很高的研究价值

部署方式

要玩转 MiniGPT-4, 首先要准备 Python 环境和下载 Vicuna 的预训练模型。

然后下载 MiniGPT-4 的预训练检查点,或者自己训练一个

我们可以在本地部署一个,首先准备好 Python 环境,这个没啥好说的

git clone https://github.com/Vision-CAIR/MiniGPT-4.git
cd MiniGPT-4
conda env create -f environment.yml
conda activate minigpt4

准备预训练的 Vicuna 权重,下载 Vicuna-13B 的模型参数,已经开源提供

vicuna_weights
├── config.json
├── generation_config.json
├── pytorch_model.bin.index.json
├── pytorch_model-00001-of-00003.bin
...

准备预训练的 MiniGPT-4 checkpoint.

然后,在第 11 行的 eval_configs/minigpt4_eval.yaml 中的评估配置文件中设置预训练检查点的路径

运行项目:

python demo.py --cfg-path eval_configs/minigpt4_eval.yaml

以上就是 MiniGPT-4 项目的部署步骤。

主要需要准备环境、下载预训练模型与数据集、训练模型、评估模型效果等。

由于项目开源, 数据集和预训练模型也都可以公开获取, 大家可以动手实践起来哦!

如果你想了解更多关于 ChatGPT 有趣的项目和玩法,欢迎点击下面的链接,加入我们的社群一起交流探讨


相关文章
|
6月前
|
文字识别 前端开发
CodeFuse-VLM 开源,支持多模态多任务预训练/微调
随着huggingface开源社区的不断更新,会有更多的vision encoder 和 LLM 底座发布,这些vision encoder 和 LLM底座都有各自的强项,例如 code-llama 适合生成代码类任务,但是不适合生成中文类的任务,因此用户常常需要根据vision encoder和LLM的特长来搭建自己的多模态大语言模型。针对多模态大语言模型种类繁多的落地场景,我们搭建了CodeFuse-VLM 框架,支持多种视觉模型和语言大模型,使得MFT-VLM可以适应不同种类的任务。
691 0
|
4月前
|
JSON 文字识别 算法
使用InternVL、LMDeploy和GTE搭建多模态RAG系统
如何将视觉大模型(VLM)与 多模态RAG 结合起来,创建服装搜索和搭配推荐!本文展示了InternVL模型在分析服装图像和提取颜色、款式和类型等关键特征方面的强大功能。
|
17天前
|
编解码 人工智能 自然语言处理
迈向多语言医疗大模型:大规模预训练语料、开源模型与全面基准测试
【10月更文挑战第23天】Oryx 是一种新型多模态架构,能够灵活处理各种分辨率的图像和视频数据,无需标准化。其核心创新包括任意分辨率编码和动态压缩器模块,适用于从微小图标到长时间视频的多种应用场景。Oryx 在长上下文检索和空间感知数据方面表现出色,并且已开源,为多模态研究提供了强大工具。然而,选择合适的分辨率和压缩率仍需谨慎,以平衡处理效率和识别精度。论文地址:https://www.nature.com/articles/s41467-024-52417-z
39 2
|
20天前
|
数据采集 人工智能 自然语言处理
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【10月更文挑战第20天】英伟达开源了最新的多模态大型语言模型NVLM 1.0,在图像描述、视觉问答等视觉-语言任务上取得了突破性成果,同时在纯文本任务上也表现出色。该模型采用创新设计,结合了解码器-only和交叉注意力的优势,训练数据丰富且高质量。NVLM 1.0的发布推动了多模态技术的发展,但也面临计算资源需求高、数据质量和模型可解释性等挑战。
29 3
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型】LLM主流开源大模型介绍
【AI大模型】LLM主流开源大模型介绍
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
多模态大模型技术原理与实战(3)
ChatGPT引爆了以AIGC(人工智能生成内容)为代表的第四范式 AI的市场,并成为 AI市场的热点
101 3
多模态大模型技术原理与实战(3)
|
25天前
|
Swift
统一多模态模型来了!智源发布多模态世界模型Emu3!
2024年10月21日,智源研究院正式发布原生多模态世界模型Emu3。
|
27天前
|
计算机视觉
Deepseek开源多模态LLM模型框架Janus,魔搭社区最佳实践
deepseek近期推出了简单、统一且灵活的多模态框架Janus,它能够统一处理多模态理解和生成任务。让我们一起来了解一下吧。
|
2月前
|
人工智能 文字识别 机器人
多模态大模型技术原理及实战(5)
国内外多模态大模型对比
82 6
|
2月前
|
机器学习/深度学习 编解码 自然语言处理
多模态大模型技术原理与实战(4)
本文介绍了多模态大模型的核心技术,包括数据集标注、数据表征、文本生成图像/语音/视频的方法、语音生成技术、视频生成模型以及跨模态融合技术。重点讨论了不同模型如GAN、VAE、Transformer和扩散模型的应用,并介绍了高效训练方法如Prefix Tuning、LORA等。此外,还详细描述了GPT-4的核心技术,如Transformer架构及其衍生物。
70 5