MiniGPT4,开源了!

简介: MiniGPT4,开源了!


GPT-4识图功能迟迟不开放,终于有人忍不住自己动手做了一个。

MiniGPT-4来了,Demo开放在线可玩。

传一张海鲜大餐照片上去,就能直接获得菜谱。

传一张商品效果图,就可以让AI写一篇带货文案。

手绘一个网页,可以给出对应的HTML代码

除了生产力拉满,也支持根据常识推理图上内容是否合理、解释表情包为什么好笑,以及看截图找电影等娱乐玩法。

可以说,GPT-4发布时展示过的功能,MiniGPT-4基本也都有了。

这下网友直接把Demo服务器挤爆,开发团队连开4台备用服务器,都有几十人在排队。

不等OpenAI了,现在就能玩

除了研究团队给出的示例,网友也用MiniGPT-4玩出了各种花样

有人上传自己画的画,让AI评价评价。

有人上传一张从车道拍摄的飞机坠毁瞬间,让MiniGPT-4尽可能详细地描述,并思考自动驾驶AI能不能理解这个场面。

做到这么好的效果,MiniGPT-4实现起来却并不复杂。

把图像编码器与开源语言模型Vicuna(小羊驼)整合起来,并且冻结了两者的大部分参数,只需要训练很少一部分。

传统预训练阶段,使用4张A100在10个小时内就可完成,此时训练出来的Vicuna已能够理解图像,但生成能力受到很大影响。

为解决这个问题,团队让MiniGPT-4与ChatGPT合作创建了3500个图像文本的高质量数据集,也一并开源。

用新的数据集微调可以显著提高模型的生成可靠性和整体可用性,而且计算效率很高,使用单个A100只需要7分钟。

并且团队正在准备一个更轻量级的版本,部署起来只需要23GB显存。

也就是消费级显卡中拥有24GB显存的3090或4090就可以本地运行了。

MiniGPT-4开发团队来自KAUST(沙特阿卜杜拉国王科技大学),包括4位华人成员和他们的导师 Mohamed Elhoseiny。


相关文章
|
人工智能 编解码 安全
【最新】火出圈的Sora到底是什么?5000字长文带你彻底了解Sora!
火出圈的Sora,是OpenAI最近发布的一款革命性文生视频大模型,引发了广泛的关注和讨论。在这篇5000字的长文中,我们将深入探讨Sora的技术特性、应用前景以及它对未来人工智能发展的潜在影响,带你彻底了解这个火出圈的Sora究竟是什么。
|
7月前
|
SQL 数据库 数据安全/隐私保护
Umbraco CMS 一键启动
**Umbraco 项目创建指南**您可以快速搭建并运行一个基于 Umbraco 的网站。
152 7
|
搜索推荐 API
【强烈推荐使用】免费在线使用 GPT-4 | Free GPT-4 Online
这是一个无需API密钥的在线GPT-4工具,用户可直接输入消息进行交互。特色功能包括:重试按钮、Prompt菜单、重新开始对话及设置选项(如随机性调整和历史消息数选择),提供个性化和高效交流体验。详情见个人主页简介。
981 5
【强烈推荐使用】免费在线使用 GPT-4 | Free GPT-4 Online
|
监控 网络协议 Java
Java中的WebSocket实时通信技术详解
Java中的WebSocket实时通信技术详解
|
数据采集 机器学习/深度学习 编解码
视频生成框架EasyAnimate正式开源!
EasyAnimate是人工智能平台PAI自主研发的DiT-based视频生成框架,它提供了完整的高清长视频生成解决方案,包括视频数据预处理、VAE训练、DiT训练、模型推理和模型评测等。可以使用EasyAnimate进行任意风格视频模型的训练和推理,还可以在预训练模型的基础上,通过少量图片的LoRA微调来改变生成视频的风格。
|
12月前
|
供应链 监控 搜索推荐
代购系统在面对供应链风险时,有哪些应对策略?
代购系统在面对供应链风险时,可以采取以下应对策略:建立强大的供应链网络、优化物流与配送、打造个性化服务体验、合规经营,注重风险管理、技术赋能,高效运营、深度解析风险、风险预警系统、供应链风险的分类与管理和应急预案和风险管理机制。
473 3
|
前端开发 JavaScript Java
揭开 JavaScript 垃圾回收的秘密——一场与内存泄漏的生死较量,让你的代码从此焕然一新!
【8月更文挑战第23天】本文通过多个实例深入探讨了JavaScript中的垃圾回收机制及其对应用性能的影响。首先介绍了基本的内存管理方式,随后分析了变量不再使用时的回收过程。接着,通过事件监听器未被移除及全局变量管理不当等场景展示了常见的内存泄漏问题。最后,文章介绍了使用`WeakRef`和`FinalizationRegistry`等现代API来有效避免内存泄漏的方法。理解并运用这些技术能显著提升Web应用的稳定性和效率。
198 0
|
监控 关系型数据库 数据库
PostgreSQL和greenplum的copy命令如何使用?
【6月更文挑战第5天】PostgreSQL和greenplum的copy命令如何使用?
503 2
|
设计模式 运维 Java
Spring5深入浅出篇:Spring中静态代理与动态代理
Spring框架中的代理模式分为静态代理和动态代理。在JavaEE分层开发中,Service层最为重要,包含核心业务逻辑和额外功能。静态代理通过手动创建代理类来增加原始类的额外功能,但当代理类数量多时管理不便且不易于维护。动态代理则解决了这一问题,通过Spring的AOP(面向切面编程)实现,无需手动创建代理类,只需定义切点和增强(额外功能),在运行时动态生成代理对象,提高了代码的灵活性和可维护性。动态代理主要利用了JVM的字节码技术,在运行过程中创建代理类,执行完毕后随着虚拟机的结束而销毁,不会产生持久化的代理类。