中文多模态模型问世!IDPChat生成图像文字,只需5步+单GPU

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 中文多模态模型问世!IDPChat生成图像文字,只需5步+单GPU


 新智元报道  

编辑:桃子 拉燕

【新智元导读】中文多模态模型IDPChat来了,快速上手教程在此。


中文多模态模型IDPChat和大家见面了。

随着GPT4、文心一言等的发布,预训练大模型正式开启由单模态向多模态模型演进。多模态的特性为语言模型带来更加丰富的应用场景。

我们认为,未来的AI应用将主要以大模型为核心基石。

而在大模型的领域,基于基础模型(Foundation model)构建领域或企业自有的大模型,会是近中期的重要发展趋势。

但在私有化大模型微调和应用方面,企业和机构仍面临着微调复杂、部署困难、成本较高等种种工程化挑战。

白海作为AI基础软件服务商,我们希望能够从AI Infra层面,提供端到端的大模型微调、部署和应用工具,降低大模型微调和应用的门槛。白海科技IDP平台目前提供了从大模型数据源接入到大模型微调训练、模型发布的全流程功能。

我们以IDP平台为工具支撑,以预训练大语言模型LLaMA和开源文生图预训练模型Stable Diffusion为基础,快速构建了多模态大模型应用IDPChat。开发者们可根据场景需求,便捷地对其进行微调优化。

项目地址:https://github.com/BaihaiAI/IDPChat

IDPChat 能做什么


IDPChat目前可以同时支持文字对话和图片生成。

首先是图像生成,我们可以让模型根据文字描述画一幅画。

基础的文字对话聊天示例,可支持中文。

IDPChat 快速上手


仅需简单的5步和单GPU,即可快速启用IDPChat。

操作步骤如下:

1.  修改 ./backend/app/stable_diffusion/generate_image.py 文件,设置 diffusion_path 的值为本地 stable-diffusion 模型存储路径,设置 trans_path 的值为本地中文翻译模型的存储路径

2.  修改 ./backend/app/llama/generate_text.py 文件,设置 load_model 的 base 参数值为本地 llama 模型的存储路径

3.  执行 build.sh 脚本进行编译

4.  编译成功后执行 run.sh 脚本启动服务

5.  服务启动成功后,在浏览器中打开http://127.0.0.1:8000

在应用之前,需要下载准备所需的模型,LLaMA、Stable diffusion和相应的翻译模型。

具体所需的环境、模型、和操作步骤可以参考https://github.com/BaihaiAI/IDPChat

目前发布IDPChat初步版本,打通模型微调的全流程。

后续我们会继续对模型进行优化和丰富,如多模态部分增加图像描述功能。

当然要实现特定领域更高质量、针对性的表现,还需要基于领域数据的finetune和优化。

对 IDPChat 和 IDP 平台感兴趣的开发者小伙伴、场景应用伙伴等欢迎关注Github并联系我们。我们相信 IDP 平台和 IDPChat 将成为您探索多模态大模型应用和私有化大模型构建的得力助手。

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
2月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
653 109
|
2月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
253 2
|
2月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1367 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
1月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
256 120
|
3月前
|
存储 人工智能 自然语言处理
告别文字乱码!全新文生图模型Qwen-Image来咯
通义千问团队开源了Qwen-Image,一个20B参数的MMDiT模型,具备卓越的文本渲染和图像编辑能力。支持复杂中英文文本生成与自动布局,适用于多场景图像生成与编辑任务,已在魔搭社区与Hugging Face开源。
664 2
|
1月前
|
人工智能 缓存 自然语言处理
Java与多模态AI:构建支持文本、图像和音频的智能应用
随着大模型从单一文本处理向多模态能力演进,现代AI应用需要同时处理文本、图像、音频等多种信息形式。本文深入探讨如何在Java生态中构建支持多模态AI能力的智能应用。我们将完整展示集成视觉模型、语音模型和语言模型的实践方案,涵盖从文件预处理、多模态推理到结果融合的全流程,为Java开发者打开通往下一代多模态AI应用的大门。
306 41
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
541 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
2月前
|
自然语言处理 机器人 图形学
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
腾讯混元图像3.0,真的来了——开源,免费开放使用。 正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对…
722 2
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
|
1月前
|
缓存 物联网 PyTorch
使用TensorRT LLM构建和运行Qwen模型
本文档介绍如何在单GPU和单节点多GPU上使用TensorRT LLM构建和运行Qwen模型,涵盖模型转换、引擎构建、量化推理及LoRA微调等操作,并提供详细的代码示例与支持矩阵。
385 2

热门文章

最新文章

下一篇
oss云网关配置