技术实践 | 使用 PAI+LLaMA Factory 微调 Qwen2-VL 模型快速搭建专业领域知识问答机器人

简介: Qwen2-VL是一款具备高级图像和视频理解能力的多模态模型,支持多种语言,适用于多模态应用开发。通过PAI和LLaMA Factory框架,用户可以轻松微调Qwen2-VL模型,快速构建文旅领域的知识问答机器人。本教程详细介绍了从模型部署、微调到对话测试的全过程,帮助开发者高效实现定制化多模态应用。

一、方案概述

Qwen2-VL具备高级图像和视频理解能力,能够处理不同分辨率和长宽比的图片,实时分析动态视频内容。同时,它还支持多种语言,包括英文、中文以及大多数欧洲语言、日语、韩语、阿拉伯语、越南语等,适用于多模态应用开发。

Qwen2-VL系列模型通过扩展模型大小(如2B、7B、72B参数)和训练数据量,实现了极具竞争力的性能。其中,Qwen2-VL-72B模型在各种多模态基准测试中取得了与领先模型相当的结果。

LLaMA Factory 是一款开源低代码大模型微调框架,集成了业界最广泛使用的微调技术,支持通过 Web UI 界面零代码微调大模型,目前已经成为开源社区内最受欢迎的微调框架,GitHub 星标超过3万。

通过使用 PAI+LLaMA Factory 微调 Qwen2-VL 模型,快速搭建文旅领域知识问答机器人!

二、模型部署

1、在Notebook Gallery页面,单击进入“LLaMA Factory多模态微调实践:微调Qwen2-VL构建文旅大模型”教程。
image.png

2、在详情页面,您可查看到预置的LLaMA Factory多模态微调实践:微调Qwen2-VL构建文旅大模型教程,单击右上角的在DSW中打开。
image.png

3、在请选择对应实例对话框中,单击新建DSW实例。
image.png

4、在配置实例页面,自定义输入实例名称,例如DSW_LlamaFactory
image.png

5、GPU推荐使用 24GB 显存的 A10(ecs.gn7i-c8g1.2xlarge)或更高配置

在配置实例页面的选择镜像区域,请确认镜像是否为官方镜像的modelscope:1.14.0-pytorch2.1.2-gpu-py310-cu121-ubuntu22.04。
image.png

当状态变为运行中时,表示实例创建成功,点击打开NoteBook
image.png

6、安装LLaMA Factory
image.png
image.png

image.png

7、下载数据集
LLaMA-Factory 项目内置了丰富的数据集,放在了 data目录下。您可以跳过本步骤,直接使用内置数据集。您也可以准备自定义数据集,将数据处理为框架特定的格式,放在 data 下,并且修改 dataset_info.json 文件。
本教程准备了一份多轮对话数据集,运行下述命令下载数据。
image.png

三、模型微调

1、启动 Web UI,然后单击返回的URL地址,进入Web UI页面。
image.png
image.png

2、进入 WebUI 后,可以切换语言到中文(zh)。首先配置模型,本教程选择 Qwen2VL-2B-Chat 模型,微调方法修改为 full,针对小模型使用全参微调方法能带来更好的效果。
image.png
可以点击「预览数据集」。点击关闭返回训练界面。
image.png

3、设置学习率为 1e-4,训练轮数为 10,更改计算类型为 pure_bf16,梯度累积为 2,有利于模型拟合。
image.png

在其他参数设置区域修改保存间隔为 1000,节省硬盘空间。
image.png

4、启动微调
将输出目录修改为 train_qwen2vl,训练后的模型权重将会保存在此目录中。点击「预览命令」可展示所有已配置的参数,您如果想通过代码运行微调,可以复制这段命令,在命令行运行。
点击「开始」启动模型微调。
image.png

启动微调后需要等待一段时间,待模型下载完毕后可在界面观察到训练进度和损失曲线。模型微调大约需要 14 分钟,显示“训练完毕”代表微调成功。
image.png

四、模型对话

选择「Chat」栏,将检查点路径改为 train_qwen2vl,点击「加载模型」即可在 Web UI 中和微调后的模型进行对话。
image.png
上传至对话框的图像区域,接着在系统提示词区域填写“你是一个导游,请生动有趣地回答游客提出的问题”。在页面底部的对话框输入想要和模型对话的内容,点击提交即可发送消息。
image.png
发送后模型会逐字生成回答,从回答中可以发现模型学习到了数据集中的内容,能够恰当地模仿导游的语气介绍图中的山西博物院。
image.png

五、删除实例

image.png
image.png

六、总结

使用 PAI 和 LLaMA Factory 框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。在企业中可以使用实际业务数据集,对模型进行微调,得到能够解决实际业务场景问题的本地领域多模态大模型。

目录
打赏
0
13
13
1
446
分享
相关文章
基于PAI+专属网关+私网连接:构建全链路Deepseek云上私有化部署与模型调用架构
本文介绍了阿里云通过PAI+专属网关+私网连接方案,帮助企业实现DeepSeek-R1模型的私有化部署。方案解决了算力成本高、资源紧张、部署复杂和数据安全等问题,支持全链路零公网暴露及全球低延迟算力网络,最终实现技术可控、成本优化与安全可靠的AI部署路径,满足企业全球化业务需求。
【解决方案】DistilQwen2.5-R1蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践
阿里云的人工智能平台 PAI,作为一站式的机器学习和深度学习平台,对DistilQwen2.5-R1模型系列提供了全面的技术支持。无论是开发者还是企业客户,都可以通过 PAI-ModelGallery 轻松实现 Qwen2.5 系列模型的训练、评测、压缩和快速部署。本文详细介绍在 PAI 平台使用 DistilQwen2.5-R1 蒸馏模型的全链路最佳实践。
GR00T N1:全球首个开源人形机器人基座模型!双系统架构解锁通用操作
GR00T N1 是英伟达推出的全球首个开源人形机器人基础模型,基于多模态输入和双系统架构,能够执行复杂操作任务,适用于物流、制造、零售等多个领域。
94 1
GR00T N1:全球首个开源人形机器人基座模型!双系统架构解锁通用操作
RoboBrain:智源开源具身大脑模型,32B参数实现跨机器人协作
智源研究院推出的开源具身大脑模型RoboBrain,通过多阶段训练策略和模块化设计,在任务规划、可操作区域感知和轨迹预测等机器人核心能力上实现突破性进展。
120 46
RoboBrain:智源开源具身大脑模型,32B参数实现跨机器人协作
答疑机器人实践:AgentScope多智能体带你玩转多源召回
答疑机器人实践:AgentScope多智能体带你玩转多源召回
30 3
答疑机器人实践:AgentScope多智能体带你玩转多源召回
SpatialLM:手机视频秒建3D场景!开源空间认知模型颠覆机器人训练
SpatialLM 是群核科技开源的空间理解多模态模型,能够通过普通手机拍摄的视频重建 3D 场景布局,赋予机器人类似人类的空间认知能力,适用于具身智能训练、自动导航、AR/VR 等领域。
123 5
SpatialLM:手机视频秒建3D场景!开源空间认知模型颠覆机器人训练
【新模型速递】PAI一键云上零门槛部署DeepSeek-V3-0324、Qwen2.5-VL-32B
PAI-Model Gallery 集成国内外 AI 开源社区中优质的预训练模型,涵盖了 LLM、AIGC、CV、NLP 等各个领域,用户可以通过 PAI 以零代码方式实现从训练到部署再到推理的全过程,获得更快、更高效、更便捷的 AI 开发和应用体验。 现阿里云PAI-Model Gallery已同步接入DeepSeek-V3-0324、Qwen2.5-VL-32B-Instruct两大新模型,提供企业级部署方案。
AI训练师入行指南(三):机器学习算法和模型架构选择
从淘金到雕琢,将原始数据炼成智能珠宝!本文带您走进数字珠宝工坊,用算法工具打磨数据金砂。从基础的经典算法到精密的深度学习模型,结合电商、医疗、金融等场景实战,手把手教您选择合适工具,打造价值连城的智能应用。掌握AutoML改装套件与模型蒸馏术,让复杂问题迎刃而解。握紧算法刻刀,为数字世界雕刻文明!
82 6
云上一键部署通义千问 QwQ-32B 模型,阿里云 PAI 最佳实践
3月6日阿里云发布并开源了全新推理模型通义千问 QwQ-32B,在一系列权威基准测试中,千问QwQ-32B模型表现异常出色,几乎完全超越了OpenAI-o1-mini,性能比肩Deepseek-R1,且部署成本大幅降低。并集成了与智能体 Agent 相关的能力,够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署 QwQ-32B,本实践带您部署体验专属 QwQ-32B模型服务。
DistilQwen2.5蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践
DistilQwen2.5 是阿里云人工智能平台 PAI 推出的全新蒸馏大语言模型系列。通过黑盒化和白盒化蒸馏结合的自研蒸馏链路,DistilQwen2.5各个尺寸的模型在多个基准测试数据集上比原始 Qwen2.5 模型有明显效果提升。这一系列模型在移动设备、边缘计算等资源受限的环境中具有更高的性能,在较小参数规模下,显著降低了所需的计算资源和推理时长。阿里云的人工智能平台 PAI,作为一站式的机器学习和深度学习平台,对 DistilQwen2.5 模型系列提供了全面的技术支持。本文详细介绍在 PAI 平台使用 DistilQwen2.5 蒸馏小模型的全链路最佳实践。

热门文章

最新文章