魔塔社区-微调Qwen3-1.7B大模型实战

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 这是一篇关于模型微调实战的教程,主要步骤如下:1. 使用魔塔社区提供的GPU环境;2. 处理 delicate_medical_r1_data 数据集生成训练和验证文件;3. 加载Modelscope上的Qwen3-1.7B模型;4. 注册并使用Swanlab工具配置API;5. 按顺序执行完整代码完成微调设置;6. 展示训练过程。完整代码与实验记录分别托管于魔塔社区和SwanLab平台,方便复现与学习。

关于微调概念这里不做介绍,网上百度有的是,这里就是实战,让你做第一微调,话不多说直接上实战。
1.第一步环境安装:资金有限我没有自己的环境,是使用了魔塔社区提供的环境,进入魔塔社区(https://www.modelscope.cn/)-我的Notebook,进入方式二GPU环境。

进入我的Nootbook.png

2.第二步数据处理:我使用的是魔塔社区的 delicate_medical_r1_data 数据集,该数据集主要被用于医学对话模型。本步骤需要执行数据处理代码,这里步显示,后续章节我统一导出来了顺序代码,按照顺序执行即可,执行完这部后代码目录下会出现训练集train.jsonl和验证集val.jsonl文件。
数据.png

3.第三步加载模型:我使用modelscope下载Qwen3-1.7B模型。

4.第四步使用Swanlab工具:去https://swanlab.cn上注册一个账号,然后在Nootbook环境中打开一个Terminal,首先输入:swanlab login 输入后他会让你输入APIkey,这时候去swanlab设置中复制你的API输入,这里注意输入时候是没有显示的,不用管直接ctrl+C然后回车即可。
image.png

5.第五步完整代码:(前边的处理过程需要执行代码我都没与写,这里统一输出代码)我把我环境的完整流程从第一步需要输出的代码按照顺序都导出了,你按照我的顺序复制粘贴代码即可。

代码中的os.environ["SWANLAB_PROJECT"]="qwen3-sft-medical" qwen3-sft-medical是你在Swanlab工作区里的项目名称不用去Swanlab配置,自动生成的。

args = TrainingArguments(
output_dir="/root/autodl-tmp/output/Qwen3-1.7B", 这里是你最后微调模型输出的位置
...
report_to="swanlab",
run_name="qwen3-1.7B",
)
run_name="qwen3-1.7B"中的qwen3-1.7B是项目中实验名,这两个部分你自己想气起什么名字自己定即可。
https://modelscope.cn/notebook/share/ipynb/9e5e5b24/train.ipynb
这里是完全的代码,可以按照这个顺序执行。下图是执行的过程图

image.png
image.png

第6.六步训练演示:
image.png

代码:完整代码在https://modelscope.cn/notebook/share/ipynb/9e5e5b24/train.ipynb
实验显示过程:https://swanlab.cn/@woshisunwukong/qwen3-sft-medical/runs/i9px1vrsz4a93ywzkbd18/chart
模型:Modelscope
数据集:delicate_medical_r1_data
SwanLab:https://swanlab.cn

相关文章
|
21天前
|
数据采集 存储 人工智能
智能体(AI Agent)开发实战之【LangChain】(二)结合大模型基于RAG实现本地知识库问答
智能体(AI Agent)开发实战之【LangChain】(二)结合大模型基于RAG实现本地知识库问答
|
22天前
|
缓存 监控 安全
通义大模型与现有企业系统集成实战《CRM案例分析与安全最佳实践》
本文档详细介绍了基于通义大模型的CRM系统集成架构设计与优化实践。涵盖混合部署架构演进(新增向量缓存、双通道同步)、性能基准测试对比、客户意图分析模块、商机预测系统等核心功能实现。同时,深入探讨了安全防护体系、三级缓存架构、请求批处理优化及故障处理机制,并展示了实时客户画像生成和动态提示词工程。通过实施,显著提升客服响应速度(425%)、商机识别准确率(37%)及客户满意度(15%)。最后,规划了技术演进路线图,从单点集成迈向自主优化阶段,推动业务效率与价值持续增长。
|
22天前
|
缓存 自然语言处理 监控
基于通义大模型的智能客服系统构建实战:从模型微调到API部署
本文详细解析了基于通义大模型的智能客服系统构建全流程,涵盖数据准备、模型微调、性能优化及API部署等关键环节。通过实战案例与代码演示,展示了如何针对客服场景优化训练数据、高效微调大模型、解决部署中的延迟与并发问题,以及构建完整的API服务与监控体系。文章还探讨了性能优化进阶技术,如模型量化压缩和缓存策略,并提供了安全与合规实践建议。最终总结显示,微调后模型意图识别准确率提升14.3%,QPS从12.3提升至86.7,延迟降低74%。
224 14
|
24天前
|
数据采集 人工智能 编解码
2025年颠覆闭源大模型?MonkeyOCR:这款开源AI文档解析模型,精度更高,速度更快!
还在依赖昂贵且慢的闭源OCR工具?华中科技大学开源的MonkeyOCR文档解析模型,以其超越GPT4o的精度和更快的推理速度,在单机单卡(3090)上即可部署,正颠覆业界认知。本文将深入解析其设计哲学、核心突破——大规模自建数据集,并分享实测体验与避坑指南。
372 0
|
1月前
|
机器学习/深度学习 编解码 缓存
通义万相首尾帧图模型一键生成特效视频!
本文介绍了阿里通义发布的Wan2.1系列模型及其首尾帧生视频功能。该模型采用先进的DiT架构,通过高效的VAE模型降低运算成本,同时利用Full Attention机制确保生成视频的时间与空间一致性。模型训练分为三个阶段,逐步优化首尾帧生成能力及细节复刻效果。此外,文章展示了具体案例,并详细说明了训练和推理优化方法。目前,该模型已开源。
|
1月前
|
测试技术
字节Seed开源统一多模态理解和生成模型 BAGEL!
近期,字节跳动Seed推出了 BAGEL—— 一个开源的多模态理解和生成础模型,具有70亿个激活参数(总共140亿个),并在大规模交错多模态数据上进行训练。
183 3
|
2月前
|
人工智能 小程序 计算机视觉
AI不只有大模型,小模型也蕴含着大生产力
近年来,AI大模型蓬勃发展,从ChatGPT掀起全球热潮,到国内“百模大战”爆发,再到DeepSeek打破算力壁垒,AI技术不断刷新认知。然而,在大模型备受关注的同时,许多小而精的细分模型却被忽视。这些轻量级模型无需依赖强大算力,可运行于手机、手持设备等边缘终端,广泛应用于物体识别、条码扫描、人体骨骼检测等领域。例如,通过人体识别模型衍生出的运动与姿态识别能力,已在AI体育、康复训练、线上赛事等场景中展现出巨大潜力,大幅提升了相关领域的效率与应用范围。本文将带您深入了解这些高效的小模型及其实际价值。
|
2月前
|
人工智能 数据挖掘 API
基于neo4j数据库和dify大模型框架的rag模型搭建——后续补充
基于neo4j数据库和dify大模型框架的rag模型搭建——后续补充
269 21
基于neo4j数据库和dify大模型框架的rag模型搭建——后续补充

热门文章

最新文章