❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦
🎧 “开发者福音!开源AI代码助手MiniMind,2小时训练25.8M小模型”
大家好,我是蚝油菜花。你是否也遇到过——
- 👉 想训练自己的AI模型,但硬件资源有限,动辄数百亿参数的大模型让人望而却步。
- 👉 想从零开始理解AI模型的训练过程,但复杂的框架和工具让人无从下手。
- 👉 想快速验证一个AI想法,但漫长的训练时间和高昂的成本让人望而生畏。
今天要介绍的 MiniMind,正是为解决这些问题而生!这是一个开源的超小型语言模型项目,最小版本仅需25.8M参数,体积仅为GPT-3的1/7000,适合在普通个人GPU上快速训练。MiniMind 提供完整的训练流程代码,包括预训练、监督微调、LoRA微调、强化学习和模型蒸馏,支持多模态能力(如视觉语言模型MiniMind-V),兼容主流框架如 transformers 和 peft。MiniMind开源了高质量数据集和自定义分词器,适合LLM初学者快速入门。
🚀 快速阅读
MiniMind 是一个开源的超小型语言模型项目,帮助开发者以极低成本从零开始训练自己的语言模型。
- 核心功能:提供完整的训练流程代码,支持预训练、监督微调、LoRA微调、强化学习和模型蒸馏。
- 技术原理:基于Transformer架构,采用混合专家(MoE)技术和轻量化的训练流程,提升小模型的学习效率。
MiniMind 是什么
MiniMind 是开源的超小型语言模型项目,极低成本帮助个人开发者从零开始训练自己的语言模型。MiniMind 基于轻量级设计,最小版本仅需25.8M参数,体积仅为GPT-3的1/7000,适合在普通个人GPU上快速训练。
MiniMind 提供完整的训练流程代码,包括预训练、监督微调、LoRA微调、强化学习和模型蒸馏,支持多模态能力(如视觉语言模型MiniMind-V),兼容主流框架如 transformers 和 peft。MiniMind开源了高质量数据集和自定义分词器,适合LLM初学者快速入门。
MiniMind 的主要功能
- 极低门槛的模型训练:仅需3元人民币的GPU租用成本(基于NVIDIA 3090),从零开始训练仅需2小时,最小模型仅25.8M参数,适合在普通设备上运行。
- 全流程开源:提供完整的训练代码,涵盖预训练、监督微调(SFT)、LoRA微调、直接偏好优化(DPO)和模型蒸馏。
- 支持多种训练技术:混合专家(MoE)架构、直接偏好优化(DPO)、多模态扩展(MiniMind-V)。
MiniMind 的技术原理
Transformer架构:基于Transformer的Decoder-Only结构,采用预标准化(Pre-Norm)和RMSNorm归一化方法,提升模型性能。
混合专家(MoE)技术:在前馈网络(FFN)中引入混合专家模块,将计算资源动态分配给不同的“专家”,提升小模型的学习能力和效率。
轻量化的训练流程:包括预训练、监督微调、LoRA微调、直接偏好优化(DPO)和模型蒸馏。
如何运行 MiniMind
第0步
git clone https://github.com/jingyaogong/minimind.git
AI 代码解读
Ⅰ 测试已有模型效果
1.环境准备
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
AI 代码解读
2.下载模型
git clone https://huggingface.co/jingyaogong/MiniMind2
AI 代码解读
3.命令行问答
python eval_model.py --load 1 --model_mode 2
AI 代码解读
4.或启动WebUI
streamlit run web_demo.py
AI 代码解读
Ⅱ 从0开始自己训练
1.环境准备
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
AI 代码解读
2.数据下载
从提供的数据集下载链接
下载需要的数据文件并放到./dataset
下。
3.开始训练
3.1 预训练(学知识)
python train_pretrain.py
AI 代码解读
3.2 监督微调(学对话方式)
python train_full_sft.py
AI 代码解读
4.测试模型效果
python eval_model.py --model_mode 1
AI 代码解读
资源
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦