MiniMind:2小时训练出你的专属AI!开源轻量级语言模型,个人GPU轻松搞定

简介: MiniMind 是一个开源的超小型语言模型项目,帮助开发者以极低成本从零开始训练自己的语言模型,最小版本仅需25.8M参数,适合在普通个人GPU上快速训练。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎧 “开发者福音!开源AI代码助手MiniMind,2小时训练25.8M小模型”

大家好,我是蚝油菜花。你是否也遇到过——

  • 👉 想训练自己的AI模型,但硬件资源有限,动辄数百亿参数的大模型让人望而却步。
  • 👉 想从零开始理解AI模型的训练过程,但复杂的框架和工具让人无从下手。
  • 👉 想快速验证一个AI想法,但漫长的训练时间和高昂的成本让人望而生畏。

今天要介绍的 MiniMind,正是为解决这些问题而生!这是一个开源的超小型语言模型项目,最小版本仅需25.8M参数,体积仅为GPT-3的1/7000,适合在普通个人GPU上快速训练。MiniMind 提供完整的训练流程代码,包括预训练、监督微调、LoRA微调、强化学习和模型蒸馏,支持多模态能力(如视觉语言模型MiniMind-V),兼容主流框架如 transformers 和 peft。MiniMind开源了高质量数据集和自定义分词器,适合LLM初学者快速入门。

🚀 快速阅读

MiniMind 是一个开源的超小型语言模型项目,帮助开发者以极低成本从零开始训练自己的语言模型。

  1. 核心功能:提供完整的训练流程代码,支持预训练、监督微调、LoRA微调、强化学习和模型蒸馏。
  2. 技术原理:基于Transformer架构,采用混合专家(MoE)技术和轻量化的训练流程,提升小模型的学习效率。

MiniMind 是什么

minimind-cover

MiniMind 是开源的超小型语言模型项目,极低成本帮助个人开发者从零开始训练自己的语言模型。MiniMind 基于轻量级设计,最小版本仅需25.8M参数,体积仅为GPT-3的1/7000,适合在普通个人GPU上快速训练。

MiniMind 提供完整的训练流程代码,包括预训练、监督微调、LoRA微调、强化学习和模型蒸馏,支持多模态能力(如视觉语言模型MiniMind-V),兼容主流框架如 transformers 和 peft。MiniMind开源了高质量数据集和自定义分词器,适合LLM初学者快速入门。

MiniMind 的主要功能

  • 极低门槛的模型训练:仅需3元人民币的GPU租用成本(基于NVIDIA 3090),从零开始训练仅需2小时,最小模型仅25.8M参数,适合在普通设备上运行。
  • 全流程开源:提供完整的训练代码,涵盖预训练、监督微调(SFT)、LoRA微调、直接偏好优化(DPO)和模型蒸馏。
  • 支持多种训练技术:混合专家(MoE)架构、直接偏好优化(DPO)、多模态扩展(MiniMind-V)。

MiniMind 的技术原理

  • Transformer架构:基于Transformer的Decoder-Only结构,采用预标准化(Pre-Norm)和RMSNorm归一化方法,提升模型性能。
    minimind-LLM-structure

  • 混合专家(MoE)技术:在前馈网络(FFN)中引入混合专家模块,将计算资源动态分配给不同的“专家”,提升小模型的学习能力和效率。
    minimind-LLM-structure-moe

  • 轻量化的训练流程:包括预训练、监督微调、LoRA微调、直接偏好优化(DPO)和模型蒸馏。

如何运行 MiniMind

第0步

git clone https://github.com/jingyaogong/minimind.git

Ⅰ 测试已有模型效果

1.环境准备

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

2.下载模型

git clone https://huggingface.co/jingyaogong/MiniMind2

3.命令行问答

python eval_model.py --load 1 --model_mode 2

4.或启动WebUI

streamlit run web_demo.py

Ⅱ 从0开始自己训练

1.环境准备

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

2.数据下载

从提供的数据集下载链接下载需要的数据文件并放到./dataset下。

3.开始训练

3.1 预训练(学知识)

python train_pretrain.py

3.2 监督微调(学对话方式)

python train_full_sft.py

4.测试模型效果

python eval_model.py --model_mode 1

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
6月前
|
人工智能 中间件 数据库
沐曦 GPU 融入龙蜥,共筑开源 AI 基础设施新底座
沐曦自加入社区以来,一直与龙蜥社区在推动 AIDC OS 的开源社区建设等方面保持合作。
|
6月前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
6997 92
|
6月前
|
人工智能 自然语言处理 Shell
我们开源了一款 AI 驱动的用户社区
KoalaQA 是一款开源的 AI 驱动用户社区,支持智能问答、语义搜索、自动运营与辅助创作,助力企业降低客服成本,提升响应效率与用户体验。一键部署,灵活接入大模型,快速构建专属售后服务社区。
610 5
我们开源了一款 AI 驱动的用户社区
|
6月前
|
人工智能 搜索推荐 UED
一个牛逼的国产AI自动化工具,开源了 !
AiPy是国产开源AI工具,结合大语言模型与Python,支持本地部署。用户只需用自然语言描述需求,即可自动生成并执行代码,轻松实现数据分析、清洗、可视化等任务,零基础也能玩转编程,被誉为程序员的智能助手。
|
存储 人工智能 Kubernetes
GPU AI 模型训练
适用于 AI 图片训练场景,使用 CPFS/NAS 作为共享存储,利用容器服务 Kubernetes 版管理 GPU 云服务器集群进行图片 AI 训练。
1393 0
GPU AI 模型训练
|
存储 人工智能 Kubernetes
GPU AI 模型训练
适用于 AI 图片训练场景,使用 CPFS/NAS 作为共享存储,利用容器服务 Kubernetes 版管 理 GPU 云服务器集群进行图片 AI 训练。
19910 0
GPU AI 模型训练
|
6月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
1548 62
|
6月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
686 30

热门文章

最新文章