AutoTrain:Hugging Face 开源的无代码模型训练平台

简介: AutoTrain 是 Hugging Face 推出的开源无代码模型训练平台,旨在简化最先进模型的训练过程。用户无需编写代码,只需上传数据即可创建、微调和部署自己的 AI 模型。AutoTrain 支持多种机器学习任务,并提供自动化最佳实践,包括超参数调整、模型验证和分布式训练。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

平台功能:支持多种机器学习任务,包括大型语言模型微调、文本分类、图像分类等。
用户友好:提供无需编码的界面,非技术用户也能轻松训练模型。
自动化:集成模型训练的最佳实践,自动处理超参数调整、模型验证等复杂任务。

正文(附运行示例)

AutoTrain 是什么

公众号: 蚝油菜花 - autotrain-advanced

AutoTrain(AutoTrain Advanced)是 Hugging Face 推出的开源无代码平台,能简化最先进模型的训练过程。支持用户无需编写代码即可创建、微调和部署自己的 AI 模型,只需上传数据即可训练自定义机器学习模型。

AutoTrain 提供简单的界面,支持用户无需编码知识即可训练模型,自动处理训练中的复杂任务,如超参数调整和模型验证。

AutoTrain 的主要功能

  • 多任务支持:支持多种机器学习任务,包括大型语言模型(LLM)微调、文本分类/回归、标记分类、序列到序列任务、句子变换器微调、视觉语言模型(VLM)微调、图像分类/回归以及表格数据的分类和回归。
  • 简化训练流程:提供无需编码的界面,非技术用户也能轻松训练模型。
  • 自动化最佳实践:集成模型训练的最佳实践,包括超参数调整、模型验证、分布式训练、监控和维护。
  • 数据集处理:提供数据集处理器,负责数据的准备和预处理,确保数据格式适合训练,减少错误。
  • 分布式训练支持:支持在多 GPU 上进行分布式训练,无需对代码库进行大量修改。

AutoTrain 的技术原理

  • 项目配置管理:基于项目配置组件,用户设置任务类型、数据集、模型和其他训练参数,确保所有必要的配置在训练开始前就绪。
  • 数据集预处理:数据集处理器组件负责将数据转换为适合训练的格式,包括文本、图像和表格数据的清洗和转换。
  • 训练循环管理:训练器组件管理训练循环,计算损失和指标,优化模型参数。
  • 分布式训练:用 Hugging Face 的 Accelerate 库,AutoTrain 支持在多个 GPU 上无缝进行分布式训练。
  • 监控与日志记录:集成 TensorBoard 等工具,监控训练进度和性能指标,同时记录训练日志以供后续分析。

如何运行 AutoTrain

本地安装

你可以通过 PIP 安装 AutoTrain-Advanced Python 包。请确保你使用的是 Python 3.10 或更高版本。

pip install autotrain-advanced

确保你已经安装了 git lfs。你可以在这里找到安装说明:https://github.com/git-lfs/git-lfs/wiki/Installation

你还需要安装 torch、torchaudio 和 torchvision。

最好的运行方式是在 conda 环境中。你可以使用以下命令创建一个新的 conda 环境:

conda create -n autotrain python=3.10
conda activate autotrain
pip install autotrain-advanced
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
conda install -c "nvidia/label/cuda-12.1.0" cuda-nvcc

完成后,你可以使用以下命令启动应用程序:

autotrain app --port 8080 --host 127.0.0.1

如果你不喜欢使用 UI,你可以使用 AutoTrain 配置文件通过命令行进行训练。

要使用配置文件进行训练,你可以使用以下命令:

autotrain --config <path_to_config_file>

你可以在该仓库的 configs 目录中找到示例配置文件。

例如,以下是一个用于微调 SmolLM2 的配置文件示例:

task: llm-sft
base_model: HuggingFaceTB/SmolLM2-1.7B-Instruct
project_name: autotrain-smollm2-finetune
log: tensorboard
backend: local

data:
  path: HuggingFaceH4/no_robots
  train_split: train
  valid_split: null
  chat_template: tokenizer
  column_mapping:
    text_column: messages

params:
  block_size: 2048
  model_max_length: 4096
  epochs: 2
  batch_size: 1
  lr: 1e-5
  peft: true
  quantization: int4
  target_modules: all-linear
  padding: right
  optimizer: paged_adamw_8bit
  scheduler: linear
  gradient_accumulation: 8
  mixed_precision: bf16
  merge_adapter: true

hub:
  username: ${
   HF_USERNAME}
  token: ${
   HF_TOKEN}
  push_to_hub: true

要使用上述配置文件微调模型,你可以使用以下命令:

export HF_USERNAME=<your_hugging_face_username>
export HF_TOKEN=<your_hugging_face_write_token>
autotrain --config <path_to_config_file>

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
人工智能 Linux API
Omnitool:开发者桌面革命!开源神器一键整合ChatGPT+Stable Diffusion等主流AI平台,本地运行不联网
Omnitool 是一款开源的 AI 桌面环境,支持本地运行,提供统一交互界面,快速接入 OpenAI、Stable Diffusion、Hugging Face 等主流 AI 平台,具备高度扩展性。
1690 94
Omnitool:开发者桌面革命!开源神器一键整合ChatGPT+Stable Diffusion等主流AI平台,本地运行不联网
|
存储 人工智能 大数据
AI开发新范式,PAI模型构建平台升级发布
本次分享由阿里云智能集团产品专家高慧玲主讲,聚焦AI开发新范式及PAI模型构建平台的升级。分享分为四个部分,围绕“人人可用”和“面向生产”两大核心理念展开。通过降低AI工程化门槛、提供一站式全链路服务,PAI平台致力于帮助企业和开发者更高效地实现AI应用。案例展示中,介绍了多模态模型微调在文旅场景的应用,展示了如何快速复现并利用AI解决实际问题。最终目标是让AI技术更普及,赋能各行业,推动社会进步。
|
机器学习/深度学习 测试技术
阿里云入选Gartner数据科学和机器学习平台挑战者象限
Gartner® 正式发布了《数据科学与机器学习平台魔力象限》报告(Magic Quadrant™ for Data Science and Machine Learning Platforms),阿里云成为唯一一家入选该报告的中国厂商,被评为“挑战者”(Challengers)。
|
机器学习/深度学习 人工智能 自然语言处理
阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身
本文介绍了阿里云人工智能平台 PAI 推出的开源工具包 EasyDistill。随着大语言模型的复杂性和规模增长,它们面临计算需求和训练成本的障碍。知识蒸馏旨在不显著降低性能的前提下,将大模型转化为更小、更高效的版本以降低训练和推理成本。EasyDistill 框架简化了知识蒸馏过程,其具备多种功能模块,包括数据合成、基础和进阶蒸馏训练。通过数据合成,丰富训练集的多样性;基础和进阶蒸馏训练则涵盖黑盒和白盒知识转移策略、强化学习及偏好优化,从而提升小模型的性能。
|
机器学习/深度学习 存储 Kubernetes
【重磅发布】AllData数据中台核心功能:机器学习算法平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
机器学习/深度学习 人工智能 并行计算
Unsloth:学生党福音!开源神器让大模型训练提速10倍:单GPU跑Llama3,5小时变30分钟
Unsloth 是一款开源的大语言模型微调工具,支持 Llama-3、Mistral、Phi-4 等主流 LLM,通过优化计算步骤和手写 GPU 内核,显著提升训练速度并减少内存使用。
2175 3
Unsloth:学生党福音!开源神器让大模型训练提速10倍:单GPU跑Llama3,5小时变30分钟
|
人工智能 自然语言处理 物联网
阿里万相重磅开源,人工智能平台PAI一键部署教程来啦
阿里云视频生成大模型万相2.1(Wan)重磅开源!Wan2.1 在处理复杂运动、还原真实物理规律、提升影视质感以及优化指令遵循方面具有显著的优势,轻松实现高质量的视频生成。同时,万相还支持业内领先的中英文文字特效生成,满足广告、短视频等领域的创意需求。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署阿里万相重磅开源的4个模型,可获得您的专属阿里万相服务。
PAI-Rec推荐平台对于实时特征有三个层次
PAI-Rec推荐平台针对实时特征有三个处理层次:1) 离线模拟反推历史请求时刻的实时特征;2) FeatureStore记录增量更新的实时特征,模型特征导出样本准确性达99%;3) 通过callback回调接口记录请求时刻的特征。各层次确保了实时特征的准确性和时效性。
753 0
|
人工智能 监控 开发者
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
364 0
|
人工智能 智能设计 数据处理

热门文章

最新文章

相关产品

  • 人工智能平台 PAI