Instella:AMD开源30亿参数语言模型!训练效率碾压同级选手

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
简介: Instella是AMD推出的30亿参数开源语言模型,基于自回归Transformer架构,支持多轮对话、指令跟随和自然语言理解,适用于智能客服、内容创作和教育辅导等多个领域。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


💥 "开发者集体沸腾!AMD祭出开源核弹:30亿参数模型免费商用"

大家好,我是蚝油菜花。当同行还在为千亿参数内卷时,AMD用开源重写了大模型游戏规则!

你是否经历过这些窒息时刻:

  • 🤑 训练大模型烧掉80%预算在GPU适配调优上
  • 🔒 商用模型API调用费比程序员咖啡钱还贵
  • 🤯 调教模型就像教外星人说方言——指令总对不上频段

今天揭秘的 Instella 语言模型,正在掀起开源革命!这个完全基于AMD MI300X显卡训练的开源神器,用三大王炸横扫行业痛点:

  • 硬核训练架构:FlashAttention-2+混合精度,同参数规模训练速度快1.8倍
  • 零套路开源:权重/数据集/训练代码全开放,商用无需跪求授权
  • 对话炼金术:DPO优化让模型秒懂"把代码改成赛博朋克风"这种骚操作

已有团队用它48小时训出行业专属客服AI,文末附保姆级微调教程——你的显卡准备好迎接开源狂欢了吗?

🚀 快速阅读

Instella是AMD推出的30亿参数开源语言模型,基于自回归Transformer架构。

  1. 核心功能:支持自然语言理解、指令跟随、多轮对话和问题解决。
  2. 技术原理:采用Transformer架构,结合FlashAttention-2和bfloat16混合精度训练,优化内存使用和计算效率。

Instella 是什么

Instella-scaling_perf_instruct

Instella是AMD推出的系列30亿参数的开源语言模型。模型完全从零开始在AMD Instinct™ MI300X GPU上训练而成,基于自回归Transformer架构,包含36个解码器层和32个注意力头,支持最长4096个标记的序列。Instella经过多阶段训练,包括大规模预训练、监督微调和偏好优化,提升自然语言理解、指令跟随和对话能力。

Instella在多个基准测试中超越现有的开源模型,与最先进的开源权重模型具有竞争力。AMD完全开源Instella的模型权重、训练配置、数据集和代码,促进AI社区的合作与创新。

Instella 的主要功能

  • 自然语言理解:理解复杂的自然语言文本,处理各种语言任务,如问答、文本生成和语义分析。
  • 指令跟随:基于监督微调(SFT)和直接偏好优化(DPO),准确理解和执行用户指令,生成符合人类偏好的回答。
  • 多轮对话能力:支持多轮交互,根据上下文进行连贯的对话。
  • 问题解决能力:在数学问题、逻辑推理和知识问答等任务上表现出色。
  • 多领域适应性:基于多样化的训练数据,适应多种领域,如学术、编程、数学和日常对话等。

Instella 的技术原理

  • Transformer架构:基于自回归Transformer架构,包含36个解码器层,每层有32个注意力头,支持最长4096个标记的序列长度。
  • 高效训练技术:FlashAttention-2、Torch Compile和bfloat16混合精度训练,优化内存使用和计算效率。
  • 多阶段训练:用4.065万亿标记进行大规模预训练,建立基础语言理解能力。在第一阶段基础上进一步训练,使用额外的575.75亿标记,增强特定任务能力。
  • 监督微调(SFT):用高质量的指令-响应对数据进行微调,提升指令跟随能力。
  • 直接偏好优化(DPO):基于人类偏好数据对模型进行优化,让输出更符合人类价值观。
  • 分布式训练:基于完全分片数据并行(FSDP)技术,将模型参数、梯度和优化器状态在节点内分片,在节点间复制,实现大规模集群训练。
  • 数据集:基于多样化的高质量数据集进行训练,包括学术、编程、数学和对话数据,及合成数据集,确保模型具备广泛的知识和能力。

如何运行 Instella

1. 安装

首先根据操作系统安装 PyTorch。对于AMD GPU,可以从 rocm/pytorch docker 开始。

从源码安装(推荐用于训练/微调):

git clone https://github.com/AMD-AIG-AIMA/Instella.git
cd Instella
# 在MI300X上安装Flash-Attention
GPU_ARCH=gfx942 MAX_JOBS=$(nproc) pip install git+https://github.com/Dao-AILab/flash-attention.git -v
# 安装其他依赖
pip install -e .[all]

2. 示例用法

from transformers import AutoModelForCausalLM, AutoTokenizer
checkpoint = "amd/Instella-3B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(checkpoint, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(checkpoint, device_map="auto", trust_remote_code=True)

prompt = [{
   "role": "user", "content": "What are the benefits of open-source AI research?"}]
inputs = tokenizer.apply_chat_template(
    prompt,
    add_generation_prompt=True,
    return_tensors='pt'
)

tokens = model.generate(
    inputs.to(model.device),
    max_new_tokens=1024,
    temperature=0.8,
    do_sample=True
)

print(tokenizer.decode(tokens[0], skip_special_tokens=False))

3. 使用TRL进行聊天

你也可以使用TRL CLI从终端与模型聊天:

pip install trl
trl chat --model_name_or_path amd/Instella-3B-Instruct --trust_remote_code --max_new_tokens 1024

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
27天前
|
机器学习/深度学习 人工智能 并行计算
AReaL-boba:仅用200条数据复现32B模型效果!蚂蚁清华联手打造强化学习+数据蒸馏框架,7B模型数学推理碾压同级
AReaL-boba是蚂蚁技术研究院与清华大学联合推出的强化学习训练框架,通过集成SGLang推理框架和数据蒸馏技术,显著提升训练效率并降低资源消耗,其7B模型在数学推理任务中刷新同尺寸模型性能纪录。
89 11
AReaL-boba:仅用200条数据复现32B模型效果!蚂蚁清华联手打造强化学习+数据蒸馏框架,7B模型数学推理碾压同级
|
1月前
|
机器学习/深度学习 人工智能 缓存
APB:清华核弹级突破!长文本推理提速10倍,128K上下文碾压FlashAttention
APB 是清华大学等机构联合推出的分布式长上下文推理框架,通过稀疏注意力机制和序列并行推理方式,显著提升大模型处理长文本的效率,推理速度比 Flash Attention 快约 10 倍。
105 19
APB:清华核弹级突破!长文本推理提速10倍,128K上下文碾压FlashAttention
|
2月前
|
机器学习/深度学习 人工智能 并行计算
Unsloth:学生党福音!开源神器让大模型训练提速10倍:单GPU跑Llama3,5小时变30分钟
Unsloth 是一款开源的大语言模型微调工具,支持 Llama-3、Mistral、Phi-4 等主流 LLM,通过优化计算步骤和手写 GPU 内核,显著提升训练速度并减少内存使用。
424 3
Unsloth:学生党福音!开源神器让大模型训练提速10倍:单GPU跑Llama3,5小时变30分钟
|
5月前
|
人工智能
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
【10月更文挑战第21天】普林斯顿大学研究人员提出了CORE-Bench,一个基于计算可重复性的AI代理基准,涵盖计算机科学、社会科学和医学领域的270个任务。该基准旨在评估AI代理在科学研究中的准确性,具有多样性、难度级别和现实相关性等特点,有助于推动AI代理的发展并提高计算可重复性。
112 4
|
6月前
|
人工智能 语音技术 UED
仅用4块GPU、不到3天训练出开源版GPT-4o,这是国内团队最新研究
【10月更文挑战第19天】中国科学院计算技术研究所提出了一种名为LLaMA-Omni的新型模型架构,实现与大型语言模型(LLMs)的低延迟、高质量语音交互。该模型集成了预训练的语音编码器、语音适配器、LLM和流式语音解码器,能够在不进行语音转录的情况下直接生成文本和语音响应,显著提升了用户体验。实验结果显示,LLaMA-Omni的响应延迟低至226ms,具有创新性和实用性。
283 1
|
数据采集 自然语言处理 达摩院
四年了,基础开源模型没有真正进步,指令调优大模型评估惊人发现
四年了,基础开源模型没有真正进步,指令调优大模型评估惊人发现
152 0
|
数据采集 机器学习/深度学习 自然语言处理
首次:微软用GPT-4做大模型指令微调,新任务零样本性能再提升
首次:微软用GPT-4做大模型指令微调,新任务零样本性能再提升
13416 0
|
人工智能 API 开发者
弥补斯坦福70亿参数「羊驼」短板,精通中文的大模型来了,已开源
弥补斯坦福70亿参数「羊驼」短板,精通中文的大模型来了,已开源
232 0
|
机器学习/深度学习 人工智能 API
斯坦福70亿参数开源模型媲美GPT-3.5,100美元即可复现
斯坦福70亿参数开源模型媲美GPT-3.5,100美元即可复现
202 0
|
测试技术 异构计算
这是Meta版ChatGPT雏形?开源、一块GPU就能跑,1/10参数量打败GPT-3(2)
这是Meta版ChatGPT雏形?开源、一块GPU就能跑,1/10参数量打败GPT-3
209 0

热门文章

最新文章

下一篇
oss创建bucket