Llama 3.3模型下载推理与微调全流程实践-开发者社区-阿里云

Llama 3.3开源！70B媲美405B性能，支持128K上下文

2024-12-11 3189

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 近期，Meta开源了Llama 3.3 多语言大型语言模型（LLM），Llama 3.3 是一个预训练并经过指令调优的生成模型，参数量为70B（文本输入/文本输出）。

01.引言

近期，Meta开源了Llama 3.3 多语言大型语言模型（LLM），Llama 3.3 是一个预训练并经过指令调优的生成模型，参数量为70B（文本输入/文本输出）。Llama 3.3 指令调优的纯文本模型针对多语言对话用例进行了优化，并在常见的行业基准测试中优于许多可用的开源和闭源聊天模型。

Llama 3.3 是一个使用优化后的Transformer架构的自回归语言模型。调优版本使用监督微调（SFT）和基于人类反馈的强化学习（RLHF）来与人类对有用性和安全性的偏好保持一致。

训练数据：新的公开在线数据混合集
参数量：70B
输入模态：多语言文本
输出模态：多语言文本和代码
上下文长度：128K
GQA：是
训练tokens：15T+（仅指预训练数据）
知识截止日期：2023年12月
支持的语言: 英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语

*注：Llama 3.3 的训练数据集包含了比所支持的8种语言更广泛的语言。开发者可以在遵守 Llama 3.3 社区许可和可接受使用政策的前提下，对 Llama 3.3 模型进行微调以支持更多语言，在这种情况下，开发者需确保在额外语言中使用 Llama 3.3 是安全且负责任的行为。

02.模型下载

模型链接：

https://www.modelscope.cn/models/LLM-Research/Llama-3.3-70B-Instruct

CLI下载：

modelscope download --model LLM-Research/Llama-3.3-70B-Instruct

Python SDK下载：

#模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('LLM-Research/Llama-3.3-70B-Instruct')

03.模型推理

transformers推理

import transformers
import torch
from modelscope import snapshot_download
model_id = snapshot_download("LLM-Research/Llama-3.3-70B-Instruct")
pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)
messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]
outputs = pipeline(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

Ollama：一行命令运行魔搭上的 Llama-3.3-70B-Instruct GGUF模型

设置ollama下启用

ollama serve

ollama run ModelScope任意GGUF模型，指定model id即可：

ollama run modelscope.cn/lmstudio-community/Llama-3.3-70B-Instruct-GGUF

04.模型微调

这里我们介绍使用ms-swift 3.0对Llama3.3进行自我认知微调。

在开始微调之前，请确保您的环境已正确安装

# 安装ms-swift
pip install git+https://github.com/modelscope/ms-swift.git

微调脚本如下：

CUDA_VISIBLE_DEVICES=0,1 swift sft \
    --model LLM-Research/Llama-3.3-70B-Instruct \
    --dataset AI-ModelScope/alpaca-gpt4-data-zh#500 \
           AI-ModelScope/alpaca-gpt4-data-en#500 \
              swift/self-cognition#500 \
    --train_type lora \
    --lora_rank 8 \
    --lora_alpha 32 \
    --num_train_epochs 1 \
    --logging_steps 5 \
    --torch_dtype bfloat16 \
    --max_length 2048 \
    --learning_rate 1e-4 \
    --output_dir output \
    --target_modules all-linear \
    --model_name 小黄 'Xiao Huang' \
    --model_author 魔搭 ModelScope \
    --per_device_train_batch_size 1 \
    --gradient_accumulation_steps 16

训练显存占用：

推理脚本：

若出现兼容问题，请关注：https://github.com/modelscope/ms-swift

CUDA_VISIBLE_DEVICES=0 swift infer \
    --ckpt_dir output/vx-xxx/checkpoint-xxx \
    --stream true

推理效果：

Llama 3.3开源！70B媲美405B性能，支持128K上下文

01.引言

02.模型下载

03.模型推理

transformers推理

Ollama：一行命令运行魔搭上的 Llama-3.3-70B-Instruct GGUF模型

04.模型微调

ModelScope模型即服务

热门文章

最新文章

相关电子书