Llama 3.3开源!70B媲美405B性能,支持128K上下文

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 近期,Meta开源了Llama 3.3 多语言大型语言模型(LLM),Llama 3.3 是一个预训练并经过指令调优的生成模型,参数量为70B(文本输入/文本输出)。

01.引言

近期,Meta开源了Llama 3.3 多语言大型语言模型(LLM),Llama 3.3 是一个预训练并经过指令调优的生成模型,参数量为70B(文本输入/文本输出)。Llama 3.3 指令调优的纯文本模型针对多语言对话用例进行了优化,并在常见的行业基准测试中优于许多可用的开源和闭源聊天模型。


Llama 3.3 是一个使用优化后的Transformer架构的自回归语言模型。调优版本使用监督微调(SFT)和基于人类反馈的强化学习(RLHF)来与人类对有用性和安全性的偏好保持一致。

  • 训练数据:新的公开在线数据混合集
  • 参数量:70B
  • 输入模态:多语言文本
  • 输出模态:多语言文本和代码
  • 上下文长度:128K
  • GQA:是
  • 训练tokens:15T+(仅指预训练数据
  • 知识截止日期:2023年12月
  • 支持的语言: 英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语

*注:Llama 3.3 的训练数据集包含了比所支持的8种语言更广泛的语言。开发者可以在遵守 Llama 3.3 社区许可和可接受使用政策的前提下,对 Llama 3.3 模型进行微调以支持更多语言,在这种情况下,开发者需确保在额外语言中使用 Llama 3.3 是安全且负责任的行为。


02.模型下载

模型链接:

https://www.modelscope.cn/models/LLM-Research/Llama-3.3-70B-Instruct


CLI下载:

modelscope download --model LLM-Research/Llama-3.3-70B-Instruct

Python SDK下载:

#模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('LLM-Research/Llama-3.3-70B-Instruct')


03.模型推理

transformers推理

import transformers
import torch
from modelscope import snapshot_download
model_id = snapshot_download("LLM-Research/Llama-3.3-70B-Instruct")
pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)
messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]
outputs = pipeline(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

Ollama:一行命令运行魔搭上的 Llama-3.3-70B-Instruct GGUF模型

  1. 设置ollama下启用
ollama serve
  1. ollama run ModelScope任意GGUF模型,指定model id即可:
ollama run modelscope.cn/lmstudio-community/Llama-3.3-70B-Instruct-GGUF

image.png


04.模型微调

这里我们介绍使用ms-swift 3.0对Llama3.3进行自我认知微调。

在开始微调之前,请确保您的环境已正确安装

# 安装ms-swift
pip install git+https://github.com/modelscope/ms-swift.git

微调脚本如下:

CUDA_VISIBLE_DEVICES=0,1 swift sft \
    --model LLM-Research/Llama-3.3-70B-Instruct \
    --dataset AI-ModelScope/alpaca-gpt4-data-zh#500 \
           AI-ModelScope/alpaca-gpt4-data-en#500 \
              swift/self-cognition#500 \
    --train_type lora \
    --lora_rank 8 \
    --lora_alpha 32 \
    --num_train_epochs 1 \
    --logging_steps 5 \
    --torch_dtype bfloat16 \
    --max_length 2048 \
    --learning_rate 1e-4 \
    --output_dir output \
    --target_modules all-linear \
    --model_name 小黄 'Xiao Huang' \
    --model_author 魔搭 ModelScope \
    --per_device_train_batch_size 1 \
    --gradient_accumulation_steps 16

训练显存占用:

image.png

推理脚本:

若出现兼容问题,请关注:https://github.com/modelscope/ms-swift

CUDA_VISIBLE_DEVICES=0 swift infer \
    --ckpt_dir output/vx-xxx/checkpoint-xxx \
    --stream true

推理效果:

image.png



目录
相关文章
|
11月前
|
数据采集 自然语言处理 文字识别
92页的llama 3.1技术报告,我替你们啃下来了
作者花了半个月时间,认真读完了llama 3.1技术报告,并总结成本文,希望能帮到对这个感兴趣的小伙伴们。
92页的llama 3.1技术报告,我替你们啃下来了
|
10月前
|
人工智能 C++ iOS开发
ollama + qwen2.5-coder + VS Code + Continue 实现本地AI 辅助写代码
本文介绍在Apple M4 MacOS环境下搭建Ollama和qwen2.5-coder模型的过程。首先通过官网或Brew安装Ollama,然后下载qwen2.5-coder模型,可通过终端命令`ollama run qwen2.5-coder`启动模型进行测试。最后,在VS Code中安装Continue插件,并配置qwen2.5-coder模型用于代码开发辅助。
18264 7
|
7月前
|
机器学习/深度学习 并行计算 API
Qwen2.5-1M: 支持100万Tokens上下文的开源Qwen模型
两个月前,Qwen团队升级了 Qwen2.5-Turbo,使其支持最多一百万个Tokens的上下文长度。今天,Qwen正式推出开源的 Qwen2.5-1M 模型及其对应的推理框架支持。
1421 28
|
缓存 测试技术 API
解锁开源模型高性能服务:SGLang Runtime 应用场景与实践
SGLang 是一个用于大型语言模型和视觉语言模型的推理框架。
|
机器学习/深度学习 人工智能 测试技术
阿里云百炼已上线超强推理开源模型QwQ-32B,尺寸更小,性能比肩DeepSeek满血版
通义千问团队推出了320亿参数的QwQ-32B模型,通过大规模强化学习和多阶段训练,在数学、编程及通用能力上达到或超越了DeepSeek-R1等先进模型。QwQ-32B模型已在阿里云百炼上线,支持API调用,用户可通过官方文档了解详细使用方法。未来,团队将继续探索智能体与RL集成,推动人工通用智能的发展。
8738 0
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
Llama 3.3:Meta AI 开源新的纯文本语言模型,专注于多语言对话优化
Meta AI推出的Llama 3.3是一款70B参数的纯文本语言模型,支持多语言对话,具备高效、低成本的特点,适用于多种应用场景,如聊天机器人、客户服务自动化、语言翻译等。
366 13
Llama 3.3:Meta AI 开源新的纯文本语言模型,专注于多语言对话优化
|
9月前
|
搜索推荐 物联网 PyTorch
Qwen2.5-7B-Instruct Lora 微调
本教程介绍如何基于Transformers和PEFT框架对Qwen2.5-7B-Instruct模型进行LoRA微调。
10381 34
Qwen2.5-7B-Instruct Lora 微调
|
7月前
|
存储 人工智能 并行计算
KTransformers:告别天价显卡!国产框架让单卡24G显存跑DeepSeek-R1 671B大模型:推理速度飙升28倍
KTransformers 是由清华大学和趋境科技联合推出的开源项目,能够优化大语言模型的推理性能,降低硬件门槛。支持在仅24GB显存的单张显卡上运行671B参数的满血版大模型。
2061 8
KTransformers:告别天价显卡!国产框架让单卡24G显存跑DeepSeek-R1 671B大模型:推理速度飙升28倍
|
8月前
|
程序员 API 开发者
实战阿里qwen2.5-coder 32B,如何配置Cline的Ollama API接口。
阿里Qwen2.5大模型开源免费,适合编程应用。在Ollama平台下载时,推荐选择带有“cline”字样的Qwen2.5-Coder版本,仅需额外下载适配文件,无需重复下载模型文件。Ollama环境永久免费,配置简单,效果出色,适合开发者使用。
5037 77
|
10月前
|
人工智能 并行计算 监控
深入剖析 Qwen2.5 - 32B 模型在 VLLM 上的单机三卡部署与运行
本文深入探讨了Qwen2.5 - 32B模型在VLLM框架上的部署过程,从模型下载、启动命令、资源占用分析到GPU资源分配及CUDA图应用,详述了大模型运行的挑战与优化策略,强调了硬件资源规划与技术调优的重要性。
6383 2

热门文章

最新文章