Llama 3.1发布:4050亿参数模型,迄今为止最强的开源大模型之一

简介: Meta宣布发布Llama 3.1 405B,这一目前公开的最大且最先进的语言模型,标志着开源语言模型新时代的到来。Llama 3.1 405B不仅在常识理解、数学、工具使用及多语言翻译等功能上媲美顶尖AI模型,其8B和70B版本亦支持多种语言,拥有长达128K的上下文理解能力。该模型在150多个多语言基准测试中表现出色,并经过广泛的人工评估。为克服大规模训练挑战,Meta采用标准解码器架构和迭代后训练策略,大幅提升了数据质量和模型性能。此外,Llama 3.1通过监督微调、拒绝采样和直接偏好优化等手段提高了模型对指令的响应性和安全性。

到目前为止,开源大型语言模型在功能和性能方面大多落后于封闭式模型。现在,我们正迎来一个由开源引领的新时代。Meta 官方公开发布了 Llama 3.1 405B,Meta 官方认为这是世界上最大、功能最强大的公开基础模型。



Meta 隆重推出 Llama3.1


Llama 3.1 405B 是第一个公开可用的模型,在常识、可操纵性、数学、工具使用和多语言翻译等先进功能方面可与顶级 AI 模型相媲美。随着 405B 模型的发布,已准备好让全世界开发者增强创新能力,为增长和探索提供前所未有的机会。相信最新一代的 Llama 将激发新的AI 应用和建模范例,包括合成数据生成,以便改进和训练较小的模型,以及模型蒸馏,这是开源中从未如此大规模实现的功能。

作为最新版本的一部分,Llama 3.1 推出了 8B 和 70B 模型的升级版本。这些模型支持多种语言,上下文长度显著增加,达到 128K,使用最先进的工具,推理能力也更强。这使得最新模型能够支持高级用例,例如长篇文本摘要、多语言对话代理和编码助手。



模型评测


对于此版本,Llama 3.1 在 150 多个涵盖多种语言的基准数据集上评估了性能。此外,Llama 3.1还进行了广泛的人工评估,在真实场景中将 Llama 3.1 与竞争模型进行了比较。实验评估表明,Llama 3.1 的旗舰模型在一系列任务中与领先的基础模型相媲美,包括 GPT-4、GPT-4o 和 Claude 3.5 Sonnet。此外,Llama 3.1 的小型模型与具有相似数量参数的封闭和开放模型相媲美。


image.png

image.png

image.png


模型架构


作为迄今为止 Llama 开源系列最大的模型,在超过 15 万亿个 token 上训练 Llama 3.1 405B 是一项重大挑战。为了能够以这种规模进行训练并在合理的时间内取得成果, Llama 3.1 显著优化了整个训练堆栈,并将模型训练推向超过 16,000 个 H100 GPU,使 405B 成为第一个以这种规模训练的 Llama 模型。

image.png

为了解决这个问题, Llama 3.1 做出了设计选择,重点关注保持模型开发过程的可扩展性和简单性。

  • 我们选择了标准的仅解码器的变压器模型架构,并进行了细微的改动,而不是混合专家模型,以最大限度地提高训练稳定性。
  • 我们采用了迭代式后训练程序,每轮都使用监督式微调和直接偏好优化。这使我们能够为每一轮创建最高质量的合成数据,并提高每项功能的性能。

与之前的 Llama 版本相比, Llama 3.1 提高了用于训练前和训练后的数据的数量和质量。这些改进包括为训练前数据开发更仔细的预处理和管理流程、开发更严格的质量保证以及训练后数据的过滤方法。

正如大语言模型的 Scaling Low 所预期的那样, Llama 3.1 的新旗舰模型比使用相同程序训练的小型模型表现更好。Llama 3.1 还使用 405B 参数模型来提高小型模型的训练后质量。

为了支持 405B 规模模型的大规模生产推理, Llama 3.1 将模型从 16 位 (BF16) 量化为 8 位 (FP8) 数字,有效降低了所需的计算要求并允许模型在单个服务器节点内运行。



指令和模型微调


借助 Llama 3.1 405B, Llama 3.1 努力提高模型对用户指令的响应能力、质量和详细指令遵循能力,同时确保高水平的安全性。当前大多数开发者面临的最大挑战是支持更多功能、128K 上下文窗口和更大的模型大小。

在后期训练中, Llama 3.1 通过在预训练模型的基础上进行几轮对齐来生成最终的模型。每轮都涉及监督微调 (SFT)、拒绝抽样 (RS) 和直接偏好优化 (DPO)。Llama 3.1 使用合成数据生成来生成绝大多数 SFT 示例,并进行多次迭代以生成涵盖所有功能的越来越高质量的合成数据。此外, Llama 3.1 使用了多种数据处理技术,以将这些合成数据过滤到最高质量。这使 Llama 3.1 能够跨功能扩展微调数据量。

Llama 3.1 仔细平衡数据,以生成在所有功能上都具有高质量模型。例如,即使扩展到 128K 上下文, Llama 3.1 的模型在短上下文基准上也能保持质量。



使用Botnow构建AI智能体


对于普通开发者来说,直接使用 Llama 3.1 模型是一项挑战。虽然 Llama 3.1 是一个非常强大的模型,但使用它需要大量的计算资源和专业知识。对于生成式 AI 应用来说,Llama 3.1 好比AI智能体的核心大脑,但 AI 智能体应用还需要具备感知、记忆、规划、执行等能力,才可以实现自主理解、长期记忆、规划决策,执行复杂任务。因此一个简单易用的AI应用开发平台能显著提升 AI 应用的开发效率。

image.png

为打通大模型落地最后一公里, 推动大模型在各垂直领域的深度应用,Botnow 应运而生,它是一个AI智能体创作与分发平台,致力于用户与 AI 智能体的连接,简化AI智能体的创作。Botnow 提供可视化的、易用的智能体编排能力,为开发者提供丰富的智能体配置选项,结合 LLM 的推理、知识检索、插件、工作流、知识库等能力,构建应对各类复杂场景任务的AI智能体。

目录
相关文章
|
4月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
845 109
|
4月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
376 2
|
4月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1816 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
3月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
335 120
|
5月前
|
存储 人工智能 自然语言处理
告别文字乱码!全新文生图模型Qwen-Image来咯
通义千问团队开源了Qwen-Image,一个20B参数的MMDiT模型,具备卓越的文本渲染和图像编辑能力。支持复杂中英文文本生成与自动布局,适用于多场景图像生成与编辑任务,已在魔搭社区与Hugging Face开源。
963 2
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
741 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
4月前
|
自然语言处理 机器人 图形学
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
腾讯混元图像3.0,真的来了——开源,免费开放使用。 正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对…
940 2
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
|
3月前
|
缓存 物联网 PyTorch
使用TensorRT LLM构建和运行Qwen模型
本文档介绍如何在单GPU和单节点多GPU上使用TensorRT LLM构建和运行Qwen模型,涵盖模型转换、引擎构建、量化推理及LoRA微调等操作,并提供详细的代码示例与支持矩阵。
765 2

热门文章

最新文章