Llama 3.1发布：4050亿参数模型，迄今为止最强的开源大模型之一-阿里云开发者社区

Llama 3.1发布：4050亿参数模型，迄今为止最强的开源大模型之一

2024-08-27 440

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Meta宣布发布Llama 3.1 405B，这一目前公开的最大且最先进的语言模型，标志着开源语言模型新时代的到来。Llama 3.1 405B不仅在常识理解、数学、工具使用及多语言翻译等功能上媲美顶尖AI模型，其8B和70B版本亦支持多种语言，拥有长达128K的上下文理解能力。该模型在150多个多语言基准测试中表现出色，并经过广泛的人工评估。为克服大规模训练挑战，Meta采用标准解码器架构和迭代后训练策略，大幅提升了数据质量和模型性能。此外，Llama 3.1通过监督微调、拒绝采样和直接偏好优化等手段提高了模型对指令的响应性和安全性。

到目前为止，开源大型语言模型在功能和性能方面大多落后于封闭式模型。现在，我们正迎来一个由开源引领的新时代。Meta 官方公开发布了 Llama 3.1 405B，Meta 官方认为这是世界上最大、功能最强大的公开基础模型。

Meta 隆重推出 Llama3.1

Llama 3.1 405B 是第一个公开可用的模型，在常识、可操纵性、数学、工具使用和多语言翻译等先进功能方面可与顶级 AI 模型相媲美。随着 405B 模型的发布，已准备好让全世界开发者增强创新能力，为增长和探索提供前所未有的机会。相信最新一代的 Llama 将激发新的AI 应用和建模范例，包括合成数据生成，以便改进和训练较小的模型，以及模型蒸馏，这是开源中从未如此大规模实现的功能。

作为最新版本的一部分，Llama 3.1 推出了 8B 和 70B 模型的升级版本。这些模型支持多种语言，上下文长度显著增加，达到 128K，使用最先进的工具，推理能力也更强。这使得最新模型能够支持高级用例，例如长篇文本摘要、多语言对话代理和编码助手。

模型评测

对于此版本，Llama 3.1 在 150 多个涵盖多种语言的基准数据集上评估了性能。此外，Llama 3.1还进行了广泛的人工评估，在真实场景中将 Llama 3.1 与竞争模型进行了比较。实验评估表明，Llama 3.1 的旗舰模型在一系列任务中与领先的基础模型相媲美，包括 GPT-4、GPT-4o 和 Claude 3.5 Sonnet。此外，Llama 3.1 的小型模型与具有相似数量参数的封闭和开放模型相媲美。

模型架构

作为迄今为止 Llama 开源系列最大的模型，在超过 15 万亿个 token 上训练 Llama 3.1 405B 是一项重大挑战。为了能够以这种规模进行训练并在合理的时间内取得成果， Llama 3.1 显著优化了整个训练堆栈，并将模型训练推向超过 16,000 个 H100 GPU，使 405B 成为第一个以这种规模训练的 Llama 模型。

为了解决这个问题， Llama 3.1 做出了设计选择，重点关注保持模型开发过程的可扩展性和简单性。

我们选择了标准的仅解码器的变压器模型架构，并进行了细微的改动，而不是混合专家模型，以最大限度地提高训练稳定性。
我们采用了迭代式后训练程序，每轮都使用监督式微调和直接偏好优化。这使我们能够为每一轮创建最高质量的合成数据，并提高每项功能的性能。

与之前的 Llama 版本相比， Llama 3.1 提高了用于训练前和训练后的数据的数量和质量。这些改进包括为训练前数据开发更仔细的预处理和管理流程、开发更严格的质量保证以及训练后数据的过滤方法。

正如大语言模型的 Scaling Low 所预期的那样， Llama 3.1 的新旗舰模型比使用相同程序训练的小型模型表现更好。Llama 3.1 还使用 405B 参数模型来提高小型模型的训练后质量。

为了支持 405B 规模模型的大规模生产推理， Llama 3.1 将模型从 16 位 (BF16) 量化为 8 位 (FP8) 数字，有效降低了所需的计算要求并允许模型在单个服务器节点内运行。

指令和模型微调

借助 Llama 3.1 405B， Llama 3.1 努力提高模型对用户指令的响应能力、质量和详细指令遵循能力，同时确保高水平的安全性。当前大多数开发者面临的最大挑战是支持更多功能、128K 上下文窗口和更大的模型大小。

在后期训练中， Llama 3.1 通过在预训练模型的基础上进行几轮对齐来生成最终的模型。每轮都涉及监督微调 (SFT)、拒绝抽样 (RS) 和直接偏好优化 (DPO)。Llama 3.1 使用合成数据生成来生成绝大多数 SFT 示例，并进行多次迭代以生成涵盖所有功能的越来越高质量的合成数据。此外， Llama 3.1 使用了多种数据处理技术，以将这些合成数据过滤到最高质量。这使 Llama 3.1 能够跨功能扩展微调数据量。

Llama 3.1 仔细平衡数据，以生成在所有功能上都具有高质量模型。例如，即使扩展到 128K 上下文， Llama 3.1 的模型在短上下文基准上也能保持质量。

使用Botnow构建AI智能体

对于普通开发者来说，直接使用 Llama 3.1 模型是一项挑战。虽然 Llama 3.1 是一个非常强大的模型，但使用它需要大量的计算资源和专业知识。对于生成式 AI 应用来说，Llama 3.1 好比AI智能体的核心大脑，但 AI 智能体应用还需要具备感知、记忆、规划、执行等能力，才可以实现自主理解、长期记忆、规划决策，执行复杂任务。因此一个简单易用的AI应用开发平台能显著提升 AI 应用的开发效率。

为打通大模型落地最后一公里，推动大模型在各垂直领域的深度应用，Botnow 应运而生，它是一个AI智能体创作与分发平台，致力于用户与 AI 智能体的连接，简化AI智能体的创作。Botnow 提供可视化的、易用的智能体编排能力，为开发者提供丰富的智能体配置选项，结合 LLM 的推理、知识检索、插件、工作流、知识库等能力，构建应对各类复杂场景任务的AI智能体。

Llama 3.1发布：4050亿参数模型，迄今为止最强的开源大模型之一

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Llama 3.1发布：4050亿参数模型，迄今为止最强的开源大模型之一

热门文章

最新文章

相关课程

相关电子书