Llama 3.1发布:4050亿参数模型,迄今为止最强的开源大模型之一

简介: Meta宣布发布Llama 3.1 405B,这一目前公开的最大且最先进的语言模型,标志着开源语言模型新时代的到来。Llama 3.1 405B不仅在常识理解、数学、工具使用及多语言翻译等功能上媲美顶尖AI模型,其8B和70B版本亦支持多种语言,拥有长达128K的上下文理解能力。该模型在150多个多语言基准测试中表现出色,并经过广泛的人工评估。为克服大规模训练挑战,Meta采用标准解码器架构和迭代后训练策略,大幅提升了数据质量和模型性能。此外,Llama 3.1通过监督微调、拒绝采样和直接偏好优化等手段提高了模型对指令的响应性和安全性。

到目前为止,开源大型语言模型在功能和性能方面大多落后于封闭式模型。现在,我们正迎来一个由开源引领的新时代。Meta 官方公开发布了 Llama 3.1 405B,Meta 官方认为这是世界上最大、功能最强大的公开基础模型。



Meta 隆重推出 Llama3.1


Llama 3.1 405B 是第一个公开可用的模型,在常识、可操纵性、数学、工具使用和多语言翻译等先进功能方面可与顶级 AI 模型相媲美。随着 405B 模型的发布,已准备好让全世界开发者增强创新能力,为增长和探索提供前所未有的机会。相信最新一代的 Llama 将激发新的AI 应用和建模范例,包括合成数据生成,以便改进和训练较小的模型,以及模型蒸馏,这是开源中从未如此大规模实现的功能。

作为最新版本的一部分,Llama 3.1 推出了 8B 和 70B 模型的升级版本。这些模型支持多种语言,上下文长度显著增加,达到 128K,使用最先进的工具,推理能力也更强。这使得最新模型能够支持高级用例,例如长篇文本摘要、多语言对话代理和编码助手。



模型评测


对于此版本,Llama 3.1 在 150 多个涵盖多种语言的基准数据集上评估了性能。此外,Llama 3.1还进行了广泛的人工评估,在真实场景中将 Llama 3.1 与竞争模型进行了比较。实验评估表明,Llama 3.1 的旗舰模型在一系列任务中与领先的基础模型相媲美,包括 GPT-4、GPT-4o 和 Claude 3.5 Sonnet。此外,Llama 3.1 的小型模型与具有相似数量参数的封闭和开放模型相媲美。


image.png

image.png

image.png


模型架构


作为迄今为止 Llama 开源系列最大的模型,在超过 15 万亿个 token 上训练 Llama 3.1 405B 是一项重大挑战。为了能够以这种规模进行训练并在合理的时间内取得成果, Llama 3.1 显著优化了整个训练堆栈,并将模型训练推向超过 16,000 个 H100 GPU,使 405B 成为第一个以这种规模训练的 Llama 模型。

image.png

为了解决这个问题, Llama 3.1 做出了设计选择,重点关注保持模型开发过程的可扩展性和简单性。

  • 我们选择了标准的仅解码器的变压器模型架构,并进行了细微的改动,而不是混合专家模型,以最大限度地提高训练稳定性。
  • 我们采用了迭代式后训练程序,每轮都使用监督式微调和直接偏好优化。这使我们能够为每一轮创建最高质量的合成数据,并提高每项功能的性能。

与之前的 Llama 版本相比, Llama 3.1 提高了用于训练前和训练后的数据的数量和质量。这些改进包括为训练前数据开发更仔细的预处理和管理流程、开发更严格的质量保证以及训练后数据的过滤方法。

正如大语言模型的 Scaling Low 所预期的那样, Llama 3.1 的新旗舰模型比使用相同程序训练的小型模型表现更好。Llama 3.1 还使用 405B 参数模型来提高小型模型的训练后质量。

为了支持 405B 规模模型的大规模生产推理, Llama 3.1 将模型从 16 位 (BF16) 量化为 8 位 (FP8) 数字,有效降低了所需的计算要求并允许模型在单个服务器节点内运行。



指令和模型微调


借助 Llama 3.1 405B, Llama 3.1 努力提高模型对用户指令的响应能力、质量和详细指令遵循能力,同时确保高水平的安全性。当前大多数开发者面临的最大挑战是支持更多功能、128K 上下文窗口和更大的模型大小。

在后期训练中, Llama 3.1 通过在预训练模型的基础上进行几轮对齐来生成最终的模型。每轮都涉及监督微调 (SFT)、拒绝抽样 (RS) 和直接偏好优化 (DPO)。Llama 3.1 使用合成数据生成来生成绝大多数 SFT 示例,并进行多次迭代以生成涵盖所有功能的越来越高质量的合成数据。此外, Llama 3.1 使用了多种数据处理技术,以将这些合成数据过滤到最高质量。这使 Llama 3.1 能够跨功能扩展微调数据量。

Llama 3.1 仔细平衡数据,以生成在所有功能上都具有高质量模型。例如,即使扩展到 128K 上下文, Llama 3.1 的模型在短上下文基准上也能保持质量。



使用Botnow构建AI智能体


对于普通开发者来说,直接使用 Llama 3.1 模型是一项挑战。虽然 Llama 3.1 是一个非常强大的模型,但使用它需要大量的计算资源和专业知识。对于生成式 AI 应用来说,Llama 3.1 好比AI智能体的核心大脑,但 AI 智能体应用还需要具备感知、记忆、规划、执行等能力,才可以实现自主理解、长期记忆、规划决策,执行复杂任务。因此一个简单易用的AI应用开发平台能显著提升 AI 应用的开发效率。

image.png

为打通大模型落地最后一公里, 推动大模型在各垂直领域的深度应用,Botnow 应运而生,它是一个AI智能体创作与分发平台,致力于用户与 AI 智能体的连接,简化AI智能体的创作。Botnow 提供可视化的、易用的智能体编排能力,为开发者提供丰富的智能体配置选项,结合 LLM 的推理、知识检索、插件、工作流、知识库等能力,构建应对各类复杂场景任务的AI智能体。

目录
相关文章
|
6月前
|
人工智能 边缘计算 测试技术
MLPerf推理基准测试引入Llama 2 新结果公布
【4月更文挑战第5天】MLCommons发布了最新MLPerf推理基准测试结果,涉及数据中心和边缘计算,引入了大型语言模型Llama 2进行性能评估。Llama 2在OPEN ORCA数据集上的表现提升测试复杂性,提供了更全面的性能数据。MLPerf测试涵盖图像分类、对象检测等边缘计算任务,为开发者和研究人员提供参考。测试结果存在硬件和软件配置影响的局限性,但仍是衡量AI系统性能的重要标准。
115 9
MLPerf推理基准测试引入Llama 2 新结果公布
|
3月前
|
人工智能 自然语言处理 测试技术
权重、代码、数据集全开源,性能超越Mistral-7B,苹果小模型来了
【8月更文挑战第12天】DCLM是由多家机构联合推出的全新测试平台,旨在通过优化数据集增强语言模型性能。其核心贡献包括一个含240万亿token的标准化语料库及有效的预训练方案。DCLM-BASELINE数据集成功训练出7B参数模型,在MMLU上5-shot准确率达64%,超越Mistral-7B,且计算成本降低40%。尽管存在局限,但该项目已全开源,为社区提供宝贵资源,推动语言模型发展。[论文链接](https://arxiv.org/pdf/2406.11794)
165 60
|
4月前
|
自然语言处理 API Android开发
阿里Qwen2-72B大模型已是开源榜的王者,为什么还要推出其他参数模型,被其他模型打榜?
阿里云的Qwen2-72B模型在Hugging Face上荣登开源模型榜首,展现卓越性能,超越其他包括Meta的Llama-3在内的竞争者。Qwen2有多个参数版本,其中72B版本在自然语言理解、知识、代码等任务上表现出色。较小参数版本如7B模型在某些方面略逊一筹。推出不同参数模型可能是为了降低成本、加速迭代、构建丰富的模型生态。通过提供不同规模的模型,阿里云旨在促进技术研究和全场景应用,类似于微软Windows XP和阿里云OS生态的构建策略。
298 1
|
6月前
|
人工智能 物联网 测试技术
以小博大,微软开源27亿参数模型Phi-2,魔搭最佳实践来啦!
近日,微软公布了在 Microsoft Ignite 2023大会上宣布开源的 Phi-2 模型的更多细节,“打破传统语言模型缩放定律,可PK比自己大25倍的模型”、“以小博大”等评价,让Phi-2一时间在开源社区中引发关注。
社区供稿 | XTuner发布LLaVA-Llama-3-8B,支持单卡推理,评测和微调
日前,XTuner 团队基于 meta 最新发布的 Llama-3-8B-Instruct 模型训练并发布了最新版多模态大模型 LLaVA-Llama-3-8B, 在多个评测数据集上取得显著提升。
|
6月前
|
存储 自然语言处理 负载均衡
元象开源首个MoE大模型:4.2B激活参数,效果堪比13B模型,魔搭社区最佳实践来了
近日,元象发布其首个Moe大模型 XVERSE-MoE-A4.2B, 采用混合专家模型架构 (Mixture of Experts),激活参数4.2B,效果即可媲美13B模型。该模型全开源,无条件免费商用,支持中小企业、研究者和开发者可在元象高性能“全家桶”中按需选用,推动低成本部署。
|
6月前
|
机器学习/深度学习 数据采集 存储
百川智能发布超千亿大模型Baichuan 3,中文评测超越GPT-4
百川智能发布大语言模型Baichuan 3,参数超千亿,表现出色。在CMMLU、GAOKAO等中文任务评测中超越GPT-4,且在MATH、HumanEval等专项评测中证明其自然语言处理和代码生成实力。Baichuan 3在医疗领域,如MCMLE、MedExam等评测中成绩突出,成为中文医疗任务的最佳模型。此外,它通过“迭代式强化学习”提升语义理解和生成能力,诗词创作能力远超其他模型。Baichuan 3的推出标志着百川智能在大模型技术上的新里程碑。
150 0
|
人工智能 PyTorch 测试技术
一个开源方案,极速预训练650亿参数LLaMA
一个开源方案,极速预训练650亿参数LLaMA
358 0
一个开源方案,极速预训练650亿参数LLaMA
|
人工智能 安全 自动驾驶
GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了
GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了
121 0
|
机器学习/深度学习 人工智能 并行计算
微软开源DeepSpeed Chat,人人可快速训练百亿、千亿级ChatGPT大模型(33)
微软开源DeepSpeed Chat,人人可快速训练百亿、千亿级ChatGPT大模型
475 0
下一篇
无影云桌面