发布日志记录、公开所有代码,Meta开放1750亿参数大模型,媲美GPT-3

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 发布日志记录、公开所有代码,Meta开放1750亿参数大模型,媲美GPT-3
OPT-175B,使人工智能更加开放和可复制。


Meta AI 在昨天公布的一篇论文可谓是炸开了锅,论文网站 paperswithcode 热搜榜第一,众多 AI 大佬推荐:


LSTM 提出者和奠基者,奥地利人工智能高级研究所(IARAI)创始人 Sepp Hochreiter 教授就在推特上进行了宣传:


社交及新闻网站 reddit 讨论量也爆表:


有研究者表示这是将大型 LM 研究引入学术界的重大一步。用一句话总结就是:Meta AI 正在开放用于人工智能研究的大型语言模型访问权限,并表示这个具有 1750 亿参数的模型,是第一个可供更广泛的人工智能研究社区使用的模型。值得注意的是,OpenAI 提出的 GPT-3 也具有 1750 亿参数,不知道这一数字是巧合还是其他。

下面我们介绍一下这项研究的主要内容
Meta AI 开放 1750 亿参数的模型

大型语言模型,即具有超过 1000 亿个参数的自然语言处理 (NLP) 系统,在过去几年中改变了 NLP 和 AI 研究。这些模型经过大量文本训练,在生成创意文本、解决数学问题、回答阅读理解等方面表现出令人惊讶的能力。

虽然在某些情况下,公众可以通过付费 API 与这些模型进行交互,但完整的研究访问权限仍然仅限于少数资源丰富的实验室。这种受限访问限制了研究人员理解这些大型语言模型如何以及为什么工作的能力,阻碍了提高其鲁棒性和减轻偏见等已知问题的进展。

根据 Meta AI 对开放科学的承诺,他们正在共享 Open Pretrained Transformer (OPT-175B),这是一个具有 1750 亿参数的模型,在公共数据集上训练而成,之所以共享这个模型,Meta AI 希望更多的社区参与理解关于大模型的基本技术。


论文地址:https://arxiv.org/pdf/2205.01068.pdf

对于这种规模的语言技术系统,该版本首次包括预训练模型以及训练和使用它们所需的代码。为了保持完整性并防止滥用,Meta AI 将在非商业许可下发布该模型,以专注于研究用例。该模型的访问权限将授予学术研究人员;隶属于政府、民间团体和学术界组织的人员;以及世界各地的工业研究实验室。

Meta AI 希望整个人工智能社区,包括学术研究人员、民间团体、政策制定者等研究者共同努力,围绕负责任的人工智能,特别是负责任的大型语言模型制定明确的指导方针,因为它们在许多下游语言应用程序中处于中心地位。人工智能社区更需要访问这些模型,以便进行可重复的研究并共同推动该领域的发展。随着 OPT-175B 和小规模基线的发布,Meta AI 也希望增加伦理方面的考虑。


公开记录文档

根据 AI 合作伙伴关系(Partnership on AI)为研究人员制定的出版指南,以及 NIST 在 2022 年 3 月概述的治理指南(第 3.4 节),Meta AI 将发布开发过程的所有记录文档,包括详细说明日常训练过程的完整 logbook,因此其他研究人员可以更轻松地在此工作基础上继续研究。此外,这些细节还揭示了用于训练 OPT-175B 的计算量以及当底层基础设施或训练过程本身大规模变得不稳定时所需的人力开销。

对此有研究者表示:研究团队的 logbook 是一个隐藏的宝石,突出了自 Lua torch 以来就存在且尚未解决的 ML 研究中的痛点 / 更广泛的问题:


Meta AI 仅使用 16 个 NVIDIA V100 GPU 来训练和部署模型的代码库,以增加这些模型的可访问性,达到专门用于研究目的。Meta AI 还全面发布了一套更小规模的基线模型,使用的数据集和 OPT-175B 相同 ,设置也和 OPT-175B 类似,这样一来研究人员能够单独研究模型规模的影响。这些小规模模型的参数包括 1.25 亿、3.5 亿、13 亿、27 亿、67 亿、130 亿和 300 亿(660 亿即将发布)。


人工智能研究的最新发展消耗了大量的计算能力。虽然行业实验室已经开始报告这些模型的碳足迹,但大多数不包括与实验研发阶段相关的计算成本,在某些情况下,这可能比训练最终模型更耗费一个数量级的资源。

Meta AI 在开发 OPT-175B 时考虑到了能源效率,其碳足迹仅为 GPT-3 的 1/7。这是通过在 Megatron-LM 中结合 Meta 的开源全分片数据并行 (FSDP) API 和 NVIDIA 的张量并行抽象来实现的。Meta AI 在 NVIDIA 的 80 GB A100 GPU 上实现了约 147 TFLOP/s/GPU 利用率,比 NVIDIA 研究人员在类似硬件上公布的数据高出大约 17%。

通过与代码库共享这些基线以有效地训练 175B 模型,Meta AI 正在减少碳足迹,同时还允许以一致的方式衡量该领域的新成果和进展。

代尔夫特理工大学助理教师 Luís Cruz 表示:很高兴看到新的人工智能论文讨论他们模型的碳足迹。尽管有非常粗略的估计,但 OPT-175B 是作为 GPT-3 的替代品提出的,其碳足迹是 GPT-3 的 1/7。


Meta AI 希望 OPT-175B 能够为大语言模型创建的前沿带来更多声音,帮助社区集体设计负责任的发布策略,为该领域的大语言模型开发增加前所未有的透明度和开放性。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
当语言遇见智慧火花:GPT家族历代模型大起底,带你见证从平凡到卓越的AI进化奇迹!
【10月更文挑战第6天】随着自然语言处理技术的进步,GPT系列模型(Generative Pre-trained Transformers)成为该领域的明星。从GPT-1的开创性工作,到GPT-2在规模与性能上的突破,再到拥有1750亿参数的GPT-3及其无需微调即可执行多种NLP任务的能力,以及社区驱动的GPT-NeoX,这些模型不断进化。虽然它们展现出强大的语言理解和生成能力,但也存在如生成错误信息或偏见等问题。本文将对比分析各代GPT模型的特点,并通过示例代码展示其部分功能。
182 2
|
3月前
|
数据采集 API 决策智能
华为诺亚联合中科大发布工具调用模型ToolACE,效果持平GPT-4获开源第一
 【10月更文挑战第10天】华为诺亚方舟实验室与中国科学技术大学合作推出ToolACE,一种自进化合成过程的工具调用模型。ToolACE通过多智能体交互和双重验证系统生成准确、复杂、多样化的工具学习数据,显著提升大型语言模型(LLM)的功能调用能力。实验结果显示,使用ToolACE数据训练的80亿参数模型性能媲美GPT-4,在伯克利功能调用排行榜上获得开源第一。
114 4
|
6天前
|
人工智能 语音技术 iOS开发
MiniCPM-o 2.6:面壁智能开源多模态大模型,仅8B参数量就能媲美GPT-4o,支持实时交互,在ipad等终端设备上运行
MiniCPM-o 2.6 是面壁智能开源的多模态大模型,支持视觉、语音和多模态直播,性能媲美GPT-4o,能够在端侧设备上高效运行。
172 10
MiniCPM-o 2.6:面壁智能开源多模态大模型,仅8B参数量就能媲美GPT-4o,支持实时交互,在ipad等终端设备上运行
|
1月前
|
数据采集 人工智能 数据可视化
InternVL 2.5,首个MMMU超过70%的开源模型,性能媲美GPT-4o
近期Internvl2.5发布,性能与GPT-4o和Claude-3.5-sonnet等领先的商业模型相媲美,成为首个在MMMU上超过70%的开源模型,通过链式思考(CoT)推理实现了3.7个百分点的提升,展示了强大的测试时间可扩展性潜力。
|
2月前
|
自然语言处理 搜索推荐 Serverless
基于函数计算部署GPT-Sovits模型实现语音生成
阿里云开发者社区邀请您参加“基于函数计算部署GPT-Sovits模型实现语音生成”活动。完成指定任务即可获得收纳箱一个。活动时间从即日起至2024年12月13日24:00:00。快来报名吧!
|
2月前
|
弹性计算 自然语言处理 搜索推荐
活动实践 | 基于函数计算部署GPT-Sovits模型实现语音生成
通过阿里云函数计算部署GPT-Sovits模型,可快速实现个性化声音的文本转语音服务。仅需少量声音样本,即可生成高度仿真的语音。用户无需关注服务器维护与环境配置,享受按量付费及弹性伸缩的优势,轻松部署并体验高质量的语音合成服务。
|
1月前
|
人工智能 API Windows
免费部署本地AI大语言模型聊天系统:Chatbox AI + 马斯克grok2.0大模型(简单5步实现,免费且比GPT4.0更好用)
本文介绍了如何部署本地AI大语言模型聊天系统,使用Chatbox AI客户端应用和Grok-beta大模型。通过获取API密钥、下载并安装Chatbox AI、配置模型,最终实现高效、智能的聊天体验。Grok 2大模型由马斯克X-AI发布,支持超长文本上下文理解,免费且易于使用。
167 0
|
3月前
|
机器学习/深度学习 弹性计算 人工智能
大模型进阶微调篇(三):微调GPT2大模型实战
本文详细介绍了如何在普通个人电脑上微调GPT2大模型,包括环境配置、代码实现和技术要点。通过合理设置训练参数和优化代码,即使在无独显的设备上也能完成微调,耗时约14小时。文章还涵盖了GPT-2的简介、数据集处理、自定义进度条回调等内容,适合初学者参考。
607 6
|
3月前
|
机器学习/深度学习 测试技术
ACL杰出论文奖:GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力
【10月更文挑战第6天】约翰斯·霍普金斯大学等机构提出了一项荣获ACL杰出论文奖的研究,旨在解决大模型在心智理论(ToM)上的不足。他们发布了首个MMToM-QA多模态ToM测试集,并提出BIP-ALM方法,从多模态数据中提取统一表示,结合语言模型进行贝叶斯逆规划,显著提升了模型的ToM能力。这一成果为机器与人类自然交互提供了新思路,尽管仍面临一些局限性和技术挑战。论文详情见:https://arxiv.org/abs/2401.08743。
64 6
|
3月前
|
API
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
62 0

热门文章

最新文章