莆田版GPT-3开源:同等复现预训练模型GPT Neo,可在Colab上完成微调

简介: GPT-3开源了?Eleuther AI推出的名为GPT-Neo的开源项目:公开发布的GPT-3同等复现预训练模型(1.3B & 2.7B),可在Colab上完成微调。

微信图片_20220113002142.png  新智元报道  

来源:Eleuther AI

编辑:小匀


【新智元导读】 GPT-3开源了?Eleuther AI推出的名为GPT-Neo的开源项目:公开发布的GPT-3同等复现预训练模型(1.3B & 2.7B),可在Colab上完成微调。

 

……当然此 GPT-3非彼 GPT-3。

 

近日,Eleuther AI在GitHub上推出了一个名为GPT-Neo的开源项目:GPT-3同等复现预训练模型(1.3B & 2.7B),并可在Colab上完成微调。

 

虽然GPT-Neo与真正的GPT-3比,参数量仍然很小(较大版本也只与GPT-3最小模型的参数量),但开源又免费,仍然得到了「同性好友们」的认可!

项目目前在GitHub上已经得到了近3k的star。


微信图片_20220113002146.png


Eleuther AI也表示,未来会进一步开源10B版本和原始大小版本的GPT3模型参数。

 

「莆田版」GPT-3


在Eleuther AI官网上,他们对GPT-Neo的描述是,「一系列基于变换器的语言模型的代码名称,这些模型的风格松散地围绕着GPT架构,我们计划对其进行训练和开源。我们的主要目标是复制一个GPT-3大小的模型,并将其免费开源给公众。」

 

在这一过程中,我们将对替代架构和注意力类型进行实验,发布任何中间模型,并在我们的博客上写出任何发现。

 

GPT-Neo模型是在Tensorflow-mesh中构建的,这将使他们能够使用同步的模型和数据并行来扩展到GPT-3和更大的规模。

微信图片_20220113002149.png

 


据Eleuther AI称,他们已经建立了大部分的模型,训练了GPT-2大小的模型,并实施了几个实验性的架构。


目前的代码库应该能够扩展到GPT-3规模的模型。

而他们接下来的步骤,将是正在努力完成GPT-2规模的模型复制。

「到目前为止,2 们得到的单步训练的最大模型是200B参数。」

 

GPT3: 一般人玩不起

 

6月,OpenAI发表了一篇论文,详细介绍了GPT-3,这是一个机器学习模型,在一些自然语言基准上取得了强大的效果。在1750亿个参数——模型从历史训练数据中学习的部分——它是同类模型中最大的模型之一,也是最复杂的模型之一,能够进行原始类比,以某种风格写作,甚至完成基本代码。

 

与GPT-3的前身GPT-2和GPT-1相比,OpenAI选择不将模型或训练数据集开源,而是选择通过商业API提供前者。该公司选择将GPT-3独家授权给微软,进一步缩减了访问权限,而OpenAI与微软有业务关系。

 

微软已经向OpenAI投资了10亿美元,并建立了一台Azure托管的超级计算机,旨在进一步推动OpenAI的研究。


微信图片_20220113002152.png


 来看下OpenAI的定价策略。 


微信图片_20220113002155.png


自由探索Explore版 (我等):可以免费使用3个月,或者10万token,哪个先到按哪个算,占着不用可不行。


 Create版(普通用户): 100美元一个月,200万token每月,超出的部分1k token按8美分计算;


 Build版(VIP): 400美元一个月,1000万token每月,超出的部分1k token按6美分计算; 


Scale版(尊享版):如果你是也就是生产级的大规模用户,联系官方就好,有专人服务。 


这个200万token,能有多少字呢?大约相当于3000页的文本。


这样说可能还是不直接,举个例子,莎士比亚全集是大约有90万个单词,折算到token的话大概能有120万。


                   微信图片_20220113002158.png


贫穷使人进(fu)步(ke)。


现在,一些人开始在开源中重新创建GPT-3,但可能目前最值得期待的就是GPT-Neo了。


关于Eleuther AI

 

Eleuther AI是一个由研究人员组成的草根集合,致力于开源人工智能研究。

 

Connor Leahy,Leo Gao和Sid Black三人联合创立,于去年11月宣布推出GPT-Neo的开源项目,该项目基于GPT系列的设计原理,旨在复现GPT系列的各种项目。

其中Sid是目前世界上最牛的TPU黑客之一。

不过,也有人也认为这伙人炒作太多!

 

「据我所知,他们正在大肆宣传他们无法兑现的夸大其词。」

「例如,他们在OpenAI宣布几天后就运出了一个DALL-E repo,这是坏的,而且由于他们的架构不能扩展,他们已经把他们的GPT-3复制宣称走回了复制1.5B。」

 微信图片_20220113002201.png


项目地址:https://github.com/EleutherAI/gpt-neo

相关文章
|
4小时前
|
人工智能 Rust Kubernetes
开源11天,马斯克再发Grok-1.5!128K代码击败GPT-4
**马斯克的xAI发布Grok-1.5,超越GPT-4!**\n\nGrok-1.5以128K上下文长度提升文本理解,强化推理能力,在MATH与GSM8K数学测试中展现出色性能,HumanEval代码任务得分74.1%。基于JAX、Rust和Kubernetes的训练框架加速了研发,但更大规模带来资源需求挑战。开源策略促进发展,但也引出滥用与安全问题。
184 3
开源11天,马斯克再发Grok-1.5!128K代码击败GPT-4
|
4小时前
|
人工智能 自然语言处理 物联网
Predibase发布25个LoRA,超越GPT-4的Mistral模型
【2月更文挑战第24天】Predibase发布25个LoRA,超越GPT-4的Mistral模型
35 2
Predibase发布25个LoRA,超越GPT-4的Mistral模型
|
4小时前
|
机器学习/深度学习 传感器 人工智能
科技周报 | GPT商店上线即乱;大模型可被故意“教坏”?
科技周报 | GPT商店上线即乱;大模型可被故意“教坏”?
27 1
|
4小时前
|
机器学习/深度学习 自然语言处理
解析GPT-3、GPT-4和ChatGPT关系-迈向自然语言处理的新高度“
解析GPT-3、GPT-4和ChatGPT关系-迈向自然语言处理的新高度“
|
4小时前
|
SQL 人工智能 自然语言处理
NL2SQL进阶系列(2):DAIL-SQL、DB-GPT开源应用实践详解Text2SQL
NL2SQL进阶系列(2):DAIL-SQL、DB-GPT开源应用实践详解Text2SQL
NL2SQL进阶系列(2):DAIL-SQL、DB-GPT开源应用实践详解Text2SQL
|
4小时前
|
SQL 算法 物联网
NL2SQL进阶系列(1):DB-GPT-Hub、SQLcoder、Text2SQL开源应用实践详解
NL2SQL进阶系列(1):DB-GPT-Hub、SQLcoder、Text2SQL开源应用实践详解
NL2SQL进阶系列(1):DB-GPT-Hub、SQLcoder、Text2SQL开源应用实践详解
|
4小时前
|
人工智能 弹性计算 算法
华人开源最强「AI 程序员」炸场,让 GPT-4 自己修 Bug!
普林斯顿大学推出开源软件工程代理SWE-agent,利用GPT-4转化成能修复GitHub错误的AI程序员。在某些基准测试中,SWE-agent的表现与Devin相当,甚至在修复Bug速度上超越Devin,平均只需93秒。其特点是拥有开源接口,支持代码编辑和执行,提高了与代码库的交互效率。
|
4小时前
|
编解码 人工智能 语音技术
GPT-SoVits:刚上线两天就获得了1.4k star的开源声音克隆项目!效果炸裂的跨语言音色克隆模型!
GPT-SoVits:刚上线两天就获得了1.4k star的开源声音克隆项目!效果炸裂的跨语言音色克隆模型!
178 3
|
4小时前
|
前端开发 JavaScript 安全
JavaScript 权威指南第七版(GPT 重译)(七)(4)
JavaScript 权威指南第七版(GPT 重译)(七)
29 0
|
4小时前
|
前端开发 JavaScript 算法
JavaScript 权威指南第七版(GPT 重译)(七)(3)
JavaScript 权威指南第七版(GPT 重译)(七)
38 0