GPT-4参数将达10兆!这个表格预测全新语言模型参数将是GPT-3的57倍

简介: GPT-4将会有高达10兆个参数?近日,有网友在分析了GPT-3和其他语言模型之后大胆预测,GPT-4将会达到GPT-3的57倍!而「开源版本」则会达到和GPT-3同等的规模。
对于机器学习来说,参数可以算得上算法的关键:它们是历史的输入数据,经过模型训练得来的结果,是模型的一部分。

一般来说,在NLP领域,参数数量和复杂程度之间具有正相关性。OpenAI的GPT-3则是迄今为止最大的语言模型之一,有1750亿个参数。


那么,GPT-4会是什么样子的?


近日有网友就对GTP-4及其「开源版」GPT-NeoX进行了大胆的预测。

10.jpg

作者认为,GPT-4的参数或许可以达到10T,是现在GPT-3模型的57倍还多,而GPT-NeoX的规模则可以和GPT-3持平。


等下,如果是这样,程序员们还能不能在GPT-NeoX上愉快地调参了?



11.png12.png数据集分析


目前应用最广的GPT-3的训练语料库来自于规模巨大的结构文本。其中所有数据集都被索引,分类,过滤和加权,而且还针对重复的部分也做了大量的删减。


专门为Openai开发并由Microsoft Azure托管的世界最强超算之一完成了对GPT-3的训练 。超算系统有超过285,000个CPU核心,超过10,000个 GPU,并且以400Gbps的速度运行。


13.jpg

GPT-3


Wikipedia DataSet来自于Wikipedia的英文内容。由于其质量,写作风格和广度,它是语言建模的高质量文本的标准来源。


WebText数据集(以及扩展版本WebText2)是来自从Reddit出站的大于4500万个网页的文本,其中相关的帖子会有两个以上的支持率(upvotess)。


由于具有大于4.3亿的月活用户,因此数据集中的内容可以被认为是最 「流行 」网站的观点。


Books1Books2是两个基于互联网的书籍数据集。类似的数据集包括:

  • BookCorpus,是由未发表的作者撰写的免费小说书籍的集合,包含了至少10,000本书。
  • Library Genesis (Libgen),一个非常大的科学论文、小说和非小说类书籍的集合。


Common Crawl是一个包含了超过50亿份网页元数据和提取文本的开源存档开放的数据平台:

  • 八年来PB级的数据(数以千计的TB,数以百万计的GB)。
  • 25B个网站。
  • 数以万亿计的链接。
  • 75%英语,3%中文,2.5%西班牙语,2.5%德语等。
  • 排名前10域名的内容:Facebook、谷歌、Twitter、Youtube、Instagram、LinkedIn。




14.jpg

GPT-3使用的数据集


GPT-Neo和GPT-J


今年3月,Eleuther AI在GitHub上推出了GPT-Neo开源项目,可以在Colab上进行微调。

 

虽然GPT-Neo与GPT-3比,参数量仍然很小(1.3B和2.7B),但开源又免费,仍然得到了「同性好友们」的认可。

 

今年6月Eleuther AI再次推出GPT-J-6B,它可以说是GPT-Neo的增强版本,顾名思义,模型的参数量增加到了6B。


GPT-J的训练也是基于The Pile数据库——一个825GB的多样化开源语言建模数据集,由22个较小的、高质量的数据集合组成。


The Pile除了专业论坛和知识库,如HackerNews、Github和Stack Exchange,论文预印本网站ArXiv以外,还包括如Youtube字幕,甚至安然邮件(Enron Emails)语料库。


15.jpg

GPT-Neo和GPT-J使用的数据集



在zero-shot任务上,GPT-J性能和67亿参数的GPT-3相当,也是目前公开可用的Transformer语言模型中,在各种下游zero-shot任务上表现最好的。


这么看来,确实可以期待一下和GPT-3相同规模的GPT-NeoX的表现了。


网友评论


GPT-4怎么这么大?


「GPT-3已经接近理论上每个token最大效率了。如果OpenAI模型的工作方式是正确的,更大的模型只是对算力的浪费。」


16.jpg


有网友解答说:「规模确实可以带来改善。因为本质上是一种关系隐喻模型,『了解更多的关系 』意味着能够对更多的事情或以更细微的方式做出反应。当然,这也同时是一个营销的方式。

17.jpg

相关文章
|
1月前
|
搜索推荐 API
【强烈推荐使用】免费在线使用 GPT-4 | Free GPT-4 Online
这是一个无需API密钥的在线GPT-4工具,用户可直接输入消息进行交互。特色功能包括:重试按钮、Prompt菜单、重新开始对话及设置选项(如随机性调整和历史消息数选择),提供个性化和高效交流体验。详情见个人主页简介。
196 5
【强烈推荐使用】免费在线使用 GPT-4 | Free GPT-4 Online
|
3月前
|
人工智能 自然语言处理 API
【极客技术】真假GPT-4?微调 Llama 2 以替代 GPT-3.5/4 已然可行!
【极客技术】真假GPT-4?微调 Llama 2 以替代 GPT-3.5/4 已然可行!
37 0
|
5月前
|
数据采集 人工智能 监控
【网安AIGC专题11.1】论文13:理解和解释代码,GPT-3大型语言模型&学生创建的代码解释比较+错误代码的解释(是否可以发现并改正)
【网安AIGC专题11.1】论文13:理解和解释代码,GPT-3大型语言模型&学生创建的代码解释比较+错误代码的解释(是否可以发现并改正)
90 0
|
6月前
|
自动驾驶 Serverless 云栖大会
2023云栖大会 | Serverless化进程——阿里云发布通义千问2.0 性能超GPT-3.5 加速追赶GPT-4
云计算也能“自动驾驶”了!阿里云用大模型对云产品进行AI化改造
802 6
|
7月前
|
数据采集 JSON API
使用GPT-4生成训练数据微调GPT-3.5 RAG管道
OpenAI在2023年8月22日宣布,现在可以对GPT-3.5 Turbo进行微调了。也就是说,我们可以自定义自己的模型了。然后LlamaIndex就发布了0.8.7版本,集成了微调OpenAI gpt-3.5 turbo的功能
203 1
|
8月前
|
人工智能 自然语言处理 测试技术
只有GPT-4可以自我改进,GPT-3.5都不行,MIT&微软代码生成实验新发现
只有GPT-4可以自我改进,GPT-3.5都不行,MIT&微软代码生成实验新发现
|
10月前
|
人工智能 安全 自动驾驶
GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了
GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了
|
11月前
|
存储 人工智能 API
免费使用 GPT-4 和 GPT-3.5 新方法:无限使用,随时切换,牛逼!
免费使用 GPT-4 和 GPT-3.5 新方法:无限使用,随时切换,牛逼!
|
11月前
|
Web App开发 机器学习/深度学习 人工智能
用GPT-4实现可控文本图像生成,UC伯克利&微软提出新框架Control-GPT
用GPT-4实现可控文本图像生成,UC伯克利&微软提出新框架Control-GPT
118 2
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
世界的参数倒影:为何GPT通过Next Token Prediction可以产生智能(1)
世界的参数倒影:为何GPT通过Next Token Prediction可以产生智能
184 0