五分钟带你了解ChatGPT的基本原理-阿里云开发者社区

五分钟带你了解ChatGPT的基本原理

2023-04-13 1054

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

NLP 自学习平台，3个模型定制额度 1个月

NLP自然语言处理_高级版，每接口累计50万次

NLP自然语言处理_基础版，每接口每天50万次

简介： 五分钟带你了解ChatGPT的基本原理

What is LLM?

LLM是大型语言模型Large Language Model的缩写，跟LLM相关的另外一个概念是NLP(Natural Language Processing自然语言处理技术的一种 )。

Nautual Language: 指的是自然形成的语言，诸如Chinese, English, etc...

NLP：指的是对自然语言的结构进行分析，对语句进行理解、解析，并对内容进行生成的技术

LLM：核心原理是根据前文推算出下一个可能发生的字的模型

LLM技术其实应用已经非常广泛，比如手机输入法会预测你下一个要打的字，这也是LLM的一种

（输入法根据你输入的“今晚”，会推测你究竟是要去夜尿还是夜宵，这就是LLM的应用的一种）

What is GPT？

基本原理

与LLM不同的是，LLM只通过你输入的前一个字或者前一个词语，推测你下一个字是什么。而GPT则是通过你输入的整个句子，来推测下一个字。

所以，GPT核心原理：根据前面输入的语句，推测下一个字是什么

（根据“披萨”，“配料”，“是”等关键字，可以推测会与下面这些字大概率有联系。图片截取于泛科技的视频内容）

GPT的另外一个特点是有一定的随机性，因为像上面的例子那样，推测的各个字都是有一定的概率的。这就是为什么你去问ChatGPT同一个问题，有时候会得到不同的答案的原因。

基本原理是根据前面输入，推测下面是什么。那么GPT究竟是根据什么来推测的呢？这就不得不说一下他学习知识（经验）的过程。

模型生成的过程

GPT模型的生成过程核心是先通过无标签的文本去训练（无监督学习）生成语言模型，再根据具体的NLP任务（如文本蕴涵、QA、文本分类等），来通过有标签的数据对模型进行fine-tuning微调（有监督学习）。

看电视使我们掌握了很多语言的知识，有英语的，有中文的，也有网络用语，也有人与自然的知识。但是我们往往无法理解这些语言在说什么，或者说哪些观点是正确的。这个时候就需要老师给你讲道理和知识，告诉你这句话是什么意思，告诉你哪些价值观是正确or错误的。这个过程跟GPT模型生成的过程就非常类似，先无序地大量看电视，再通过老师的讲解，明辨是非。

量变到质变

随着数据集的增大，我们发现当无监督学习的数据量增大到一定到程度，有监督学习就算变少也不会影响模型效果。到了GPT-3，当参数到达了1750亿以后，更是突然出现了诸如思维链等特性。

如果把无监督学习比作看电视，把有监督学习比作老师上课。我们以前以为要多听老师上课，少看电视，才能有正确的知识。但是我们发现，当看的电视足够多的时候，我们可以自动地识别出正确的知识，甚至产生思维链。所以说小时候家长跟我们说少看电视多读书，其实是不对的，恰恰是因为我们电视看得太少了，如果看的电视有GPT-3那么多，那就全知全能了。

What is ChatGPT?

ChatGPT = GPT-3.5 + 人类交互行为的强化学习

ChatGPT是基于GPT-3.5的基础上，叠加人类交互行为的强化的学习训练出来的人工智能聊天机器人。换句话说就是叠加了一些训练，使得ChatGPT看起来更像一个真实的人，跟他聊天就像跟一个真实的人在聊天一样。

Refer：

https://pansci.asia/ 泛科学

五分钟带你了解ChatGPT的基本原理

What is LLM?

What is GPT？

基本原理

模型生成的过程

量变到质变

What is ChatGPT?

Refer：

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

五分钟带你了解ChatGPT的基本原理

What is LLM?

What is GPT？

基本原理

模型生成的过程

量变到质变

What is ChatGPT?

Refer：

热门文章

最新文章

相关课程

相关电子书

相关实验场景