GPT团队基于Transformer,18年发表了一篇论文介绍了一个新的语言模型,Generative Pre-trained Transformer,也就是GPT。大型语言模型 (LLM) 可通过根据文本中先前使用的单词预测单词的可能性,来生成类似人类的文本。
之前的语言学习模型基本上都需要人监督或者人为给他设定一些标签。但GPT基本不怎么需要了,就把一堆数据放进去,一顿学就给学明白了。像这种大语言模型主要靠算法和参数量,同样的数据进去学的比谁都快比谁都好,参数量需要大量的计算,说白了就是砸钱。在GPT3之后加入了人工反馈的强化学习,他的每个词都是靠前文的相关性和上下文来计算出来的。
4.2 生成过程
我们知道了,ChatGPT的核心是LLM Large Language Model 大语言模型。大预言模型是一种基于神经网络的模型,它经过大量文本数据的训练来理解和生成人类语言。该模型使用训练数据来学习,语言中单词之间的统计模式和关系,然后利用这些知识来预测后续单词,一次一个单词进行。GPT 3.5最大模型拥有1750亿个参数,分布在神经网络的96层中,使其成为有史以来最大的深度学习模型之一。
ChatGPT 中模型的输入和输出按 Token 组织,Token 是单词的数字表示。更准确的说,是单词的一部分。其实就是根据每个单词所在句子中的上下文,来判断下个单词更适合输出什么来进行的。
使用数字而不是单词来表示标记,因为数字可以更有效地处理。GPT-3.5基于大量互联网数据进行训练,原数据集包含5000亿个 Token。也就是说该模型接受了数千亿个单词的训练。
使用数字而不是单词来表示标记,因为数字可以更有效地处理。GPT-