GPU 由于高并发,可以瞬间将整个图形渲染出来:
这也是为什么我们经常听到做 AI 必须买显卡的原因,因为我们在训练的过程中需要大量这种并发运算(包括挖矿)。
目前 AI 训练基本被英伟达显卡垄断,这是因为老黄布局的很早。早在2006年英伟达就推出了CUDA,成功的让GPU可以编程。这样一来,以前专门设计3D处理图形的显卡,要想拿去计算编程,本来是需要一大堆顶尖工程师,现在只需要基于CUDA library就可以做。英伟达就把自己显卡的边界从游戏和3D图像处理,扩大到了整个加速计算的领域。比如航天、生物制药、天气预报、能源勘探等等。那等12年深度学习非常成熟的时候,自然就使用了英伟达的这个平台。导致现在说到AI训练就等于买显卡,买显卡就是英伟达。
四、ChatGPT 原理
想必大家都直接或间接的用过 ChatGPT 了,它和我们平时使用的 Siri 、小爱同学截然不同。和前者聊天我们本身就会把它当做人工智障来使用,但和 ChatGPT 对话的过程中,我们是真的可以解决一些实际的问题。比如让它分析一下未知领域关键技术点,写算法题找bug等等。那 ChatGPT 为什么会变得如此聪明,它背后到底用到了什么技术,下面我们就来一起探究一下。
4.1 LLM
语言模型是一种基于统计学和机器学习方法的自然语言处理技术,它用于评估和预测一个给定序列的概率分布,通常是单词序列或字符序列。语言模型的主要应用是文本生成、机器翻译、语音识别等任务。近些年,神经网络架构的语言模型参数规模已经达到几千亿,为了表示与传统语言模型的区别,大家习惯称之为大语言模型(LLM)。
在机器学习中一般使用 Recurrent Neural Network 循环神经网络(RNN)来处理文字,需要一个词一个词的看,没办法同时大量处理。而且句子也不能太长,要不然学到后面前面都忘了。
直到2017年的时候Google出来了一篇论文,提出了一个新的学习框架叫做:Transformer。他可以让机器同时学习大量的文字,如同串联和并联的区别。现在很多NLP的模型都是建立在Transformer之上的。Google BERT里头的T,ChatGPT里的T都是指这个Transformer。