chatgpt说它有上千亿的参数,是什么意思?

简介: chatgpt说它有上千亿的参数,是什么意思?

最近在捣鼓深度学习,今天突然开窍,对于大模型上千亿参数的理解顿悟了,所以才有了这篇文章。


一个通俗易懂的模型举例


先用一个最简单的例子来说明,例如身高和体重之间是有一定对应的关系的。


如果我们有了非常多身高与体重对应关系的数据,我们就可以运用这些数据得到二元一次方程函数:


y=ax+b


这里 ab是常数, 经过对方程求解,我们是可以得出 ab 的具体数值。


之后只要输入一个代表 x的身高,就可以得出一个代表体重的 y值,当然这个 y值不是精确的,是一个预测值。


以上就是一个最简单的机器学习模型,即线性回归,这里的 ab 就是模型的参数,但是它太简单,一共就2个参数,所以其能力也必然非常有限。


从编程的角度理解怎么运行模型


每一个模型都是在解决某一方面的问题,上边的例子中我们可以看出,这是一个预测体重的数据模型,要解决的问题是,我输入一个身高,会给我一个预测的体重。


我们要运行使用这个模型,从编程的角度大致可以理解:


  1. 加载模型文件:其实模型文件里面记录的就是 ab 的值,所以有些模型文件是json格式,加载模型的伪代码如下:


function loadModule(moduleFile){
    let str = fs.readFile(moduleFile)
    let obj = JSON.parse(str)
    // 本质上我们就是为了拿到a、b
    let a = obj.a; 
    let b = obj.b;
}


  1. 运行模型的神经网络架构,模型的参数 a、b 是运行在这个神经网络里面的,其实也就是把这个公式:


y=ax+b


用代码实现出来:


function  net(x){
    // 这里的a、b来自第一步
    let a = 1; 
    let b = 2;
    return a * x + b;
}


  1. 这样经过net函数的计算,就得到了一个预测的结果,从使用者角度来说,我们已经拿到了想要的结果。


模型参数 ab怎么来的


你可能还有一个疑问,模型文件里面记录的是参数 ab , 那它们怎么来的?


答案是他们是经过训练得到的,什么意思呢?


举个例子,我们已经知道模型的函数如下,这个函数其实是解释了xy之间的关系:


y=ax+b


最开始我们肯定不知道 ab的具体值,所以我们才需要通过训练找到 ab 的值。


训练的过程如下:


  1. 将第一组采样数据传递给这个函数,比如身高170,体重60,很明显,一组采样数据得不到 ab 结果,因为 ab有很多个能够使这个函数成立,但是这一步我们还是需要确定来一个满足采样数据的 ab 解,即使 ab 的解存在非常多个。


  1. 将第二组采样数据传递给这个函数,比如身高160,体重50,很明显,两组数据就能求解ab ,因为一组二元一次方程就能求解方程中的2个未知数,这就不需要再解释为什么吧,小学的数学知识。


至此,我们已经求解出 ab,我们将ab的值以某种格式保存起来,然后别人使用这个模型的时候,加载这个文件即可,和上一步的流程形成了闭环。


为什么叫做深度学习


如果我们继续将第三组采样数据传递给这个函数,就会发生问题,因为上边的方程是一个线性方程,如果训练的第三组数据不满足线性,那么我们就无法求解ab,因为二元一次方程无法同时满足3组非线性采样数据。


如果出现这种情况,有很多种解决办法:


  1. 修改模型函数,增加方程的未知数,很显然这种办法不具有通用性,因为我们的采样数据数量是不确定的。


  1. 增加模型函数的深度,即增加调用层数,用代码说可能比较直观



let deep = 10;
let result = x;
for(int i = 0; i < deep; i++){
    result = net(result) // 还记得之前的net函数的实现么?
}


  1. 将上一层的计算结果作为当前的参数进行计算,重复这个过程,直到最后一层,这个过程就像剥洋葱一样,我想这也是为啥叫做深度学习的原因吧


到这里,我们也能理解为啥会产生多层神经网络了。


对智能涌现的思考


模型的预测结果什么样子,完全取决于训练的数据。


实际生活中,我们的采样数据一般都不是线性的,经过我们的训练,训练数据的输入和输出最终都会落在我们设计的神经网络,当我们传递一个新的数据时,当然结果也是落在那条拟合曲线里面。


这里就又牵扯智能涌现,大概就是说当神经网络足够复杂(意思就是参数足够多),结果有时候不会落在这个拟合曲线里面,这里就不展开了,因为我也是门外汉。


神经元为什么是y=ax+b


深度学习就像洋葱一样,一层又一层,每一层我们都可以看做一个单元,有点神经元的感觉,我们再仔细观察下这个方程:


y=ax+b


这里的 a 非常像权重(通俗点说就是占比),b 非常像偏置(通俗点说就是偏移),作为一个基础单元,它足够简单却又不失灵活。


就像乐高积木一样,每一块的设计都是非常类似,而且结构简单,但是却能相互连接成网,堆叠成层,组合出非常神奇的作品。


虽然神经元y=ax+b非常简单,这一层虽然只有2个参数,当我们层数非常多的时候,参数都是翻倍增长。


可以大概的说,参数越多,模型的表征能力就越强,包含的知识就越多。


不过你可能发现了输出的结果是一个数值,而我们使用chat-gpt的时候,反馈的结果是自然语言,这里面就牵扯到了自然语言模型,对自然语言的转换,其背后原理是

transformer,也是深度学习的结果,不太懂,这里就不再细聊了。


模型里面都存储了什么,能力越强为啥模型文件越大


看到这里,相信你也就知道这个问题的答案了


因为模型里面存储的是参数,模型越强悍,模型的参数越多,保存这些参数的文件就越大,模型也就越大。


按照我的理解,参数越多,模型的网络层级就越复杂,消耗的计算资源就越多。


像我们最开始举例的模型,模型文件就2个参数,模型文件估计也就1k,当然能干的事情也非常少!


希望这篇文章能够让你对深度学习有所了解,以上是我个人理解,肯定有错误的理解,欢迎指正,相互交流。


目录
相关文章
|
机器人 PyTorch 算法框架/工具
300美元复刻ChatGPT九成功力,GPT-4亲自监考,130亿参数开源模型「小羊驼」来了
300美元复刻ChatGPT九成功力,GPT-4亲自监考,130亿参数开源模型「小羊驼」来了
468 0
|
存储 缓存 API
ChatGPT模型参数≠1750亿,有人用反证法进行了证明
ChatGPT模型参数≠1750亿,有人用反证法进行了证明
296 0
|
编解码 人工智能 自然语言处理
微软多模态ChatGPT来了?16亿参数搞定看图答题、智商测验等任务
微软多模态ChatGPT来了?16亿参数搞定看图答题、智商测验等任务
195 0
|
编解码 人工智能 自然语言处理
ChatGPT爆火之后,视觉研究者坐不住了?谷歌将ViT参数扩大到220亿
ChatGPT爆火之后,视觉研究者坐不住了?谷歌将ViT参数扩大到220亿
248 0
|
Web App开发 机器学习/深度学习 物联网
ChatGPT平替「小羊驼」Mac可跑!2行代码单GPU,UC伯克利再发70亿参数开源模型
ChatGPT平替「小羊驼」Mac可跑!2行代码单GPU,UC伯克利再发70亿参数开源模型
467 0
|
22天前
|
机器学习/深度学习 数据采集 人工智能
从ChatGPT到文心一言:AI为什么能“懂人话”?——大语言模型的底层逻辑揭秘
从ChatGPT到文心一言:AI为什么能“懂人话”?——大语言模型的底层逻辑揭秘
200 9
|
4月前
|
传感器 存储 人工智能
ChatGPT让AI展现‘智能’魅力,函数调用和RAG如何助力迈向AI Agent?
本文由AI产品专家三桥君探讨了AI从被动响应到主动决策的演进路径,重点分析了函数调用和RAG技术在构建AI Agent中的关键作用。文章梳理了大模型能力的迭代(原生能力与涌现能力),技术演进的三个阶段(提示工程→函数调用→RAG),并提出AI Agent需具备环境感知、推理决策和行动执行的核心要素。AI产品专家三桥君认为,未来AGI需突破跨领域学习、实时更新和安全性挑战,最终实现如"贾维斯"般的智能伙伴。
163 1
ChatGPT让AI展现‘智能’魅力,函数调用和RAG如何助力迈向AI Agent?
|
4月前
|
机器学习/深度学习 人工智能 文字识别
浏览器AI模型插件下载,支持chatgpt、claude、grok、gemini、DeepSeek等顶尖AI模型!
极客侧边栏是一款浏览器插件,集成ChatGPT、Claude、Grok、Gemini等全球顶尖AI模型,支持网页提问、文档分析、图片生成、智能截图、内容总结等功能。无需切换页面,办公写作效率倍增。内置书签云同步与智能整理功能,管理更高效。跨平台使用,安全便捷,是AI时代必备工具!
315 8
|
9月前
|
人工智能 Linux API
Omnitool:开发者桌面革命!开源神器一键整合ChatGPT+Stable Diffusion等主流AI平台,本地运行不联网
Omnitool 是一款开源的 AI 桌面环境,支持本地运行,提供统一交互界面,快速接入 OpenAI、Stable Diffusion、Hugging Face 等主流 AI 平台,具备高度扩展性。
954 94
Omnitool:开发者桌面革命!开源神器一键整合ChatGPT+Stable Diffusion等主流AI平台,本地运行不联网
|
10月前
|
机器学习/深度学习 人工智能 搜索推荐
哈佛推出全新类ChatGPT癌症诊断AI,登上Nature!准确率高达96%
哈佛大学研究团队开发的新型AI模型CHIEF,在《自然》期刊发表,癌症诊断准确率达96%。CHIEF基于深度学习,能自动识别、分类癌症并预测生存期,具高准确性、多任务能力和泛化性。它结合病理图像与基因组学等数据,显著提升诊断效率和个性化治疗水平,有望改善医疗资源不平等。但数据隐私和临床效果验证仍是挑战。论文见:https://www.nature.com/articles/s41586-024-07894-z
422 101

热门文章

最新文章