73年前,香农已经给大模型发展埋下一颗种子

简介: 【7月更文挑战第13天】克劳德·香农1951年的论文《印刷英语的预测和熵》预示了大模型的未来。他探索了语言统计特性在预测下一个字母出现中的作用,开创性地计算了语言熵,为信息传输效率提供了评估手段。香农的工作虽限于英语和单个字母预测,但其思想为现代大模型的训练、评估和应用奠定了基础。[🔗](https://www.princeton.edu/~wbialek/rome/refs/shannon_51.pdf)**

在信息论的历史上,有一位被誉为“信息论之父”的科学家,他就是克劳德·香农(Claude Shannon)。他在1948年发表了一篇名为《通信的数学理论》的论文,这篇论文被认为是信息论的奠基之作。然而,鲜为人知的是,早在1951年,香农就为大模型的发展埋下了一颗种子。

这篇名为《印刷英语的预测和熵》的论文,主要研究了如何利用语言的统计特性来预测下一个字母的出现。虽然这篇论文并没有直接涉及大模型的概念,但它为大模型的发展提供了重要的理论基础。

首先,让我们来看看香农的研究背景。在20世纪40年代,香农在贝尔实验室工作期间,对通信系统产生了浓厚的兴趣。他意识到,要提高通信系统的效率,关键在于如何有效地传输和存储信息。于是,他开始研究如何用数学方法来描述信息的传输和存储过程。

在《印刷英语的预测和熵》这篇论文中,香农提出了一种基于语言统计特性的预测方法。他发现,人们在阅读文本时,可以根据前面的字母来预测下一个字母的出现。这种预测能力源于人们对语言的统计特性的了解,例如字母的频率、字母组合的出现概率等。

香农通过实验研究了英语的预测能力。他让被试者猜测一段文本中的下一个字母,并记录下他们的猜测结果。根据实验结果,香农发现,人们在猜测下一个字母时,通常只需要知道前面几个字母的信息。这表明,英语的预测能力是有限的,但仍然可以利用语言的统计特性来进行预测。

基于这些实验结果,香农提出了一种计算语言熵的方法。语言的熵可以看作是语言的不确定性或随机性的度量。香农认为,如果我们能够根据前面的字母来预测下一个字母的出现,那么语言的熵就会降低。因此,他提出了一种基于预测的熵计算方法,这种方法可以用于评估语言的预测能力和信息传输效率。

然而,香农的研究也存在一些局限性。首先,他的研究主要关注的是英语的预测能力,而没有考虑其他语言的特点。其次,他的研究主要基于实验数据,而没有进行更深入的数学分析。最后,他的研究主要关注的是单个字母的预测,而没有考虑更复杂的语言结构,如单词、短语等。

尽管如此,香农的研究仍然为大模型的发展提供了重要的启示。首先,他强调了语言的统计特性在预测中的重要性,这为大模型的训练提供了思路。大模型可以通过学习语言的统计特性来进行预测,从而提高预测的准确性。

其次,香农的研究为大模型的评估提供了方法。通过计算语言的熵,我们可以评估大模型的预测能力和信息传输效率。这为我们选择合适的大模型提供了依据。

最后,香农的研究为大模型的应用提供了方向。虽然他的研究主要关注的是单个字母的预测,但我们可以将这种预测能力应用到更复杂的语言结构上。例如,我们可以利用大模型来预测下一个单词的出现,或者生成连贯的文本。

论文链接:https://www.princeton.edu/~wbialek/rome/refs/shannon_51.pdf

目录
相关文章
|
2月前
|
人工智能
光速矩阵:光速创作、矩阵引爆,打造AIGC时代数字就业新格局!
**光速矩阵**是一个创新平台,利用AIGC(人工智能生成内容)技术赋能企业和品牌,实现高效传播。平台通过“光速创作”和“矩阵引爆”机制,为企业提供高质量内容创作和精准市场覆盖。光速矩阵还与高校和地方政府合作,培养AIGC创作者和“矩阵小哥”,推动乡村青年和大学生的数字化就业,助力乡村振兴和社会发展。通过技术创新和人才培养,光速矩阵正成为全球数字传播与就业的重要驱动力。
光速矩阵:光速创作、矩阵引爆,打造AIGC时代数字就业新格局!
|
5月前
|
传感器 自动驾驶 算法
自动驾驶理论新突破登Nature子刊!清华、密歇根联合提出三条技术路线,剑指稀疏度灾难
【7月更文挑战第6天】清华大学与密歇根大学研究团队在Nature子刊发表突破性成果,针对自动驾驶的“稀疏度灾难”提出三条技术路线:数据驱动、模型驱动及混合驱动,旨在提升系统应对罕见场景的能力,确保安全性和鲁棒性。这一进展为解决自动驾驶在复杂环境中的决策难题开辟了新途径。[论文链接](https://doi.org/10.1038/s41467-024-49194-0)**
53 3
|
决策智能
博弈论第十一集总结(进化稳定—合作,突变,与平衡 “ 观后感)
博弈论第十一集总结(进化稳定—合作,突变,与平衡 “ 观后感)
79 0
|
机器学习/深度学习 数据采集 SQL
学术加油站|学习型基数估计:设计方式的探索与比较
今天分享的这篇论文是李国良教授的团队今年发表的一篇综述,主要内容是从现有的学习型基数估计论文中抽象出 3 种统一工作流程,并对各个种类的基数估计方法中选择效果明显的几种作为代表,从多个方面进行全面的测试。
583 0
学术加油站|学习型基数估计:设计方式的探索与比较
数学家证明30年前的「安德烈-奥尔特猜想」,推进多项式方程解探索
数学家解决了一个重要问题,即多项式方程的解如何与称为志村变体的复杂几何对象相关联。
185 0
数学家证明30年前的「安德烈-奥尔特猜想」,推进多项式方程解探索
|
算法 固态存储 数据可视化
62.8万亿位!一个源自高中生的算法「y-cruncher」让圆周率的精度再破世界纪录
近日,瑞士格劳宾登应用科学大学团队历时101天9小时,完成了圆周率小数点后62.8万亿位的计算,比创下吉尼斯纪录耗费的计算时间减少一半!诞生如此多位小数的算法「y-cruncher」竟出自高中生之手。
631 0
62.8万亿位!一个源自高中生的算法「y-cruncher」让圆周率的精度再破世界纪录
|
机器学习/深度学习 人工智能 算法
量子霸权终实现?谷歌3分20秒完成世界第一超算万年运算
这或许是计算机领域的一个里程碑事件:谷歌宣称「量子霸权」已经实现,他们首次在实验中证明了量子计算机对于传统架构计算机的优越性:在世界第一超算 Summit 需要计算 1 万年的实验中,谷歌的量子计算机只用了 3 分 20 秒。
131 0
量子霸权终实现?谷歌3分20秒完成世界第一超算万年运算
|
机器学习/深度学习 算法 数据处理
25000个神经元,2000万个突触,谷歌等机构耗时十年重建突触级果蝇半脑
人类终于绘制出了最大的果蝇大脑连接图,还精细到了突触连接级别。
255 0
25000个神经元,2000万个突触,谷歌等机构耗时十年重建突触级果蝇半脑
历时30年探索牛顿之谜,中国科学家测出迄今最高精度万有引力常数值!
北京时间8月30日凌晨,Nature刊发了中科院院士罗俊团队历经30年最新测定的万有引力常数G值的结果,是迄今国际上最高精度的G值。实验使用了两种单独的G值测量方法,相关装置和细节均由团队自主研制完成,Nature刊文评论称,这项实验可谓“精确测量领域卓越工艺的典范”。
2032 0