73年前,香农已经给大模型发展埋下一颗种子

简介: 【7月更文挑战第13天】克劳德·香农1951年的论文《印刷英语的预测和熵》预示了大模型的未来。他探索了语言统计特性在预测下一个字母出现中的作用,开创性地计算了语言熵,为信息传输效率提供了评估手段。香农的工作虽限于英语和单个字母预测,但其思想为现代大模型的训练、评估和应用奠定了基础。[🔗](https://www.princeton.edu/~wbialek/rome/refs/shannon_51.pdf)**

在信息论的历史上,有一位被誉为“信息论之父”的科学家,他就是克劳德·香农(Claude Shannon)。他在1948年发表了一篇名为《通信的数学理论》的论文,这篇论文被认为是信息论的奠基之作。然而,鲜为人知的是,早在1951年,香农就为大模型的发展埋下了一颗种子。

这篇名为《印刷英语的预测和熵》的论文,主要研究了如何利用语言的统计特性来预测下一个字母的出现。虽然这篇论文并没有直接涉及大模型的概念,但它为大模型的发展提供了重要的理论基础。

首先,让我们来看看香农的研究背景。在20世纪40年代,香农在贝尔实验室工作期间,对通信系统产生了浓厚的兴趣。他意识到,要提高通信系统的效率,关键在于如何有效地传输和存储信息。于是,他开始研究如何用数学方法来描述信息的传输和存储过程。

在《印刷英语的预测和熵》这篇论文中,香农提出了一种基于语言统计特性的预测方法。他发现,人们在阅读文本时,可以根据前面的字母来预测下一个字母的出现。这种预测能力源于人们对语言的统计特性的了解,例如字母的频率、字母组合的出现概率等。

香农通过实验研究了英语的预测能力。他让被试者猜测一段文本中的下一个字母,并记录下他们的猜测结果。根据实验结果,香农发现,人们在猜测下一个字母时,通常只需要知道前面几个字母的信息。这表明,英语的预测能力是有限的,但仍然可以利用语言的统计特性来进行预测。

基于这些实验结果,香农提出了一种计算语言熵的方法。语言的熵可以看作是语言的不确定性或随机性的度量。香农认为,如果我们能够根据前面的字母来预测下一个字母的出现,那么语言的熵就会降低。因此,他提出了一种基于预测的熵计算方法,这种方法可以用于评估语言的预测能力和信息传输效率。

然而,香农的研究也存在一些局限性。首先,他的研究主要关注的是英语的预测能力,而没有考虑其他语言的特点。其次,他的研究主要基于实验数据,而没有进行更深入的数学分析。最后,他的研究主要关注的是单个字母的预测,而没有考虑更复杂的语言结构,如单词、短语等。

尽管如此,香农的研究仍然为大模型的发展提供了重要的启示。首先,他强调了语言的统计特性在预测中的重要性,这为大模型的训练提供了思路。大模型可以通过学习语言的统计特性来进行预测,从而提高预测的准确性。

其次,香农的研究为大模型的评估提供了方法。通过计算语言的熵,我们可以评估大模型的预测能力和信息传输效率。这为我们选择合适的大模型提供了依据。

最后,香农的研究为大模型的应用提供了方向。虽然他的研究主要关注的是单个字母的预测,但我们可以将这种预测能力应用到更复杂的语言结构上。例如,我们可以利用大模型来预测下一个单词的出现,或者生成连贯的文本。

论文链接:https://www.princeton.edu/~wbialek/rome/refs/shannon_51.pdf

目录
相关文章
|
存储 安全 对象存储
手把手教你搭建阿里云图床(PicGo+Typora+阿里云OSS),新手小白一看就会
本文详细介绍了怎样帮助新手小白从注册,购买阿里云OSS,到一步一步配置OSS做为图床,和PicGo、Typora软件连接,配置好关联之后,在使用Typora写文章时,如果需要插入图片,只需要将图片复制粘贴到Typora的编辑区域,就会自动通过PicGo上传到指定图床,自动复制外网能访问的URL并展示,简直不要太方便,极大的解决了编辑文章时复制处理图片链接的痛点。
10587 15
手把手教你搭建阿里云图床(PicGo+Typora+阿里云OSS),新手小白一看就会
|
机器学习/深度学习 自然语言处理 数据可视化
基于Python+词云图+情感分析对某东上完美日记的用户评论分析
基于Python+词云图+情感分析对某东上完美日记的用户评论分析
858 0
基于Python+词云图+情感分析对某东上完美日记的用户评论分析
|
Shell Android开发
解决Android的adb命令行报错Permission denied
解决Android的adb命令行报错Permission denied
2460 0
解决Android的adb命令行报错Permission denied
|
Cloud Native 安全 持续交付
云原生技术在现代企业中的应用与挑战
随着数字化转型的浪潮不断推进,云原生技术以其灵活性、可扩展性和高效率成为现代企业IT架构转型的关键。本文将深入探讨云原生技术的实际应用案例,分析其在提升业务敏捷性、优化资源管理等方面的优势,并针对安全性、技术复杂性等挑战提出应对策略。通过对比分析传统IT架构与云原生架构的差异,揭示云原生技术如何助力企业实现快速创新和持续集成部署,同时指出企业在采用云原生技术过程中需注意的关键因素,为企业提供一条清晰的云原生技术应用路线图。
|
监控 数据中心
交换机的电口和光口,包括它们的定义、特点、区别及应用场景
本文详细介绍了交换机的电口和光口,包括它们的定义、特点、区别及应用场景。电口适用于短距离、低成本的网络环境,而光口则适合长距离、高速率、高可靠性的需求。文章还提供了选择和使用时的注意事项,帮助读者更好地理解和应用这一重要网络技术。
1668 8
|
11月前
|
关系型数据库 MySQL 数据库
市场领先者MySQL的挑战者:PostgreSQL的崛起
PostgreSQL(简称PG)是世界上最先进的开源对象关系型数据库,起源于1986年的加州大学伯克利分校POSTGRES项目。它以其丰富的功能、强大的扩展性和数据完整性著称,支持复杂数据类型、MVCC、全文检索和地理空间数据处理等特性。尽管市场份额略低于MySQL,但PG在全球范围内广泛应用,受到Google、AWS、Microsoft等知名公司支持。常用的客户端工具包括PgAdmin、Navicat和DBeaver。
782 4
|
NoSQL MongoDB 数据库
MongoDB最新版本是什么?
【6月更文挑战第8天】MongoDB最新版本是什么?
698 6
|
10月前
|
人工智能 自然语言处理 搜索推荐
《深度剖析:开源与闭源模型,AI舞台上的不同角色》
在人工智能领域,开源与闭源模型各有优劣。闭源模型由大公司精心打造,初始性能优越,但优化受限;开源模型则依靠社区力量,灵活性高、迭代迅速,长期潜力大。在学术研究中,开源模型透明性高,利于创新;商业应用上,闭源模型稳定性强,适合高要求场景。资源受限环境中,开源模型更易裁剪优化。企业和开发者应根据需求选择合适模型,两者共同推动AI发展。
1261 9
|
SQL 关系型数据库 MySQL
MySQL主从:延时从库恢复全解
MySQL主从:延时从库恢复全解
|
机器学习/深度学习 数据可视化 数据挖掘
构建可复用的 Jupyter 模板和插件:提高工作效率的最佳实践
【8月更文第29天】Jupyter Notebook 是一个广泛使用的交互式计算环境,支持多种编程语言。它不仅用于数据分析、可视化和机器学习项目,也是教学和科研的理想工具。然而,随着使用频率的增加,重复编写相似的代码和设置变得既耗时又低效。通过创建可复用的 Jupyter 模板和插件,我们可以显著提高工作效率。
396 1