- Extrapolate into the future (There's no guaranteed truth here)
- 长期看来,碳基的智能一定会远远小于硅基的智能
- 现在的 gpt 表现出的硅基智能是 “人类可以理解的智能”,但在压缩过程中也可能会产生 “人类不可理解的智能”。
- 我们可以将 GPU 和人类进行对比
- GPU 加能源超频,人脑加能源发烧
- GPU 之间传输 nvlink+infiniband,人脑之间传输靠动能(说话 = 空气震动,打字 = 手敲键盘,所以三体人很厉害)
- 机器 24x7 小时工作,人脑每天高强度工作 8 小时,剩下的时间在睡觉放松养身,否则就会认为在被 PUA。
- 从计算到通信到能源使用量,人类统统不占优。
- 压缩可以超过人类智能
- 当压缩率足够高时,模型将不得不找到数据中的规律。而有些规律可能是我们不知道的。
- DeepMind 已经在数学的纽结理论上做出了一些尝试。
- 压缩也可以发现物理定律。如果我们把很多 “苹果树的生长” 的视频给压缩好了 ,那么苹果可能 “砸中” 的不是牛顿而是模型,因为模型需要会预测苹果落下的规律,那么其 weights 中一定有一个隐式的 “牛顿定律”。压缩天文视频我们可以得到开普勒定律。那么压缩强子对撞机的数据呢?
- 这样看起来,AI for Science 的前途好像一片光明。
- 但正因为这样, AI for Science 单独存在的意义反而可能变低了
- 进一步,我们把天文地理人文政治生物化学物理数学的知识一起压缩,说不定 gpt 会一口气吐出基于某种 新的 penrose tiling 而设计出的拥有新物理化学特性的晶体,可以作为脑机接口的优秀植入材料,并预测人因此能力的增强对于科技发展的二阶推动作用,分析对社会发展造成冲击,进而如何影响地缘政治,导致可能人类需要尽快殖民火星成为 multi-planetary species 而避免因地球毁灭产生的种族灭绝危机(这里 @elonmusk)
- 相对于 gpt 只是是一个模型在 inference,人类需要调动大量不同领域的专家并耗费大量资源来维持人这个生物化学计算机的运行,并且通过高超的管理艺术协调解决人类之间靠空气振动传播知识带宽低下的问题,加上毅力和运气才能有可能做出相同的工作。
- GPT 很危险
- 没人同时是天文地理人文政治生物化学物理数学专家,而 GPT 压缩了足够的知识后就可以是。
- 如果一个毒贩问 GPT 你是否有便宜简单的方法合成冰毒,GPT 若回答了,那可能地球上某个地区就会毒品泛滥
- 当然 GPT-4 已经做好了一定的防护措施(即使使用了 "DAN" prompt)
- GPT 的价值观和政治倾向也可能会对世界格局产生巨大影响。
- 为了不教大家做坏事,这里就不展开了。
- 如何控制训练好的硅基智能?
- 不要让它控制自己的能源
- 用 EMP (电磁脉冲) 设备对准机房,不听话就电疗(杨教授?)
- 对有限数据压缩只能对有限世界进行解释。如果这时智能 “有意识”,那么也只是 “有限世界” 的意识,
- 可以推断的是,现有的 GPT 如果造成了对人类的破环,那么这个行为的要求一定最初是人类发起的。
- 因为虽然 GPT 在训练中在不停地通过 SGD 尝试压缩一个 token 的表示,但就目前的使用形态来说并没有在尝试在优化对未来世界的观察的压缩率,a.k.a, 没有做 SGD。@niuyuanlei
- 硅基只需要 encode “对未来下一个 token 预测的压缩” 这一条规则,并且人类给了它这个机会,可能也会造成不可控的危害。
- 所以 “GPT 继续训练” 这个按钮应该要选执剑人?:)
- 但,别慌:压缩告诉了我们目标,但没有告诉我们道路。
- 我们如果把视野放得开一点,我们会发现,其实很多计算问题都是学习问题,于是都可以从压缩角度来理解。
- 一个例子是密码学。从某个角度看,机器学习和密码学其实都在研究数据的学习能力:机器学习研究一份数据有 多可学,而密码学研究一个东西有 多不可学。
- 假设我们用 RSA 算法生成了一对密钥后,对于一段明文 u, 用其私钥u加密 得到密文 v,把 u、v 连在一起得到 [v,u] ,然后用看做一个 autoregressive 学习问题。如果能正确预测 u,则说明模型学到了 RSA 算法 + 所用的密钥。
- 虽然可以认为现在只有 2^n 的指数级 “学习”(a.k.a, 破译) 算法,虑到模型还懂那么多数学 + RSA 的算法实现本身但我无法断定在强大的压缩算法下,依然学不到破译算法。
- 希望懂密码学的同学可以来展开讲一下。
- 同样的,刚才 8 位数加法的问题,如果我们认为数据是一个很长的序列 [a1+b1=c1, a2+b2=c2, ...] ,且压缩算法足够厉害(可能 Transformer + SGD 还不够),那么最后不仅应该学会加法,还应该能学到随机数生成器及随机数种子。
- 当然,还有很多很多的问题可以探讨,这里还有一些没有展开的话题
传统统计机器学习学习分布 的视角和压缩的联系是什么?VAE 是否也是在做压缩 (@malike)?判别模型中的 Information Bottleneck 和 生成模型的 Minimum Description Length (a.k.a., 压缩) 之间关系该怎么理解?( @Xiangyu Zhang )
- Mathematica 的 symbolic computation 能力被 GPT 学会是不是只是时间问题?最近也有一些 用 GPT 模拟图灵机 的工作。这样下去是不是 google/bing/wolframalpha 最后都会沦为 gpt 的一个外部数据库?wolframalpha 可能是其中 truthfulness 最高的。
- RLHF 在压缩的视角里是什么作用?
- Computer Vision 为什么抄 NLP 到今天也还在一个百分点一个百分点地把 ImageNet/MSCOCO 往上拱?
- Transformer -> ViT,BERT -> MAE,GPT -> ViT-VQGAN,为什么还是不 work ?
- BERT 也建模了,并且如果只 mask x_n 则可以建模 从目标包含了 Auto Regressive,并且也可以 通过 Gibs 采样生成文本,那如果用 BERT 会怎么样?
- 被压缩的数据该以什么样的视角来理解?图片里信息量这么大(随便找三支笔往桌上一扔,请用语言精确描述一下这三支笔的姿态)为什么压缩了也没见 “智能的感觉” 有本质提升?究竟什么是我们想压缩的东西?
- BPE 对序列的压缩和 GPT 对 token 的压缩是否能统一看待?多模态是否有单独研究的必要?是否应该直接把 jpeg/h264/mp3 扔进去压缩?是否有从 bit/byte 层面直接做压缩的高效算法?
- 扩散模型 (Diffusion Model) 在计算过程中加入了随机噪声,是否意味着白白增大了 aleatoric uncertainty?是否意味着其压缩效率上限在更多任务上会受到天生的劣势。
- 小测验:diffusion model 里有随机噪声,那还是无损压缩么?
- 经验上加宽网络,可以使得网络学习能力更强,从而提高压缩率。从 NTK 角度如何理解压缩?( @Xiangyu Zhang )
- 如果我的 GPT 输出的是围棋棋谱, Alignment 的 Reward Model 是读棋谱数目数,那么在 RLHF 是否包含了一个 AlphaGo 的实现?如果不是还差什么?
- 如果我想把中文学术做好,知网数据的价值该怎么来衡量?
- Chain of Thoughts 利用 "Let's think step-by-step" 诱导出更多的 token,从而使得能 Transformer 能写更多中间步骤,最后给出更好的答案。Self-critique or self-relfection 也可以看作是一种广义的 CoT。从压缩角度好像选择了一条 Alice 和 Bob 同时 “降智”、压缩率更低的解。如何理解这一点?
这里面的问题很多都想写一些观点,也想把我们对数据 和 Alignment 的一些想法写出来(上面有一些很相关的问题),但发现到这里文章已经挺长了,并且 “猜想” 的不严谨部分已经挺多了,所以打算先写到这里。如果大家对于哪个问题比较好奇,可以告诉我,之后有时间会再来谈谈。
结语
前段时间在研究 OpenAI 到底在做什么时,发现了其过去的主要路径只是在做一件事:压缩。这段时间拉着很多小伙伴们或多或少的讨论后,大家纷纷觉得有道理,也 写了 几篇 文章 。从无损压缩开始,有了一个非常具体的实现和证明,便能一点点来解释 OpenAI 坚定这样做的原因、Sam Altman 为什么 2019 年 给投资人说我们把 AGI 造出来问他怎么赚钱就行了,为什么他这么担心 AI 安全, OpenAI 的使命是 "Creating safe AGI that benefits all of humanity"。这很马后炮,但如果从 “通过压缩的观点可以合理解释 OpenAI 的行为” 这句话来看,我们其实也是把 对 OpenAI 的观察做了很高的压缩,那么这句话的压缩率其实也挺高的 ,可能还是值得花时间来思考一下。
本篇文章内容没有用 ChatGPT,为人类创作作品。封面为 Midjourney V5 生成。
One More Thing
很多朋友也知道,我最近刚从本科毕业工作了快 9 年的旷视离职,和同学一起成立一家新公司,专注于实现对人类有益的 AGI,当然不免俗也会从用大模型做起(毕竟是目前最 scalable 的压缩算法)。还在观望想下场的同学欢迎来联系我(知乎私信即可),方便的话还可以线下找个地方聊聊(我 base 北京)。
Acknowledgement
- @wangyuzhi@xuxinran @wangguan @zhangmeng @xionghuixin@zhengyanan@duyulun@zhouerjin@yangtong @linzongyu @yangzhilin@zhangyutao@niuyuanlei@malike@zhangzilun @chenfeng
- Reference
- Ilya Sutskever (OpenAI Chief Scientist) - Building AGI, Alignment, Spies, Microsoft, & Enlightenment | Youtube
- Sam Altman: OpenAI CEO on GPT-4, ChatGPT, and the Future of AI | Lex Fridman Podcast #367 | Youtube
- Compression for AGI - Jack Rae | Stanford MLSys #76 | Youtube
- Theory of Mind Breakthrough: AI Consciousness & Disagreements at OpenAI [GPT 4 Tested] | Youtube
- GPT-4 Creator Ilya Sutskever | Youtube
- What is NOT Random | Youtube
- Hutter Prize
- Neural Data Compression
- An Introduction to Arithmetic Coding
- 压缩即智慧 @xuxinran
- 智慧信息的压缩:模型智能的涌现之道 @wangguan
- 为什么说 GPT 是无损压缩 @wangyuzhi
- 毅马当闲
- Pause Giant AI Experiments: An Open Letter
- 【搜出来的文本】⋅(三)基于 BERT 的文本采样
- 基于算数编码的二分查找进行压缩的期望查询次数证明 @zhangmeng
- Can LLMs Critique and Iterate on Their Own Outputs?
- Reflexion: an autonomous agent with dynamic memory and self-reflection