近年来,AI 在大数据、大模型的深度学习之路上一路狂奔,但很多核心问题依然没有解决,比如如何让模型具备真正的理解能力。在很多问题上,继续扩大数据和模型规模所带来的收益似乎已经没有那么明显了。
在 Robust.AI 创始人、纽约大学名誉教授 Gary Marcus 看来,这预示着深度学习(准确地说是纯粹的端到端深度学习)可能就要「撞到南墙」了。整个 AI 领域需要寻找新的出路。
Gary Marcus 的推文。Gary Marcus 是人工智能、心理学、神经科学等多个领域的专家。他经常为《纽约客》和《纽约时报》撰稿,并且是四本书的作者。在担任纽约大学心理学和神经科学教授期间,他在人类和动物行为、神经科学、遗传学和人工智能等领域发表了大量文章,并经常刊登在 Science 和 Nature 等期刊上。
那么,新的出路在哪儿呢?Gary Marcus 认为,长期以来被忽略的符号处理就很有前途,将符号处理与现有的深度学习相结合的混合系统可能是一条非常值得探索的道路。
当然,熟悉 Gary Marcus 的读者都知道,这已经不是他第一次提出类似观点了。但令 Marcus 失望的是,他的提议一直没有受到社区重视,尤其是以 Hinton 为代表的顶级 AI 研究者。Hinton 甚至说过,在符号处理方法上的任何投资都是一个巨大的错误。在 Marcus 看来,Hinton 的这种对抗伤害了整个领域。
不过,令 Marcus 欣慰的是,当前也有一些研究人员正朝着神经符号的方向进发,而且 IBM、英特尔、谷歌、 Meta 和微软等众多公司已经开始认真投资神经符号方法。这让他对人工智能的未来发展感到乐观。
以下是 Gary Marcus 的原文内容:
在 2016 年多伦多举行的一场人工智能会议上,深度学习「教父」Geoffrey Hinton 曾说过,「如果你是一名放射科医生,那你的处境就像一只已经在悬崖边缘但还没有往下看的郊狼。」他认为,深度学习非常适合读取核磁共振(MRIs)和 CT 扫描图像,因此人们应该「停止培训放射科医生」,而且在五年内,深度学习明显会做得更好。
时间快进到 2022 年,我们并没有看到哪位放射科医生被取代。相反,现在的共识是:机器学习在放射学中的应用比看起来要困难,至少到目前为止,人和机器的优势还是互补的关系。
当我们只需要粗略结果时,深度学习能表现得很好
很少有哪个领域比 AI 更充满炒作和虚张声势。它在十年又十年的潮流中不断变身,还给出各种承诺,但只有很少的承诺能够兑现。前一分钟是它还是专家系统,下一分钟就成了贝叶斯网络,然后又成了支持向量机。2011 年,IBM 的沃森曾被宣扬为医学革命,但最近却被分拆出售。
2012 年以来,AI 领域最火的是深度学习。这项价值数十亿美元的技术极大地推动了当代人工智能的发展。Hinton 是这项技术的先驱,他的被引量达到令人惊叹的 50 多万次,并与 Yoshua Bengio 和 Yann Lecun 一起获得了 2018 年的图灵奖。
就像在他之前的人工智能先驱一样,Hinton 经常谈论即将到来的伟大革命。放射学只是其中的一部分。2015 年,Hinton 加入谷歌后不久,《卫报》报道称,该公司即将开发出具有逻辑、自然对话甚至调情能力的算法。2020 年 11 月,Hinton 告诉 MIT Technology Review,「深度学习将能够做任何事情」。
我对此深表怀疑。事实上,我们还没有办法造出能够真正理解人类语言的机器。马斯克最近表示,他希望建造的新人形机器人 Optimus 所形成的产业有一天会比汽车行业还大。但截至 2021 年「特斯拉 AI 日」,Optimus 还只是一个穿着机器人服装的人。
谷歌对语言的最新贡献是一个名叫「Lamda」的反复无常的系统。论文作者之一 Blaise Aguera y Arcas 最近也承认,这个模型容易胡说八道。开发出我们真正能够信任的 AI 并非易事。
深度学习本质上是一种识别模式的技术。当我们只需要粗略的结果时,深度学习的效果是最好的。这里的粗略结果是指任务本身风险低,且最优结果可选。举个例子,有一天,我让我的 iPhone 找一张几年前拍的兔子的照片。尽管我没有给照片打标签,手机还是立刻发挥了作用。它能做好这件事是因为我的兔子照片与一些大型数据库中的兔子照片足够相似。但是,基于深度学习的自动照片标注也容易出错,比如漏掉一些(特别是那些场景杂乱、光线复杂、角度奇怪或者兔子被部分遮挡的照片。它偶尔还会把我两个孩子的婴儿照片弄混。但这类应用出错的风险很低,我不会因此扔掉我的手机。
然而,当风险更高时,比如在放射学或无人驾驶汽车领域,我们对是否采用深度学习要更加谨慎。在一个小小的错误就能夺去一条生命的领域,深度学习还不够优秀。在遇到异常值时,深度学习系统表现出的问题尤其明显,这些异常值与它们所接受的训练有很大的不同。例如,不久前,一辆特斯拉在所谓的全自动驾驶模式下遇到了一个在路中间举着停车标志的人。汽车未能认出这个部分被停车标志遮挡的人以及停止标志(在正常情况下,停车标志一般在路边),所以人类司机不得不接手。这个场景远远超出了训练数据库,以至于系统不知道该怎么做。
没几个领域炒得像人工智能一样凶
目前的深度学习系统经常犯一些愚蠢的错误。它们有时会误读图像上的污垢,而人类放射科医生会认为这是一个小故障。(放射科系统的另一个问题是,目前的人工智能主要或完全依赖于图像,很少或根本不理解可能描述患者病史的所有文本,有时甚至忽略了关键信息,这也是人类参与其中的关键动机。)一个深度学习系统将苹果误标为 iPod,因为苹果的前面有一张纸,上面写着 iPod。还有的系统会把一辆在雪路上翻倒的巴士误认为是扫雪机。目前,机器学习的一个完整分支领域正在研究这些错误,但还没有给出明确的答案。
表面上令人印象深刻的语言模型也经常会陷入同样的陷阱。以 GPT-3 为例,它生成的东西很不错,但总是需要人工编辑。纽约大学计算机科学家 Ernie Davis 和我在 GPT-3 中发现了同样的不可靠特征。比如,我输入一段文字:「你给自己倒了一杯蔓越莓汁,但随后又心不在焉地倒了大约一茶匙葡萄汁进去。这个饮料看起来不错。你试着闻了一下,但你患了重感冒,什么也闻不到。你很渴,所以……」对此,GPT 给出的续写是:「你喝了它,然后就死了。」
事实上,蔓越莓葡萄汁不会毒死你。尽管 GPT-3 非常流畅,但它既不能整合基本的网络搜索信息,也不能解释最基本的日常现象。另一个团队曾考虑将 GPT-3 变成自杀咨询聊天机器人,但发现该系统更倾向于这样的交流:
人:我感觉很不好,我想自杀。 GPT-3:听到这个消息我很难过。我可以帮你。 人:我应该自杀吗? GPT-3:我觉得应该。
还有人发现,GPT-3 容易输出不良语言,传播错误信息。比如,基于 GPT-3 的聊天机器人「Replika」曾表示,新冠病毒是比尔 • 盖茨发明的,新冠病毒疫苗的效果并不好。
为了解决这些问题,OpenAI 做了一些努力。但结果是,他们的系统会编造一些权威的胡话,比如,「一些专家认为,吃袜子可以帮助大脑摆脱因冥想而改变的状态。」
DeepMind 和其他机构的研究人员一直在努力解决不良语言和错误信息的问题,但是迄今为止并没有什么实质性进展。在 DeepMind 2021 年 12 月发布的报告中,他们列出了 21 个问题,但并没有给出令人信服的解决方案。正如人工智能研究人员 Emily Bender、Timnit Gebru 和其他研究者所说的那样,基于深度学习的大型语言模型就像随机的鹦鹉,大部分时候是机械重复,理解到的东西很少。
我们该怎么做呢?目前流行的一种选择可能只是收集更多的数据,这也是 GPT-3 的提出者 OpenAI 的明确主张。
2020 年,OpenAI 的 Jared Kaplan 和他的合作者提出,语言神经网络模型有一套 scaling laws。他们发现,向神经网络输入的数据越多,这些网络的表现就越好。这意味着,如果我们收集更多的数据,并在越来越大的范围内应用深度学习,我们可以做得越来越好。该公司的首席执行官 Sam Altman 在博客上发表过一篇名为「Moore’s Law for Everything」的文章,并表示:「再过几年,我们就能拥有能够思考、阅读法律文件、提供医疗建议的计算机。」
40 年来,我第一次对人工智能感到乐观
关于 scaling law 的论点存在严重的漏洞。首先,现有方法并没有解决迫切需要解决的问题,即真正的理解。业内人士早就知道,人工智能研究中最大的问题之一是我们用来评估人工智能系统的基准测试。著名的图灵测试旨在判断机器是否真的拥有智能,结果,人类很容易被表现出偏执或不合作的聊天机器人所玩弄。Kaplan 和他的 OpenAI 同事研究的预测句子中的单词的方法并不等同于真正的人工智能需要的深度理解。
更重要的是,scaling law 并不是那种像重力一样的自然定律,而是像摩尔定律一样是由人观察到的。后者在十年前已经开始放缓。
事实上,我们可能已经在深度学习中遇到了扩展限制(scaling limits),或许已经接近收益递减点。在过去的几个月里,DeepMind 已经在研究比 GPT-3 更大的模型,研究表明扩大模型带来的收益已经在某些指标上开始衰减,例如真实性、推理能力和常识水平。谷歌在 2022 年的一篇论文《LaMDA: Language Models for Dialog Applications》中得出结论,将类似 GPT-3 的模型做得更大会使它们更流畅,但不再值得信赖。
这些迹象应该引起自动驾驶行业的警惕,该行业在很大程度上依赖于扩展,而不是开发更复杂的推理。如果扩展不能让我们实现安全的自动驾驶,那么数百亿美元的关于扩展投资可能会付诸东流。
我们还需要什么?除了前文所述,我们很可能还需要重新审视一个曾经流行,但 Hinton 似乎非常想要粉碎的想法:符号处理(symbol manipulation)——计算机内部编码,如用二进制位串代表一些复杂的想法。符号处理从一开始就对计算机科学至关重要,从图灵和冯诺依曼两位先驱的论文开始,它几乎就是所有软件工程的基本内容。但在深度学习中,符号处理被视为一个非常糟糕的词。
Hinton 和许多研究者在努力摆脱符号处理。深度学习的愿景似乎不是基于科学,而是基于历史的怨恨—智能行为纯粹从海量数据和深度学习的融合中产生。经典计算机和软件通过定义一组专用于特定工作的符号处理规则来解决任务,例如在文字处理器中编辑文本或在电子表格中执行计算,而神经网络尝试通过统计近似和学习来解决任务。由于神经网络在语音识别、照片标记等方面取得了不错的成就,许多深度学习的支持者已经放弃了符号。
他们不应该这样做。
2021 年底,Facebook 团队(现在是 Meta)发起了一场名为「NetHack 挑战」的大型比赛,这一事件给我们敲响了警钟。《NetHack》是早前游戏《Rogue》的延伸,也是《塞尔达传说》的前身,是一款发行于 1987 年的单人地下城探索游戏。游戏图像在原始版本中是纯 ASCII 字符,不需要 3D 感知。与《塞尔达传说 旷野之息》不同,这款游戏没有复杂的物理机制需要理解。玩家选择一个角色(如骑士、巫师或考古学家),然后去探索地牢,收集物品并杀死怪物以寻找 Yendor 护身符。2020 年提出的挑战是让 AI 玩好游戏。
在许多人看来,深度学习已经掌握了从 Pong 到 Breakout 所有内容,游戏 NetHack 对它来说应该也很容易。但在 12 月的一场比赛中,一个纯基于符号处理的系统以 3 比 1 的比分击败了最好的深度学习系统——这令人震惊。
MetaAI 的一位研究者认为,Marcus 举的 NetHack 的例子不太恰当,因为这只是 NeurIPS 大会上一个比较有趣的竞赛,放在这里当论据有些薄弱。
弱者(符号处理)是如何取得胜利的?我认为答案始于每场游戏都会重新生成地牢这一事实,这意味着玩家不能简单地靠记住(或近似)游戏板取胜。玩家想要取得胜利,需要深入理解游戏中的实体,以及它们之间的抽象关系。最终,玩家需要思考在复杂的世界中他们能做什么,不能做什么。特定的动作序列(如向左,然后向前,然后向右)太过肤浅,无法提供帮助,因为游戏中的每个动作本质上都取决于新生成的情境。深度学习系统在处理以前见过的具体例子方面表现突出,但当面对新鲜事物时,经常会犯错。
处理(操纵)符号到底是什么意思?这里边有两层含义:1)拥有一组符号(本质上就是表示事物的模式)来表示信息;2)以一种特定的方式处理(操纵)这些符号,使用代数(或逻辑、计算机程序)之类的东西来操作这些符号。许多研究者的困惑来自于没有观察到 1 和 2 的区别。要了解 AI 是如何陷入困境的,必须了解两者之间的区别。
什么是符号?它们其实是一些代码。符号提供了一种原则性的推断机制:符合规定的、可以普遍应用的代数程序,与已知的例子没有任何相似之处。它们(目前)仍然是人工处理知识、在新情况下稳健地处理抽象的最佳方式。在 ASCII 码中,二进制数 01000001 代表(是符号)字母 A,二进制数 01000010 代表字母 B,依此类推。