通用人工智能——能够理解、学习、应用知识于广泛任务,且达到或超越人类水平的AI——是人工智能领域的“圣杯”。每隔几年,就会有专家预测AGI将在未来十年内实现;而每次预测落空后,又会有新一轮的乐观或悲观情绪。2024年至2026年,随着大语言模型展现出惊人的通用能力,AGI话题再次成为焦点。本文将从能力评估、技术路径、争议观点、时间线预测四个维度,客观剖析AGI的现状与前景。
参考:https://npqev.cn
AGI的定义难题:什么算“通用”?
讨论AGI之前,首先需要回答一个基础问题:什么算通用智能?这个定义本身就是争议焦点。
早期定义强调“跨任务迁移能力”——能够将在一个领域学到的技能应用到另一个不相关的领域。但大语言模型已经展现出惊人的迁移能力:一个在互联网文本上预训练的模型,可以不经过专门训练就完成代码生成、数学推理、创意写作、情感分析等截然不同的任务。从这个角度看,LLM已经具备了一定程度的通用性。
更严格的定义要求“自主学习能力”——AI能够像人类一样,从少量示例中快速学习新任务,而不需要海量数据和巨量计算。人类儿童看几个例子就能学会“什么是猫”,而LLM需要数百万张标注图片。从这一维度看,当前的AI与人类还有巨大差距。
最严格的定义要求“具身智能”——智能不仅体现在符号处理,还体现在与物理世界的交互、感知、行动、目标驱动、情感理解等完整认知能力。这种定义下,当前的AI甚至算不上“弱人工智能”,因为大语言模型没有身体,没有生存目标,没有对物理世界因果关系的直观理解。
为厘清概念,DeepMind在2024年提出了“AGI分级框架”,将AGI分为五个等级:Level 0(无AI)、Level 1(涌现型,如聊天机器人)、Level 2(胜任型,达到普通人类水平,如通过了多种专业考试的GPT-4)、Level 3(专家型,在大多数任务上超过90%人类)、Level 4(超人型,在所有认知任务上超越人类)、Level 5(奇点型,远超人类集体智能)。按照这个框架,当前最先进的LLM处于Level 2初期——在某些任务上达到人类水平,但在鲁棒性、一致性、长期记忆、自主学习等方面仍有明显缺陷。
当前能力的边界:看似强大,实则脆弱
大语言模型在标准基准测试上的表现令人惊叹。GPT-5(假设2026年发布)在MMLU(大规模多任务语言理解)上达到93%的准确率,超越了人类专家的90%基线;在GSM8K数学推理上达到96%;在HumanEval代码生成上达到88%。这些数字似乎表明AI已经接近甚至超越人类。
然而,这些基准测试存在严重局限。首先,数据污染问题——测试集可能已经包含在训练数据中,模型只是在“记忆”而非“推理”。即使研究者采取了去重措施,但模型仍然可以通过数据泄漏获得不公平优势。其次,基准测试往往有固定的模式,模型可以学习到统计规律而不是真正的理解。例如,修改数学题中的无关数字(将“小明有5个苹果”改为“小明有5个橙子”),模型的正确率可能骤降15%至20%,表明其依赖的是表面模式而非真实的数学推理。
参考:https://oqmyh.cn
更关键的缺陷在于“鲁棒性”和“分布外泛化”。LLM在训练数据分布内的任务上表现出色,但一旦遇到分布外的输入,就会表现得非常脆弱。斯坦福大学2025年的“反事实推理”实验显示,当问及训练数据中极少出现的“如果重力减半,篮球比赛会怎样?”这类问题时,GPT-4的回答往往荒诞不经,且不同提示词下的回答极度不稳定。人类即使从未思考过这个问题,也能基于物理直觉给出合理推断。
长期记忆和一致性也是明显短板。人类对话可以持续数小时,引用数月前说过的话,保持角色和立场的一致性。LLM的上下文窗口虽然有显著扩展(GPT-5支持100万token),但超出窗口后,模型无法“记住”之前的对话。即使在同一窗口内,LLM也容易出现“自我矛盾”——前一句说A,后一句说非A,取决于提示词的诱导。
通往AGI的技术路径:三种主流观点
对于如何实现AGI,学术界和工业界存在三条主要技术路径。
第一条路径是“规模外推”——继续扩大模型规模、数据量和计算量,相信当前的技术范式(Transformer + 自回归预测 + RLHF)足够达到AGI。这是OpenAI、Anthropic等公司的核心信念。支持者指出,GPT系列从GPT-2到GPT-4,随着规模扩大,不断涌现出新的能力(如上下文学习、思维链、代码生成),这些能力不是显式设计的,而是规模带来的“涌现”。如果继续扩大100倍或1000倍,可能会涌现出真正的通用智能。批评者认为,规模扩展遵循“边际效益递减”规律,且当前人类互联网文本数据已经被接近耗尽,合成数据质量有限,继续扩大规模的成本呈指数级增长,不可持续。
第二条路径是“神经符号融合”——将深度学习的模式识别能力与符号系统的逻辑推理能力结合起来。支持者认为,LLM擅长处理模糊、开放域的问题,但在精确推理、因果推断、组合泛化方面存在根本缺陷,而这些恰好是符号AI的优势。DeepMind的AlphaGeometry(结合神经语言模型和符号推理引擎,解决了国际数学奥林匹克几何题)展示了这一方向的潜力。IBM的“通用智能”项目也在探索类似的融合架构。批评者指出,神经与符号系统的接口是巨大挑战,且符号系统难以扩展到现实世界的复杂性和不确定性中。
参考:https://vrhyh.cn
第三条路径是“具身认知”——认为真正的智能必须根植于物理身体和环境的交互。加州大学伯克利分校的“具身智能”研究让AI代理在虚拟环境和机器人平台上学习,通过与世界的因果交互来建立世界模型。支持者认为,人类智能的本质是对物理世界的直观理解和行动目标驱动,纯语言模型缺乏这种基础,因此无法达到真正的AGI。批评者指出,具身智能的训练效率极低,机器人需要数百万次试错才能学会简单的抓取动作,且物理世界的高保真模拟仍是难题。
争议焦点:LLM是否具备“理解”?
围绕AGI最激烈的哲学争论是:LLM是否真的“理解”语言和世界,还是仅仅在进行复杂的模式匹配?这个问题没有简单答案。
支持“理解”的一方认为,理解不是神秘的黑箱,而是对外部世界建立可操作的因果模型。如果LLM能够正确回答问题、推理新场景、解释自己的回答,那么在功能上就等同于理解。哲学家丹尼尔·丹尼特曾指出,意识也好、理解也好,都是“从外部视角归因的”——如果某系统表现得就像在理解,那它就在理解。
反对“理解”的一方以语言学家乔姆斯基为代表。乔姆斯基在2024年的论文中重申:LLM是“统计模式匹配器”,它不知道语言的意义、句法的深层结构、世界的基本逻辑。LLM可以生成“苹果在月亮上成熟需要更长时间”这种语法正确但物理荒谬的句子,表明它没有真正的物理直觉。真正的理解应该能够分辨“约翰给了玛丽一本书”和“玛丽给了约翰一本书”在意义和世界状态上的根本差异——LLM可以通过统计学到这种差异,但无法进行反事实推理(“如果改成‘借’会怎样?”)。
这一争论的实际意义在于:如果LLM确实不具备真正的理解,那么仅靠规模扩展可能永远无法达到AGI,因为真正的智能需要不同的计算架构和知识表示。反之,如果功能主义立场成立,那么AGI只是规模和数据的工程问题。
时间线预测:从乐观到谨慎
AGI的时间线预测向来众说纷纭。2024年对AI研究人员的调查显示,中位数预测是“有50%概率在2047年实现AGI”,比2022年调查的2060年大幅提前,反映了LLM进展的冲击。但个体预测差异巨大——最乐观的认为2030年之前,最悲观的认为永远不会实现。
需要警惕的是,AGI预测历史上充满了失败案例。1960年代,AI先驱赫伯特·西蒙预测“十年内机器将能完成任何人类能做的工作”;1980年代,专家系统热潮中同样有人预测“五年内实现通用AI”;2010年代,深度学习兴起后同样出现了过度乐观。每一次乐观浪潮后都伴随着“AI寒冬”。
当前这波乐观情绪与以往不同之处在于:LLM确实展示了前所未有的通用能力,且每年都在快速进步。但同样值得注意的是,LLM的根本缺陷(鲁棒性、分布外泛化、长期记忆、因果推理)在过去三年中没有本质突破。这些可能不是“工程细节”,而是当前范式的“天花板”。
负责任的态度:既不过度炒作,也不否认潜力
对于AGI,最负责任的态度是:承认当前技术的惊人进步和潜力,同时保持对根本缺陷的清醒认识。AGI可能不会在某一天突然“降临”,而是像人类智能一样,是一个渐进、连续、多维度的过程。我们可能已经在某些维度上达到了初级AGI(如语言理解和生成),在其他维度上(如因果推理、长期自主学习)仍相距甚远。
与其争论“是否达到AGI”这个二元问题,更有意义的是关注具体的、可衡量的能力指标和局限。无论AGI何时到来,当前AI技术已经深刻改变了世界。即使永远达不到科幻意义上的AGI,现有技术也足以在未来几十年持续推动社会变革。通往AGI的道路,其价值不仅在于终点,更在于沿途的技术突破和认知深化。
参考:https://aescc.cn