ChatGPT之后性能怪兽来了?马库斯7大「黑暗」预测:GPT-4带不来AGI

简介: ChatGPT之后性能怪兽来了?马库斯7大「黑暗」预测:GPT-4带不来AGI

【新智元导读】ChatGPT的爆火,点燃了人们对通用人工智能的热情。在全世界对GPT-4翘首以盼时,马库斯却做出7大预测,给大家泼了盆冷水。性能提升却不能理解世界,大型语言模型会是AGI的未来吗?


2022年接近尾声之际,OpenAI发布了名为ChatGPT的聊天机器人,迅速走红网络。

发布后不到两周,已有超过一百万人注册在线试用。用户只要输入文本,就能立即得到一段段的不可思议的文章、故事和诗歌。

它的文笔很好,以至于有些人用它在Tinder上写约会的开场白(「你介意我坐这里吗?你做臀冲的样子让我的腿有点发软。」)

不仅如此,令世界各地的教育工作者相当震惊的是,学生们开始使用ChatGPT来撰写学期论文。还有一些人正在使用它来尝试重塑搜索引擎。一时之间,全世界都在讨论ChatGPT的神奇。

尽管如此,马库斯表示,我们不能对聊天机器人滤镜太厚。

虽然ChatGPT看起来无所不知,但它也很容易出错。在接受采访时,马库斯表示,ChatGPT和之前一样,相关系统「仍然不可靠,仍然不了解现实世界,仍然不了解心理世界并且仍然充满错误。」

也就是说,ChatGPT时常胡编乱造;它所说的相当一部分根本不是真的。

例如,在用户的诱导下,ChatGPT可以说出油条非常适合手术,因为「它们体积小巧,可以在手术过程中实现更高的精确度和控制,降低并发症的风险并改善手术的整体结果」 。

聊天机器人一本正经地说胡话,以至于著名的网站Stack Overflow已经暂时禁止计算机生成的回答。

而错误是无穷无尽的。虽然ChatGPT经常根据用户反馈进行调整,但在产品发布几周后,仍有很多网友对它的回答感到无语:

类似的错误频频发生,连OpenAI的首席执行官Sam Altman也不得不承认现实:

ChatGPT仍有诸多局限,但足以创造出伟大的假象。

现在靠ChatGPT去完成重要任务还为时尚早。关于提高鲁棒性和真实性,我们要做的还有很多。

简而言之,ChatGPT虽然听起来像是星际迷航中的计算机一样科幻,但目前,人们还不能完全信任它。

当然,ChatGPT是2022年AI爱好者的礼物。那么2023年呢?

2023年,硅谷乃至整个世界翘首以盼的,是GPT-4。

GPT-4:AI界的「天降紫微星」


实际尝试过GPT-4的人都对该产品印象深刻。根据一些传言,GPT-4将于2023年春天发布。届时,它将使ChatGPT 黯然失色;可以肯定的是,会有更多人谈论它。

在许多方面,人们对GPT-4的期望值非常高:

风投公司DVC创始人Nick Davidov表示:GPT-4的出现,会带来「和新冠疫情类似的经济冲击」。GPT-4的快速传播和使用,可以「迅速提高数亿知识工作者的生产力」。

从技术上讲,GPT-4内部将会有更多的参数,更多的处理器和内存,并接受更多数据的训练。

GPT-1接受了4.6GB数据的训练,而到了GPT-3,数据量直接飙升至750GB。由此可见,GPT-4的训练量会更加惊人,甚至会对整个互联网的大部分进行学习。

OpenAI深知,更大的训练量意味着更好的输出。经过每次迭代,GPT的表现变得越来越像人类。对于GPT-4,可能会进化成为一个性能怪物。

但它会解决之前遇到的问题吗?马库斯对此仍然打了个问号。

尽管GPT-4看起来肯定会比它的前任更聪明,但其内部架构仍然存在问题。

马库斯称,他怀疑人们在GPT-4时,会有一种似曾相识的感觉:先是火遍全网,然后过了几天,人们发现许多问题仍然存在。

根据当前信息,GPT-4在架构上与GPT-3基本相同。如果是这样,可以预料到,一些基本问题仍然无法解决:聊天机器人依然缺乏了解世界运作方式的内部模型。

因此,GPT-4无法在抽象层面上理解事物。它可能更擅长帮学生写论文,但它仍然不会真正了解世界,答案的字里行间仍会透露机器的特征。

关于GPT-4的七大预测


因此,尽管AI界对GPT-4的到来满心欢喜,马库斯却给出了7个不太积极的预测。

1. GPT-4仍然会像它的前辈一样,犯下各种愚蠢的错误。它有时可能会很好地完成给定的任务,有时却罢工不干,但你并不能提前预料到即将出现的是哪种情况。

2. GPT-4对物理、心理和数学方面的推理依然靠不住。它或许能够解决部分之前未能挑战成功的项目,但在面对更长和更复杂的场景时依然束手无策。

比如,当被问及医学问题时,它要么拒绝回答,要么偶尔会说出听起来很有道理但很危险的废话。尽管它已经吞噬了互联网上的大量内容,但它并不能足够可信和完整地提供可靠的医疗建议。

3. 流畅幻象(fluent hallucinations)仍将十分常见,而且很容易被诱发。也就是说,大型语言模型依然是一个能被轻易用于制作听起来很有道理但却完全错误的信息的工具。

4. GPT-4的自然语言输出仍然无法以可靠的方式为下游程序提供服务。利用它构建虚拟助手的开发者会发现,自己无法可靠地将用户语言映射到用户的意图上。

5. GPT-4本身不会是一个能解决任意任务的通用人工智能。如果没有外部的辅助,它既不能在Diplomacy中击败Meta的Cicero;也不能可靠地驾驶汽车;更不能驱动《变形金刚》里的「擎天柱」,或者像《杰森一家》里的「Rosie」那样多才多艺。

6. 人类「想要什么」与机器「去做什么」之间的「对接」,依然是一个关键且尚未解决的问题。GPT-4仍将无法控制自己的输出,一些建议是令人惊讶的糟糕,掩盖偏见的例子也会在几天或几个月内被发现。

7. 当AGI(通用人工智能)实现时,像GPT-4这样的大型语言模型,或许会成为最终解决方案的一部分,但也仅限于其中的一部分。单纯的「扩展」,也就是建立更大的模型直到它吸收了整个互联网,在一定程度上会被证明是有用的。值得信赖的、与人类价值观相一致的通用人工智能,一定会来自于结构化程度更高的系统。它将具有更多的内置知识,并包含明确的推理和计划工具。而这些,都是现在的GPT系统所缺乏的。

马库斯认为,在十年内,也许更少,人工智能的重点将从对大型语言模型的扩展,转向与更广泛的技术相结合。

酷炫的东西总是好玩的,但这并不意味着它能带领我们走向可信的通用人工智能。

对此,马库斯预测,我们在今后需要的是一个可以将显性知识和世界模型作为核心的全新架构。

参考资料:https://garymarcus.substack.com/p/what-to-expect-when-youre-expecting

相关文章
|
3月前
|
API 云栖大会
通义千问升级旗舰模型Qwen-Max,性能接近GPT-4o
通义旗舰模型Qwen-Max全方位升级,性能接近GPT-4o
1266 11
|
7天前
|
数据采集 人工智能 数据可视化
InternVL 2.5,首个MMMU超过70%的开源模型,性能媲美GPT-4o
近期Internvl2.5发布,性能与GPT-4o和Claude-3.5-sonnet等领先的商业模型相媲美,成为首个在MMMU上超过70%的开源模型,通过链式思考(CoT)推理实现了3.7个百分点的提升,展示了强大的测试时间可扩展性潜力。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
o1医学领域大胜GPT-4,性能暴涨!顶尖华人团队激动发文:离AI医生越来越近了
【10月更文挑战第29天】近日,一支顶尖华人团队发布论文《A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?》,揭示了OpenAI最新语言模型o1在医学领域的卓越表现。研究显示,o1在概念识别、文本总结、问答等任务上远超GPT-4,显著提升了医学领域的AI应用水平,向实现AI医生的目标迈进了一大步。
53 3
|
6月前
|
存储 人工智能
GPT-4尚未出现自我意识!这项研究用上帝之点解读,迈向AGI局限无法克服
【6月更文挑战第21天】研究人员构建了智能与意识的“飞行模型”,定义了全知全能代理(Ω点)和绝对零代理(α点),以此评估AI的智能水平。目前AI接近人类智能但缺乏自我意识。该模型为理解AI的智能和意识提供新视角,但也因理论概念的实证支持不足及忽视环境影响的多样性而受到批评。[DOI: 10.13140/RG.2.2.24518.28484]
87 6
|
4月前
|
自然语言处理 测试技术 计算机视觉
ECCV 2024:提升GPT-4V、Gemini检测任务性能,你需要这种提示范式
【8月更文挑战第14天】在2024年ECCV上,一篇论文介绍了DetToolChain——一种创新提示范式,旨在提升GPT-4V等多模态大型语言模型在检测任务上的表现。它利用精心设计的视觉提示引导模型关注图像的关键区域,并通过Chain-of-Thought方法将复杂任务分解为简单步骤,显著提高了零样本目标检测的准确性。实验显示,在多个基准测试上,DetToolChain带来了高达24.23%的性能提升。然而,这种方法可能需要大量计算资源,并且在不同任务和数据集上的效果仍有待验证。
189 66
|
3月前
|
数据可视化 Swift
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。并且,量化后仅 2GB 内存,端侧友好。
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
|
3月前
|
人工智能 安全 测试技术
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
|
2月前
|
算法 搜索推荐 机器人
【ChatGPT】参加计算机科学考试(GPT-4对比GPT-3.5)
【ChatGPT】参加计算机科学考试(GPT-4对比GPT-3.5)
48 0
|
2月前
|
数据采集 自然语言处理 并行计算
ChatGPT高效提问—基础知识(GPT与ChatGPT)
ChatGPT高效提问—基础知识(GPT与ChatGPT)
45 0
|
3月前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。

热门文章

最新文章