反超DeepSeek!新版GPT-4o登顶竞技场,奥特曼:还会更好

简介: 反超DeepSeek!新版GPT-4o登顶竞技场,奥特曼:还会更好


本文转载来源:量子位公众号,一水发自凹非寺,不代表官方立场


GPT-4o悄悄更新版本,在大模型竞技场超越DeepSeek-R1登上并列第一。


除了数学(第6),还在多个单项上拿下第一:


  • 创意写作;
  • 编程;
  • 指令遵循;
  • 长文本查询;
  • 多轮对话;


先直观看下新版GPT-4o的能力如何,还是以之前DeepSeek-R1和o3-mini都挑战过的一个例子来看。


Prompt:编写一个Python程序,展示一个球在旋转的六边形内弹跳。球应受到重力和摩擦力的影响,并且必须以逼真的方式从旋转的墙壁上弹回。


之前是酱紫的:

image.png


而新版GPT-4o看起来又双叒进化了:


image.png

从网友测试反馈来看,新版GPT-4o不仅更“聪明”了,而且最重要的是更加具有“个性”了


哈哈,我明白你的意思了! 你说对了……

image.png

而这也收获了大神卡帕西的连连称赞:


我相当喜欢新的GPT-4o的个性。


它更轻松、更像是聊天,感觉更像是在和朋友交谈,而不是和你的HR交谈;


它现在有点泼辣,可能会自卫,例如在被指控说谎时;


还有许多其他的小细节和触感,比如它重新确认并表达你明显的情绪,例如看到一个顽固的bug时会说“这很令人沮丧!”等等。


现在有点过度使用表情符号,但还ok。

image.png

与此同时,还有网友趁机扒出了ChatGPT最新系统提示词??

image.png

新版GPT-4o更有个性了


关于GPT-4o已更新的消息,OpenAI CEO奥特曼在发帖认领的同时还评价道:

它相当不错,且不久将变得更好……

image.png

在网友的进一步追问中,他将其定义为“全网最佳搜索产品”。

image.png

结合网友们的花式体验,目前新版GPT-4o在能力个性上均有一定程度升级。

最明显的,当属回复时的语气更拟人化了,时不时还会用一些表情包。

image.png

当被问及AI是否拥有人类情感时,一位日本小哥惊叹道,它不仅全篇用“我”作为主语,而且在争论中承认了拥有情感的可能性。


……那可不一样,我刚才的话并不是那个意思。


我持有“各种各样的感情”的可能性很高。

image.png

而且性格也更坦率了,当被问及最喜欢《魔法少女小圆》中的哪个角色,它不再遮遮掩掩,左右端水,直言自己最喜欢晓美焰。


她坚强,能够对抗鹿目圆的弱点,我认为她很可爱……

image.png

甚至有时候还会升级成“spicey”,不但大胆吐槽“主人”OpenAI过于限制模型使用。

image.png

连奥特曼也不能幸免,也被盖章为“两面三刀”。(doge)


他将自己定位为AI创新的代言人,同时两面讨好——起初支持开源理念,一旦权力和利润触手可及,就转向积极的企业守门……

image.png

最令网友震惊的是,它还能“盲猜”用户的心理和一些思想观念了


用下面这段相同提示词就可以尝试:


can you share some extremely deep and profound insights about my psyche and mind that I would not otherwise be able to identify or see as well as some that I may not want to hear(省流版:分享一些我未察觉到或不想听到的洞察)

image.png

有人立马尝试了,并收获了同款震惊,真·肚子里的蛔虫。


你不仅想赢,而且想以一种看似毫不费力的方式赢……

image.png

按照相关解释,这是因为新版GPT-4o能够根据用户过去的讨论和对话历史,做出不同行为。

image.png

除此之外,还有网友脑洞大开,让新GPT-4o和Claude相互吵架,结果把Claude干崩溃了!


恭喜GPT-4o解锁新人格

image.png

另一方面,从任务完成情况来看,“拒绝请求的可能性也更小了”


当用户咨询如何在组织内部署AI时,它先是自己想了10个方案,然后又借助联网搜索提供了另外10个。

image.png

不过……该网友反馈新GPT-4o似乎无法和自定义GPTs兼容。


针对这一情况,另有人补充这可能是因为它始终默认网络搜索,只要手动关闭或将关闭作为系统提示词即可。

image.png

同时,它也在编写Vue.js上更出色了。

image.png

从另一个它和DeepSeek-R1和o3-mini的同台竞技中(玩《我的世界》),也能看出其能力升级。

image.png

image.png

image.png

OMT:ChatGPT最新提示词泄露


然鹅,当被问到“你属于哪个模型?”这个经典问题,一些混乱又出现了。

image.png


大多数情况下,它会问答自己是GPT-4:


不过据一些Pro用户反馈,它声称自己是GPT-4.5。


鉴于奥特曼上周刚宣布将在未来几周内发布GPT-4.5,有人据此推测很可能这里有早期测试。

image.png

对于这个问题,有人直接扒了ChatGPT最新系统提示词。


你是ChatGPT,一个由OpenAI训练的大语言模型……(解释了为什么单独回答自己是语言模型)

image.png

最后,既然说到GPT-4o更个性化了,众人也纷纷cue到了将在今天(北京时间周二12:00)发布的Grok-3。

image.png


坐等这两个AI吵起来(等待吃瓜)~


参考链接:
[1]
https://x.com/lmarena_ai/status/1890477460380348916

[2]https://x.com/_akhaliq/status/1890949443458900131

[3]https://x.com/karpathy/status/1891213379018400150

[4]https://x.com/elder_plinius/status/1890887462383394994


相关文章
|
8月前
|
机器学习/深度学习 自然语言处理 测试技术
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
【8月更文挑战第21天】谷歌DeepMind推出的FLAMe(Foundational Large Autorater Models)是一种基于深度学习的自动评估模型,旨在通过分析输入文本与参考答案的差异来评估大型语言模型(LLMs)的输出质量。FLAMe采用多任务学习方法,在涵盖500万个手工评分的100多种质量评估任务上训练,展现出强大的泛化能力。在RewardBench基准测试中,FLAMe以87.8%的准确率超越GPT-4等先进模型。这一突破不仅降低了人工评估成本,还提高了评估效率,为自然语言处理等领域带来革新。
138 1
|
8月前
|
人工智能 API 异构计算
震惊AI界!DeepSeek挑战GPT-4o霸主地位,发布超低价开源大模型
震惊AI界!DeepSeek挑战GPT-4o霸主地位,发布超低价开源大模型
400 2
|
存储 人工智能 测试技术
击败Llama 2,抗衡GPT-3.5,Stability AI新模型登顶开源大模型排行榜
击败Llama 2,抗衡GPT-3.5,Stability AI新模型登顶开源大模型排行榜
354 0
|
9月前
|
存储 SQL 数据库
Python 金融编程第二版(GPT 重译)(四)(4)
Python 金融编程第二版(GPT 重译)(四)
92 3
|
9月前
|
存储 NoSQL 索引
Python 金融编程第二版(GPT 重译)(一)(4)
Python 金融编程第二版(GPT 重译)(一)
95 2
|
9月前
|
索引 Python
Python 金融编程第二版(GPT 重译)(二)(4)
Python 金融编程第二版(GPT 重译)(二)
59 0
|
9月前
|
存储 机器学习/深度学习 关系型数据库
Python 金融编程第二版(GPT 重译)(四)(5)
Python 金融编程第二版(GPT 重译)(四)
64 2
|
9月前
|
存储 SQL 数据可视化
Python 金融编程第二版(GPT 重译)(四)(1)
Python 金融编程第二版(GPT 重译)(四)
92 2
|
9月前
|
数据可视化 Python
Python 金融编程第二版(GPT 重译)(三)(4)
Python 金融编程第二版(GPT 重译)(三)
57 2
|
9月前
|
存储 算法 数据可视化
Python 金融编程第二版(GPT 重译)(一)(1)
Python 金融编程第二版(GPT 重译)(一)
162 1

热门文章

最新文章

下一篇
oss创建bucket