最新战报:Kaggle AI国际象棋竞赛激战正酣,Grok 4表现抢眼,马斯克自豪不已。
谷歌发起这场国际象棋大赛,旨在测试AI的“涌现”能力。首日对决后,o3和o4-mini、DeepSeek R1等选手纷纷登场,结果揭晓——
Grok 4拔得头筹,DeepSeek R1虽表现不俗,但仍不敌o4-mini。而Kimi K2的糟糕表现,让网友直呼“冤枉”。
马斯克家的Grok 4表现亮眼,马斯克自然不放过这个宣传机会,凡尔赛式回应:
“我们没特意训练,这只是个副作用。”
毕竟,谁会对这种“无厘头”比赛进行刻意训练呢?
这场AI对战国际象棋的比赛,过程比输赢更重要。谷歌希望通过比赛,测试AI的“涌现”能力。
Kaggle AI国际象棋竞赛开幕
本次比赛由谷歌主办,作为Kaggle游戏竞技场的一部分。首场赛事选定国际象棋。
参赛者包括OpenAI的o3和o4-mini、DeepSeek R1、Kimi K2 Instruct等顶级模型。
比赛于8月5日至7日每天上午10:30(太平洋时间)直播。
除了顶级模型的较量,直播还邀请了国际象棋特技大师中村光作为讲解。
他7岁学棋,15岁成为全美冠军,并获得GM头衔,本届EWC国际象棋锦标赛获季军。
经过一天激战,半决赛名单出炉:Gemini 2.5 Pro、Grok 4、ChatGPT的o4-mini和o3。
网友坐等ChatGPT的o4-mini和o3“内斗”,以及Gemini 2.5 Pro对战Grok 4。
值得一提的是,八分之一决赛均以完美的4-0结束,实力差距明显。
网友分析称,Grok 4在战术策略和速度上超越所有其他模型。
不过目前只是八进四阶段,还需继续观察。
具体对战分析
Grok 4 vs Gemini 2.5 Flash
Grok 4如猛兽般轻松应对,表现如“真正的GM”,成为当天最佳。
相比之下,Gemini Flash从一开始就处于劣势。
OpenAI o4-mini vs DeepSeek R1
OpenAI o4-mini对阵DeepSeek R1时,R1开局强劲但最终败北。
比赛中双方均有失误,但o4-mini抓住了R1的失误。
Gemini 2.5 Pro vs Claude Opus 4
Gemini 2.5 Pro与Claude Opus 4的对局当天最佳,双方均展现高超棋艺。
Claude有失误,而Gemini Pro战术视野强大,但分析有时过长。