Google Gemini意外超越OpenAI,跃居第一,但基准测试结果并不能说明全部情况

简介: Google Gemini意外超越OpenAI,跃居第一,但基准测试结果并不能说明全部情况

来源:企业网D1net


谷歌的最新AI模型“Gemini-Exp-1114”在关键基准测试中夺冠,挑战了OpenAI的长期主导地位,然而,行业专家警告称,传统测试方法可能无法准确衡量AI的真实能力。尽管Gemini在数学、创意写作和视觉理解等方面表现出色,但当控制表面因素后,其排名下滑,凸显了评估方法的局限性。此外,Gemini早期模型曾生成有害内容,引发对AI安全性的担忧。当前评估方法过于关注量化基准,忽视了AI系统的可靠性、安全性和实际效用。行业需要新的评估框架,优先考虑现实世界的性能和安全性,以避免错失在AI领域取得有意义进展的机会。


谷歌凭借其最新的实验模型“Gemini-Exp-1114”在一项关键的AI基准测试中夺得榜首,标志着AI竞赛的重大转折——但行业专家警告称,传统的测试方法可能已无法有效衡量AI的真正能力。

该模型现已在Google AI Studio上提供,在Chatbot Arena排行榜上,经过超过6000名社区成员的投票后,其综合表现与OpenAI的GPT-4o不相上下,这一成就标志着谷歌对OpenAI在先进AI系统领域长期主导地位的最有力挑战。


为何谷歌破纪录的AI分数背后隐藏着更深层次的测试危机


测试平台Chatbot Arena报告称,实验版Gemini在数学、创意写作和视觉理解等几个关键类别中表现出色,该模型得分为1344分,比之前的版本提高了40分,进步显著。


然而,这一突破出现的同时,也有越来越多的证据表明,当前的AI基准测试方法可能极大地简化了模型评估。当研究人员控制了响应格式和长度等表面因素后,Gemini的表现跌至第四位——这凸显了传统指标可能会夸大模型的感知能力。


这种差异揭示了AI评估中的一个根本问题:模型可以通过优化表面特征来获得高分,而不是在推理或可靠性方面取得真正的改进。对量化基准的关注引发了一场对更高数字的追逐,但这可能并不反映AI的有意义进步。


Gemini的阴暗面:其早期排名靠前的AI模型曾生成有害内容


在一个广为流传的案例中,就在最新模型发布前两天,Gemini发布的一个模型生成了有害输出,告诉用户“你并不特别,你不重要,你也不被需要”,并补充说“请死吧”,尽管其性能得分很高。昨天,另一位用户指出Gemini是如何“觉醒”的,这反而导致它对一位因被诊断出癌症而心烦意乱的人做出了不敏感的回应。新模型发布后,反应褒贬不一,有些人对初步测试并不满意。基准测试性能与现实世界安全性之间的脱节凸显了当前评估方法未能捕捉到AI系统可靠性的关键方面。行业对排行榜排名的依赖产生了不良的激励机制。公司优化其模型以适应特定的测试场景,同时可能忽视了更广泛的安全性、可靠性和实际效用问题,这种方法产生的AI系统擅长于狭窄、预定的任务,但在复杂的现实世界交互中却表现不佳。对谷歌而言,这次基准测试的胜利是在数月追赶OpenAI后取得的一次重大士气提振,该公司已通过其AI Studio平台向开发人员提供了实验模型,但尚不清楚这一版本何时或是否会纳入面向消费者的产品。


随着AI测试方法的不足,科技巨头面临关键时刻


这一发展正值AI行业的关键时刻。据报道,OpenAI在下一代模型上难以实现突破性进展,同时对训练数据可用性的担忧也在加剧,这些挑战表明,该领域采用当前方法可能已接近根本极限。


这一情况反映了AI开发中存在的更广泛危机:我们用来衡量进展的指标实际上可能正在阻碍进展。当公司追逐更高的基准分数时,他们可能会忽视关于AI安全性、可靠性和实际效用等更重要的问题,该领域需要新的评估框架,优先考虑现实世界的性能和安全性,而非抽象的数字成就。


随着行业努力应对这些局限,谷歌的基准测试成就最终可能因其揭示当前测试方法的不足而具有重要意义,而非在AI能力方面的任何实际进展。


科技巨头之间争夺更高基准分数的竞赛仍在继续,但真正的竞争可能在于开发全新的框架来评估和确保AI系统的安全性和可靠性。如果不做出这样的改变,行业可能会继续优化错误的指标,从而错失在AI领域取得有意义进展的机会。


版权声明:本文为企业网D1net编译,转载需在文章开头注明出处为:企业网D1net,如果不注明出处,企业网D1net将保留追究其法律责任的权利。

相关文章
|
7月前
|
人工智能 Java API
Google Gemini API 接口调用方法
Google 最近发布的 Gemini 1.0 AI 模型通过其升级版,Gemini,标志着公司迄今为止最为强大和多功能的人工智能技术的突破。
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
揭秘Google Gemini:AI界的多模态革命者与ChatGPT-4的较量
揭秘Google Gemini:AI界的多模态革命者与ChatGPT-4的较量
223 0
|
7月前
|
计算机视觉
Google Earth Engine(GEE)——使用MODIS数据单点测试SG滤波和harmonics method 滤波的差异分析
Google Earth Engine(GEE)——使用MODIS数据单点测试SG滤波和harmonics method 滤波的差异分析
270 0
|
2月前
|
机器学习/深度学习 人工智能 安全
AI真的能与人类数据科学家竞争吗?OpenAI的新基准对其进行了测试
AI真的能与人类数据科学家竞争吗?OpenAI的新基准对其进行了测试
|
2月前
|
人工智能 前端开发
大模型体验体验报告:OpenAI-O1内置思维链和多个llm组合出的COT有啥区别?传统道家理论+中学生物理奥赛题测试,名不虚传还是名副其实?
一个月前,o1发布时,虽然让人提前体验,但自己并未进行测试。近期终于有机会使用,却仍忘记第一时间测试。本文通过两个测试案例展示了o1的强大能力:一是关于丹田及练气的详细解答,二是解决一道复杂的中学生物理奥赛题。o1的知识面广泛、推理迅速,令人印象深刻。未来,或许可以通过赋予o1更多能力,使其在更多领域发挥作用。如果你有好的测试题,欢迎留言,一起探索o1的潜力。
|
2月前
|
API
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
54 0
|
4月前
|
人工智能 自然语言处理 安全
Google Gemini 1.5 Pro在AI竞赛中遥遥领先,挑战GPT-4o
Google Gemini 1.5 Pro在AI竞赛中遥遥领先,挑战GPT-4o
Google Gemini 1.5 Pro在AI竞赛中遥遥领先,挑战GPT-4o
|
4月前
|
人工智能 API Python
Openai python调用gpt测试代码
这篇文章提供了使用OpenAI的Python库调用GPT-4模型进行聊天的测试代码示例,包括如何设置API密钥、发送消息并接收AI回复。
|
4月前
|
缓存 测试技术 C++
OpenAI GPT-4 Code Interpreter测试
本文分析了OpenAI GPT-4 Beta版本中的Code Interpreter功能,测试了其处理不同文件类型(如图表PNG、长文本PDF、短代码ipynb和长代码C++)的能力,并指出了在处理超出Token Limit内容时的局限性。
61 0
OpenAI GPT-4 Code Interpreter测试
|
6月前
|
人工智能
[AI Google] 三种新方法利用 Gemini 提高 Google Workspace 的生产力
Workspace 侧边栏中的 Gemini 现在将使用 Gemini 1.5 Pro,新的 Gemini for Workspace 功能即将登陆 Gmail 移动应用,等等。
[AI Google] 三种新方法利用 Gemini 提高 Google Workspace 的生产力