Google Gemini意外超越OpenAI,跃居第一,但基准测试结果并不能说明全部情况

简介: Google Gemini意外超越OpenAI,跃居第一,但基准测试结果并不能说明全部情况

来源:企业网D1net


谷歌的最新AI模型“Gemini-Exp-1114”在关键基准测试中夺冠,挑战了OpenAI的长期主导地位,然而,行业专家警告称,传统测试方法可能无法准确衡量AI的真实能力。尽管Gemini在数学、创意写作和视觉理解等方面表现出色,但当控制表面因素后,其排名下滑,凸显了评估方法的局限性。此外,Gemini早期模型曾生成有害内容,引发对AI安全性的担忧。当前评估方法过于关注量化基准,忽视了AI系统的可靠性、安全性和实际效用。行业需要新的评估框架,优先考虑现实世界的性能和安全性,以避免错失在AI领域取得有意义进展的机会。


谷歌凭借其最新的实验模型“Gemini-Exp-1114”在一项关键的AI基准测试中夺得榜首,标志着AI竞赛的重大转折——但行业专家警告称,传统的测试方法可能已无法有效衡量AI的真正能力。

该模型现已在Google AI Studio上提供,在Chatbot Arena排行榜上,经过超过6000名社区成员的投票后,其综合表现与OpenAI的GPT-4o不相上下,这一成就标志着谷歌对OpenAI在先进AI系统领域长期主导地位的最有力挑战。

为何谷歌破纪录的AI分数背后隐藏着更深层次的测试危机

测试平台Chatbot Arena报告称,实验版Gemini在数学、创意写作和视觉理解等几个关键类别中表现出色,该模型得分为1344分,比之前的版本提高了40分,进步显著。然而,这一突破出现的同时,也有越来越多的证据表明,当前的AI基准测试方法可能极大地简化了模型评估。当研究人员控制了响应格式和长度等表面因素后,Gemini的表现跌至第四位——这凸显了传统指标可能会夸大模型的感知能力。这种差异揭示了AI评估中的一个根本问题:模型可以通过优化表面特征来获得高分,而不是在推理或可靠性方面取得真正的改进。对量化基准的关注引发了一场对更高数字的追逐,但这可能并不反映AI的有意义进步。

Gemini的阴暗面:其早期排名靠前的AI模型曾生成有害内容

在一个广为流传的案例中,就在最新模型发布前两天,Gemini发布的一个模型生成了有害输出,告诉用户“你并不特别,你不重要,你也不被需要”,并补充说“请死吧”,尽管其性能得分很高。昨天,另一位用户指出Gemini是如何“觉醒”的,这反而导致它对一位因被诊断出癌症而心烦意乱的人做出了不敏感的回应。新模型发布后,反应褒贬不一,有些人对初步测试并不满意。基准测试性能与现实世界安全性之间的脱节凸显了当前评估方法未能捕捉到AI系统可靠性的关键方面。行业对排行榜排名的依赖产生了不良的激励机制。公司优化其模型以适应特定的测试场景,同时可能忽视了更广泛的安全性、可靠性和实际效用问题,这种方法产生的AI系统擅长于狭窄、预定的任务,但在复杂的现实世界交互中却表现不佳。对谷歌而言,这次基准测试的胜利是在数月追赶OpenAI后取得的一次重大士气提振,该公司已通过其AI Studio平台向开发人员提供了实验模型,但尚不清楚这一版本何时或是否会纳入面向消费者的产品。

随着AI测试方法的不足,科技巨头面临关键时刻

这一发展正值AI行业的关键时刻。据报道,OpenAI在下一代模型上难以实现突破性进展,同时对训练数据可用性的担忧也在加剧,这些挑战表明,该领域采用当前方法可能已接近根本极限。这一情况反映了AI开发中存在的更广泛危机:我们用来衡量进展的指标实际上可能正在阻碍进展。当公司追逐更高的基准分数时,他们可能会忽视关于AI安全性、可靠性和实际效用等更重要的问题,该领域需要新的评估框架,优先考虑现实世界的性能和安全性,而非抽象的数字成就。随着行业努力应对这些局限,谷歌的基准测试成就最终可能因其揭示当前测试方法的不足而具有重要意义,而非在AI能力方面的任何实际进展。科技巨头之间争夺更高基准分数的竞赛仍在继续,但真正的竞争可能在于开发全新的框架来评估和确保AI系统的安全性和可靠性。如果不做出这样的改变,行业可能会继续优化错误的指标,从而错失在AI领域取得有意义进展的机会。版权声明:本文为企业网D1net编译,转载需在文章开头注明出处为:企业网D1net,如果不注明出处,企业网D1net将保留追究其法律责任的权利。 image.svg

相关文章
|
14天前
|
存储 人工智能 弹性计算
阿里云弹性计算_加速计算专场精华概览 | 2024云栖大会回顾
2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云智能集团资深技术专家、异构计算产品技术负责人王超等多位产品、技术专家,共同带来了题为《AI Infra的前沿技术与应用实践》的专场session。本次专场重点介绍了阿里云AI Infra 产品架构与技术能力,及用户如何使用阿里云灵骏产品进行AI大模型开发、训练和应用。围绕当下大模型训练和推理的技术难点,专家们分享了如何在阿里云上实现稳定、高效、经济的大模型训练,并通过多个客户案例展示了云上大模型训练的显著优势。
|
18天前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
9天前
|
并行计算 前端开发 物联网
全网首发!真·从0到1!万字长文带你入门Qwen2.5-Coder——介绍、体验、本地部署及简单微调
2024年11月12日,阿里云通义大模型团队正式开源通义千问代码模型全系列,包括6款Qwen2.5-Coder模型,每个规模包含Base和Instruct两个版本。其中32B尺寸的旗舰代码模型在多项基准评测中取得开源最佳成绩,成为全球最强开源代码模型,多项关键能力超越GPT-4o。Qwen2.5-Coder具备强大、多样和实用等优点,通过持续训练,结合源代码、文本代码混合数据及合成数据,显著提升了代码生成、推理和修复等核心任务的性能。此外,该模型还支持多种编程语言,并在人类偏好对齐方面表现出色。本文为周周的奇妙编程原创,阿里云社区首发,未经同意不得转载。
|
15天前
|
人工智能 运维 双11
2024阿里云双十一云资源购买指南(纯客观,无广)
2024年双十一,阿里云推出多项重磅优惠,特别针对新迁入云的企业和初创公司提供丰厚补贴。其中,36元一年的轻量应用服务器、1.95元/小时的16核60GB A10卡以及1元购域名等产品尤为值得关注。这些产品不仅价格亲民,还提供了丰富的功能和服务,非常适合个人开发者、学生及中小企业快速上手和部署应用。
|
22天前
|
缓存 监控 Linux
Python 实时获取Linux服务器信息
Python 实时获取Linux服务器信息
|
4天前
|
云安全 存储 弹性计算
|
6天前
|
云安全 人工智能 自然语言处理
|
10天前
|
人工智能 自然语言处理 前端开发
用通义灵码,从 0 开始打造一个完整APP,无需编程经验就可以完成
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。本教程完全免费,而且为大家准备了 100 个降噪蓝牙耳机,送给前 100 个完成的粉丝。获奖的方式非常简单,只要你跟着教程完成第一课的内容就能获得。
|
25天前
|
自然语言处理 数据可视化 前端开发
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
合合信息的智能文档处理“百宝箱”涵盖文档解析、向量化模型、测评工具等,解决了复杂文档解析、大模型问答幻觉、文档解析效果评估、知识库搭建、多语言文档翻译等问题。通过可视化解析工具 TextIn ParseX、向量化模型 acge-embedding 和文档解析测评工具 markdown_tester,百宝箱提升了文档处理的效率和精确度,适用于多种文档格式和语言环境,助力企业实现高效的信息管理和业务支持。
3987 5
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
|
4天前
|
人工智能 C++ iOS开发
ollama + qwen2.5-coder + VS Code + Continue 实现本地AI 辅助写代码
本文介绍在Apple M4 MacOS环境下搭建Ollama和qwen2.5-coder模型的过程。首先通过官网或Brew安装Ollama,然后下载qwen2.5-coder模型,可通过终端命令`ollama run qwen2.5-coder`启动模型进行测试。最后,在VS Code中安装Continue插件,并配置qwen2.5-coder模型用于代码开发辅助。
317 4