AI真的能与人类数据科学家竞争吗?OpenAI的新基准对其进行了测试

简介: AI真的能与人类数据科学家竞争吗?OpenAI的新基准对其进行了测试

文章来源: 企业网D1net

OpenAI推出MLE-bench工具,旨在评估AI在机器学习工程中的能力。通过对Kaggle平台上的75个数据科学竞赛进行挑战,MLE-bench不仅测试AI的计算能力,还考察其在复杂任务中的规划、故障排除和创新能力。虽然OpenAI的最先进模型在部分竞赛中表现优异,但结果显示,AI在应对复杂问题和创造性解决方案方面仍落后于人类专家,这一研究不仅为衡量AI在数据科学领域的进展提供了新标准,也引发了关于AI与人类未来合作前景的讨论。


OpenAI推出了一款全新工具,用于衡量AI在机器学习工程中的能力,该基准名为MLE-bench,通过来自Kaggle的75个现实世界的数据科学竞赛对AI系统进行挑战,Kaggle是一个广受欢迎的机器学习竞赛平台。


随着科技公司加大开发更强大AI系统的力度,MLE-bench不仅仅测试AI的计算或模式识别能力,还评估AI在复杂的机器学习工程领域中的规划、故障排除和创新能力。


AI挑战Kaggle:令人印象深刻的胜利与意外的挫折


结果揭示了当前AI技术的进展与局限,OpenAI的最先进模型o1-preview,在名为AIDE的专用结构的支持下,在16.9%的竞赛中达到了可获得奖牌的表现,这一表现值得关注,表明在某些情况下,该AI系统能够与技术娴熟的数据科学家进行竞争。


然而,研究也突显了AI与人类专业知识之间的显著差距,AI模型通常能够成功应用标准技术,但在需要适应性或创造性解决问题的任务中表现较为欠缺,这一局限强调了人类洞察力在数据科学领域的持续重要性。


机器学习工程涉及设计和优化能够让AI从数据中学习的系统。MLE-bench评估AI在这个过程中各个方面的能力,包括数据准备、模型选择和性能调优。


从实验室到工业界:AI在数据科学中的深远影响


该研究的影响不仅限于学术领域,能够独立处理复杂机器学习任务的AI系统的发展,可能会加速各行业的科学研究和产品开发,然而,这也引发了对人类数据科学家角色演变的思考,以及AI能力迅速提升的潜力。


OpenAI决定将MLE-bench开源,这允许更广泛的研究和使用该基准,这一举措可能帮助建立评估机器学习工程中AI进展的共同标准,并可能影响该领域未来的发展和安全考虑。


随着AI系统在某些专业领域逐步接近人类水平,像MLE-bench这样的基准为追踪进展提供了关键指标,它们为外界过高的AI能力预期提供了现实的衡量标准,展示了当前AI的长处和不足。


AI与人类在机器学习中的未来合作


增强AI能力的努力正在加速,MLE-bench为这项进展提供了新的视角,特别是在数据科学和机器学习领域。随着这些AI系统的不断改进,它们可能会与人类专家协同工作,潜在地拓宽机器学习应用的边界。


然而,值得注意的是,尽管该基准展示了可喜的成果,它也揭示了AI距离完全复制经验丰富的数据科学家的细致决策和创造力还有很长的路要走。当前的挑战在于如何缩小这一差距,并确定如何在机器学习工程领域将AI能力与人类专长最佳结合。


版权声明:本文为企业网D1net编译,转载需在文章开头注明出处为:企业网D1net,如果不注明出处,企业网D1net将保留追究其法律责任的权利。

(来源:企业网D1net)

相关文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI在软件测试中的转型力量###
本文深入探讨了人工智能(AI)技术在软件测试领域的应用现状与未来趋势,通过分析AI如何优化测试流程、提高测试效率与质量,揭示了AI赋能下软件测试行业的转型路径。传统测试方法面临效率低、成本高、覆盖率有限等挑战,而AI技术的引入正逐步改变这一格局,为软件测试带来革命性的变化。 ###
|
1月前
|
人工智能 测试技术 Windows
Windows 竞技场:面向下一代AI Agent的测试集
【10月更文挑战第25天】随着人工智能的发展,大型语言模型(LLMs)在多模态任务中展现出巨大潜力。为解决传统基准测试的局限性,研究人员提出了Windows Agent Arena,一个在真实Windows操作系统中评估AI代理性能的通用环境。该环境包含150多个多样化任务,支持快速并行化评估。研究团队还推出了多模态代理Navi,在Windows领域测试中成功率达到19.5%。尽管存在局限性,Windows Agent Arena仍为AI代理的评估和研究提供了新机遇。
40 3
|
1月前
|
人工智能
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
【10月更文挑战第21天】普林斯顿大学研究人员提出了CORE-Bench,一个基于计算可重复性的AI代理基准,涵盖计算机科学、社会科学和医学领域的270个任务。该基准旨在评估AI代理在科学研究中的准确性,具有多样性、难度级别和现实相关性等特点,有助于推动AI代理的发展并提高计算可重复性。
50 4
|
1月前
|
人工智能 自然语言处理 算法
【通义】AI视界|OpenAI最新发布!ChatGPT搜索功能强势来了,挑战谷歌?
本文由【通义】自动生成,精选24小时内的重要资讯:OpenAI推出ChatGPT搜索功能挑战谷歌,微软披露130亿美元投资OpenAI,Reddit首次盈利股价暴涨20%,软银CEO孙正义看好英伟达及“超级AI”前景,谷歌云与沙特PIF共建全球AI中心。更多内容请访问通通知道。
|
1月前
|
机器学习/深度学习 数据采集 人工智能
探索AI驱动的自动化测试新纪元###
本文旨在探讨人工智能如何革新软件测试领域,通过AI技术提升测试效率、精准度和覆盖范围。在智能算法的支持下,自动化测试不再局限于简单的脚本回放,而是能够模拟复杂场景、预测潜在缺陷,并实现自我学习与优化。我们正步入一个测试更加主动、灵活且高效的新时代,本文将深入剖析这一变革的核心驱动力及其对未来软件开发的影响。 ###
|
2月前
|
存储 人工智能 Java
将 Spring AI 与 LLM 结合使用以生成 Java 测试
AIDocumentLibraryChat 项目通过 GitHub URL 为指定的 Java 类生成测试代码,支持 granite-code 和 deepseek-coder-v2 模型。项目包括控制器、服务和配置,能处理源代码解析、依赖加载及测试代码生成,旨在评估 LLM 对开发测试的支持能力。
42 1
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI在软件测试中的创新应用与实践###
本文旨在探讨人工智能(AI)技术如何革新软件测试领域,提升测试效率、质量与覆盖范围。通过深入分析AI驱动的自动化测试工具、智能化缺陷预测模型及持续集成/持续部署(CI/CD)流程优化等关键方面,本研究揭示了AI技术在解决传统软件测试痛点中的潜力与价值。文章首先概述了软件测试的重要性和当前面临的挑战,随后详细介绍了AI技术在测试用例生成、执行、结果分析及维护中的应用实例,并展望了未来AI与软件测试深度融合的趋势,强调了技术伦理与质量控制的重要性。本文为软件开发与测试团队提供了关于如何有效利用AI技术提升测试效能的实践指南。 ###
|
2月前
|
人工智能 前端开发
大模型体验体验报告:OpenAI-O1内置思维链和多个llm组合出的COT有啥区别?传统道家理论+中学生物理奥赛题测试,名不虚传还是名副其实?
一个月前,o1发布时,虽然让人提前体验,但自己并未进行测试。近期终于有机会使用,却仍忘记第一时间测试。本文通过两个测试案例展示了o1的强大能力:一是关于丹田及练气的详细解答,二是解决一道复杂的中学生物理奥赛题。o1的知识面广泛、推理迅速,令人印象深刻。未来,或许可以通过赋予o1更多能力,使其在更多领域发挥作用。如果你有好的测试题,欢迎留言,一起探索o1的潜力。
|
2月前
|
人工智能 自然语言处理 安全
【通义】AI视界|Adobe推出文生视频AI模型,迎战OpenAI和Meta
本文精选了过去24小时内的重要科技新闻,包括微软人工智能副总裁跳槽至OpenAI、Adobe推出文本生成视频的AI模型、Meta取消高端头显转而开发超轻量设备、谷歌与核能公司合作为数据中心供电,以及英伟达股价创下新高,市值接近3.4万亿美元。这些动态展示了科技行业的快速发展和激烈竞争。点击链接或扫描二维码获取更多资讯。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索软件测试的未来:AI与自动化的融合
【10月更文挑战第25天】在本文中,我们将深入探讨软件测试领域正在经历的革命性变化。随着人工智能(AI)和自动化技术的不断进步,传统的测试方法正逐步被更高效、更智能的解决方案所取代。文章将展示如何通过AI增强自动化测试框架,实现更高效的缺陷检测和问题解决。我们将从基础出发,逐步揭示AI在测试用例生成、测试执行和结果分析中的应用,以及这些技术如何帮助团队提高生产力并缩短产品上市时间。