忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级

简介: 忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级

本文来源:企业网D1net


OpenAI发布全新o1系列AI模型,取代此前的GPT系列,旨在解决复杂的科学、医疗和技术问题。o1-preview和o1-mini两款模型已上线,专为生成数学公式、注释数据和编程调试等任务而优化。o1-preview在国际数学奥林匹克竞赛中的表现显著优于GPT-4,达到83%的解题率,o1-mini则提供80%的成本优势,适用于开发者和研究人员。未来,OpenAI将进一步增强这些模型的功能,包括支持文件和图像上传等特性,同时加强安全性和合规性。


自从OpenAI于2023年3月推出其强大的专有大型语言模型GPT-4 —— 即 18 个月前 —— 以来,用户和开发者们一直在猜测,这家在硅谷及全球掀起GenAI热潮的公司何时会推出下一个版本,预计将命名为GPT-5。


然而,事实证明,GPT系列暂时被一整个全新模型家族所超越。


今天,经过数月的报道和传闻,尤其是在最近几天愈加激烈的讨论后,OpenAI 宣布推出其“o1” AI模型家族,首批包含两个模型:o1-preview和o1-mini。公司表示,这些模型旨在“推理复杂任务并解决比GPT系列更难的问题”。


这两个模型现已向ChatGPT Plus用户开放,但最初限制为每周o1-preview只能发送30条消息,o1-mini则为50条。


然而,OpenAI 也提醒用户:“作为一个早期模型,它还没有许多使 ChatGPT 实用的功能,例如通过网络浏览信息和上传文件及图片。在许多常见情况下,GPT-4o 在短期内仍然更为强大。”


的确,我们在最初的测试中尝试让其为这篇文章生成图片时发现它无法完成。在 OpenAI 的 API 平台网站上,公司明确表示,这个模型家族在测试阶段仅支持“文本内容,暂不支持图片”。


o1系列在GPT模型上的优势


OpenAI 声称其新的 o1 系列特别适合于在科学、医疗保健和技术等领域处理复杂问题的用户。


OpenAI 设想这些模型将被广泛应用,从帮助物理学家为量子光学生成数学公式,到协助医疗研究人员为细胞测序数据做标注。


开发者也会发现 o1-mini 模型在构建和执行多步骤工作流、调试代码以及高效解决编程挑战方面颇具成效。


o1-preview的表现达到博士生水平


o1-preview 模型旨在通过花更多时间思考和优化响应来处理挑战性任务,类似于人类面对复杂问题时的应对方式。


在测试中,这种方法使该模型在物理学、化学和生物学等领域的表现接近博士生水平。此外,o1-preview 模型在编程方面表现优异,在 Codeforces 编程比赛中排名第 89 百分位,展现了其处理多步骤工作流、调试复杂代码和生成准确解决方案的能力。


在国际数学奥林匹克竞赛 (IMO) 预选考试等基准测试中,o1-preview 展示了其卓越能力,成功解决了 83% 的问题,显著超越其前任 GPT-4o 仅 13% 的成功率。


它已经向ChatGPT的Plus和Team用户开放使用,Enterprise和Edu用户将在下周获得访问权限。该模型也通过OpenAI API提供给符合API使用第5层级的开发者,尽管最初会有速率限制。


o1-mini功能较弱但便宜80%


与o1-preview同时,OpenAI还推出了o1-mini模型,这是一个更精简的版本,旨在提供更快且更便宜的推理能力。


虽然o1-mini主要针对编程和STEM任务进行了优化,但它在数学和编程领域依然表现出色。


在IMO数学基准测试中,o1-mini得分为70%,几乎与o1-preview的74%持平,同时推理成本显著降低。在编码评估中,它也表现出色,在Codeforces上获得了1650的Elo评分,位于前86%的程序员之列。


与o1-preview相比,o1-mini的价格便宜了80%,它主要面向那些需要推理能力但不需要o1-preview模型所具备的广泛知识的开发者和研究人员。


这一具有成本效益的解决方案也将向ChatGPT Plus、Team、Enterprise和Edu用户开放,未来还计划向ChatGPT Free用户扩展使用权限。


安全性和保障增强


为了遵守OpenAI对安全性的承诺,这两个模型都采用了一种新的安全训练方法,以增强它们遵循安全和对齐准则的能力。


OpenAI指出,o1-preview在其最严苛的越狱测试之一中得分达到了84分,相较于GPT-4o的22分有了显著提升。能够在上下文中推理安全规则,使这些模型更好地处理不安全的提示,避免生成不适当的内容。


作为更广泛安全努力的一部分,OpenAI已与美国和英国的AI安全研究所达成协议。


这些合作包括为研究版本的o1模型提供早期访问权限,以帮助评估和测试未来的AI系统。


OpenAI的安全工作还包括全面的内部治理,并与联邦政府合作,通过定期测试、红队测试以及公司安全与保障委员会的董事会层级监督来加强安全性。


OpenAI的o1系列未来展望


尽管o1-preview和o1-mini模型在推理和问题解决方面已经是强大的工具,OpenAI承认这只是一个开始。


公司计划定期更新和改进这些模型,包括增加API版本当前尚不支持的功能,如浏览、文件和图像上传以及函数调用。


展望未来,OpenAI将继续开发其GPT和o1系列,进一步扩展AI在各个领域的能力。用户可以期待不断的进步,因为公司致力于提高这些模型在不同应用中的实用性和可访问性。


版权声明:本文为企业网D1net编译,转载需在文章开头注明出处为:企业网D1net,如果不注明出处,企业网D1net将保留追究其法律责任的权利。


相关文章
|
2月前
|
人工智能 自然语言处理 测试技术
亚马逊推出AI语音模型新标杆!Nova Sonic:多语言识别错误率仅4.2%,碾压GPT-4o-transcribe
亚马逊推出的Nova Sonic是一款整合语音理解与生成能力的AI模型,支持多语言交互,在LibriSpeech基准测试中平均单词错误率低至4.2%,具备实时双向流式传输能力。
160 5
亚马逊推出AI语音模型新标杆!Nova Sonic:多语言识别错误率仅4.2%,碾压GPT-4o-transcribe
|
1月前
|
人工智能 自然语言处理 安全
💻 Codex 来了:OpenAI 推出多任务软件工程 AI 代理,开发者工作方式将被重塑?
Codex 是 OpenAI 推出的一款云端智能开发代理,基于优化后的 Codex-1 模型,能够执行从代码编写、Bug 修复到 PR 提交的完整工程任务。通过 ChatGPT 的界面,用户可向 Codex 分配任务,它将在独立沙盒中运行并返回结果。Codex 支持多任务异步处理,遵循项目规范(AGENTS.md),并生成日志与测试报告以确保透明性。作为“AI 参与式开发”的里程碑,Codex 不仅提升效率,还可能重塑开发者角色,使他们从具体编码转向指导 AI 完成任务,推动软件工程进入意图驱动的新时代。
148 15
|
2月前
|
人工智能 测试技术 API
PaperBench:OpenAI开源AI智能体评测基准,8316节点精准考核复现能力
PaperBench是OpenAI推出的开源评测框架,通过8316个评分节点系统评估AI智能体复现学术论文的能力,涵盖理论理解、代码实现到实验执行全流程。
170 30
PaperBench:OpenAI开源AI智能体评测基准,8316节点精准考核复现能力
|
2月前
|
人工智能 搜索推荐 开发者
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
OpenAI最新开源的BrowseComp基准包含1266个高难度网络检索问题,覆盖影视、科技、艺术等九大领域,其最新Deep Research模型以51.5%准确率展现复杂信息整合能力,为AI代理的浏览能力评估建立新标准。
125 4
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
|
2月前
|
人工智能 自然语言处理 测试技术
自然语言生成代码一键搞定!Codex CLI:OpenAI开源终端AI编程助手,代码重构+测试全自动
Codex CLI是OpenAI推出的轻量级AI编程智能体,基于自然语言指令帮助开发者高效生成代码、执行文件操作和进行版本控制,支持代码生成、重构、测试及数据库迁移等功能。
252 0
自然语言生成代码一键搞定!Codex CLI:OpenAI开源终端AI编程助手,代码重构+测试全自动
|
3月前
|
Web App开发 人工智能 JavaScript
Nanobrowser:开源版OpenAI Operator!AI自动操控浏览器,复杂网页任务一键搞定
Nanobrowser 是一款开源的 Chrome 扩展工具,基于多智能体系统实现复杂的网页任务自动化,支持多种大型语言模型,完全免费且注重隐私保护。
372 1
|
4月前
|
人工智能
D1net阅闻 | OpenAI进军虚拟助手领域 AI智能体加速迈入商业化阶段
D1net阅闻 | OpenAI进军虚拟助手领域 AI智能体加速迈入商业化阶段
|
4月前
|
人工智能 搜索推荐 机器人
用户破4亿、企业客户翻倍!OpenAI的GPT-5将推进全球AI战争进入白热化阶段!
用户破4亿、企业客户翻倍!OpenAI的GPT-5将推进全球AI战争进入白热化阶段!
|
4月前
|
机器学习/深度学习 人工智能 机器人
AI成本革命:DeepSeek-R1与OpenAI的颠覆性突破重构企业智能新范式
AI成本革命:DeepSeek-R1与OpenAI的颠覆性突破重构企业智能新范式
|
4月前
|
人工智能 算法 机器人
D1net阅闻|OpenAI CEO奥尔特曼:预计第一批AI智能体今年“加入劳动力大军”
D1net阅闻|OpenAI CEO奥尔特曼:预计第一批AI智能体今年“加入劳动力大军”