忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级

简介: 忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级

本文来源:企业网D1net


OpenAI发布全新o1系列AI模型,取代此前的GPT系列,旨在解决复杂的科学、医疗和技术问题。o1-preview和o1-mini两款模型已上线,专为生成数学公式、注释数据和编程调试等任务而优化。o1-preview在国际数学奥林匹克竞赛中的表现显著优于GPT-4,达到83%的解题率,o1-mini则提供80%的成本优势,适用于开发者和研究人员。未来,OpenAI将进一步增强这些模型的功能,包括支持文件和图像上传等特性,同时加强安全性和合规性。


自从OpenAI于2023年3月推出其强大的专有大型语言模型GPT-4 —— 即 18 个月前 —— 以来,用户和开发者们一直在猜测,这家在硅谷及全球掀起GenAI热潮的公司何时会推出下一个版本,预计将命名为GPT-5。


然而,事实证明,GPT系列暂时被一整个全新模型家族所超越。


今天,经过数月的报道和传闻,尤其是在最近几天愈加激烈的讨论后,OpenAI 宣布推出其“o1” AI模型家族,首批包含两个模型:o1-preview和o1-mini。公司表示,这些模型旨在“推理复杂任务并解决比GPT系列更难的问题”。


这两个模型现已向ChatGPT Plus用户开放,但最初限制为每周o1-preview只能发送30条消息,o1-mini则为50条。


然而,OpenAI 也提醒用户:“作为一个早期模型,它还没有许多使 ChatGPT 实用的功能,例如通过网络浏览信息和上传文件及图片。在许多常见情况下,GPT-4o 在短期内仍然更为强大。”


的确,我们在最初的测试中尝试让其为这篇文章生成图片时发现它无法完成。在 OpenAI 的 API 平台网站上,公司明确表示,这个模型家族在测试阶段仅支持“文本内容,暂不支持图片”。


o1系列在GPT模型上的优势


OpenAI 声称其新的 o1 系列特别适合于在科学、医疗保健和技术等领域处理复杂问题的用户。


OpenAI 设想这些模型将被广泛应用,从帮助物理学家为量子光学生成数学公式,到协助医疗研究人员为细胞测序数据做标注。


开发者也会发现 o1-mini 模型在构建和执行多步骤工作流、调试代码以及高效解决编程挑战方面颇具成效。


o1-preview的表现达到博士生水平


o1-preview 模型旨在通过花更多时间思考和优化响应来处理挑战性任务,类似于人类面对复杂问题时的应对方式。


在测试中,这种方法使该模型在物理学、化学和生物学等领域的表现接近博士生水平。此外,o1-preview 模型在编程方面表现优异,在 Codeforces 编程比赛中排名第 89 百分位,展现了其处理多步骤工作流、调试复杂代码和生成准确解决方案的能力。


在国际数学奥林匹克竞赛 (IMO) 预选考试等基准测试中,o1-preview 展示了其卓越能力,成功解决了 83% 的问题,显著超越其前任 GPT-4o 仅 13% 的成功率。


它已经向ChatGPT的Plus和Team用户开放使用,Enterprise和Edu用户将在下周获得访问权限。该模型也通过OpenAI API提供给符合API使用第5层级的开发者,尽管最初会有速率限制。


o1-mini功能较弱但便宜80%


与o1-preview同时,OpenAI还推出了o1-mini模型,这是一个更精简的版本,旨在提供更快且更便宜的推理能力。


虽然o1-mini主要针对编程和STEM任务进行了优化,但它在数学和编程领域依然表现出色。


在IMO数学基准测试中,o1-mini得分为70%,几乎与o1-preview的74%持平,同时推理成本显著降低。在编码评估中,它也表现出色,在Codeforces上获得了1650的Elo评分,位于前86%的程序员之列。


与o1-preview相比,o1-mini的价格便宜了80%,它主要面向那些需要推理能力但不需要o1-preview模型所具备的广泛知识的开发者和研究人员。


这一具有成本效益的解决方案也将向ChatGPT Plus、Team、Enterprise和Edu用户开放,未来还计划向ChatGPT Free用户扩展使用权限。


安全性和保障增强


为了遵守OpenAI对安全性的承诺,这两个模型都采用了一种新的安全训练方法,以增强它们遵循安全和对齐准则的能力。


OpenAI指出,o1-preview在其最严苛的越狱测试之一中得分达到了84分,相较于GPT-4o的22分有了显著提升。能够在上下文中推理安全规则,使这些模型更好地处理不安全的提示,避免生成不适当的内容。


作为更广泛安全努力的一部分,OpenAI已与美国和英国的AI安全研究所达成协议。


这些合作包括为研究版本的o1模型提供早期访问权限,以帮助评估和测试未来的AI系统。


OpenAI的安全工作还包括全面的内部治理,并与联邦政府合作,通过定期测试、红队测试以及公司安全与保障委员会的董事会层级监督来加强安全性。


OpenAI的o1系列未来展望


尽管o1-preview和o1-mini模型在推理和问题解决方面已经是强大的工具,OpenAI承认这只是一个开始。


公司计划定期更新和改进这些模型,包括增加API版本当前尚不支持的功能,如浏览、文件和图像上传以及函数调用。


展望未来,OpenAI将继续开发其GPT和o1系列,进一步扩展AI在各个领域的能力。用户可以期待不断的进步,因为公司致力于提高这些模型在不同应用中的实用性和可访问性。


版权声明:本文为企业网D1net编译,转载需在文章开头注明出处为:企业网D1net,如果不注明出处,企业网D1net将保留追究其法律责任的权利。


相关文章
|
8月前
|
人工智能 API 开发者
Dify x AiOnly平台:手把手教你调用GPT-5从零构建AI工作流!
本文介绍如何通过Dify与AiOnly平台,快速构建基于GPT-5等顶尖大模型的AI应用。涵盖环境部署、模型接入、工作流编排及实战案例,助力开发者低门槛打造专属聊天机器人,轻松实现AI应用落地。(238字)
|
8月前
|
人工智能 自然语言处理 API
快速集成GPT-4o:下一代多模态AI实战指南
快速集成GPT-4o:下一代多模态AI实战指南
627 101
|
9月前
|
机器学习/深度学习 人工智能 PyTorch
GPT为定制AI应用工程师转型第一周学习计划
本计划帮助开发者快速入门AI领域,首周涵盖AI基础理论、Python编程及PyTorch实战。前两天学习机器学习、深度学习与Transformer核心概念,掌握LLM工作原理。第三至四天快速掌握Python语法与Jupyter使用,完成基础编程任务。第五至七天学习PyTorch,动手训练MNIST手写识别模型,理解Tensor操作与神经网络构建。
447 0
|
10月前
|
机器学习/深度学习 人工智能 编解码
智谱AI发布新版VLM开源模型GLM-4.1V-9B-Thinking,引入思考范式,性能提升8倍
视觉语言大模型(VLM)已经成为智能系统的关键基石。
1540 0
|
8月前
|
人工智能 运维 安全
从被动防御到主动免疫进化!迈格网络 “天机” AI 安全防护平台,助推全端防护性能提升
迈格网络推出“天机”新版本,以AI自学习、全端防护、主动安全三大核心能力,重构网络安全防线。融合AI引擎与DeepSeek-R1模型,实现威胁预测、零日防御、自动化响应,覆盖Web、APP、小程序全场景,助力企业从被动防御迈向主动免疫,护航数字化转型。
从被动防御到主动免疫进化!迈格网络 “天机” AI 安全防护平台,助推全端防护性能提升
|
8月前
|
人工智能 数据可视化 前端开发
AI Ping:精准可靠的大模型服务性能评测平台
AI Ping是清华系团队推出的“大模型服务评测平台”,被誉为“AI界的大众点评”。汇聚230+模型服务,7×24小时监测性能数据,以吞吐量、延迟等硬指标助力开发者科学选型。界面简洁,数据可视化强,支持多模型对比,横向对标国内外主流平台,为AI应用落地提供权威参考。
2158 3
|
9月前
|
人工智能 编解码 安全
阿里云服务器上新,第9代AMD企业级实例g9ae,提升企业AI业务创新与性能突破
近日,阿里云推出的服务器ECS第9代AMD企业级实例-g9ae实例已开启邀测阶段,g9ae实例基于CIPU 2.0架构,搭载AMD Turin处理器,为国内首创物理核设计的“性能旗舰型”算力产品,专为AI时代企业离线数据处理打造。本文为大家介绍g9ae实例的性能及适用场景,以供了解与参考。
|
10月前
|
存储 人工智能 API
AI代理性能提升实战:LangChain+LangGraph内存管理与上下文优化完整指南
在AI代理系统开发中,上下文工程成为提升系统性能的关键技术。本文探讨了从提示工程到上下文工程的转变,强调其通过为AI系统提供背景信息和工具支持,显著提升智能化程度和实用价值。文章系统分析了上下文工程的理论基础、核心策略(如写入、选择、压缩和隔离),并结合LangChain和LangGraph工具,展示了如何实现上下文工程技术以优化AI代理性能。通过Scratchpad机制、内存管理、RAG系统集成、多代理架构及沙盒环境等技术手段,开发者可以更高效地构建高性能、可扩展的AI系统。
1455 0
AI代理性能提升实战:LangChain+LangGraph内存管理与上下文优化完整指南
|
人工智能 测试技术 API
PaperBench:OpenAI开源AI智能体评测基准,8316节点精准考核复现能力
PaperBench是OpenAI推出的开源评测框架,通过8316个评分节点系统评估AI智能体复现学术论文的能力,涵盖理论理解、代码实现到实验执行全流程。
908 30
PaperBench:OpenAI开源AI智能体评测基准,8316节点精准考核复现能力