忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级

简介: 忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级

本文来源:企业网D1net


OpenAI发布全新o1系列AI模型,取代此前的GPT系列,旨在解决复杂的科学、医疗和技术问题。o1-preview和o1-mini两款模型已上线,专为生成数学公式、注释数据和编程调试等任务而优化。o1-preview在国际数学奥林匹克竞赛中的表现显著优于GPT-4,达到83%的解题率,o1-mini则提供80%的成本优势,适用于开发者和研究人员。未来,OpenAI将进一步增强这些模型的功能,包括支持文件和图像上传等特性,同时加强安全性和合规性。


自从OpenAI于2023年3月推出其强大的专有大型语言模型GPT-4 —— 即 18 个月前 —— 以来,用户和开发者们一直在猜测,这家在硅谷及全球掀起GenAI热潮的公司何时会推出下一个版本,预计将命名为GPT-5。


然而,事实证明,GPT系列暂时被一整个全新模型家族所超越。


今天,经过数月的报道和传闻,尤其是在最近几天愈加激烈的讨论后,OpenAI 宣布推出其“o1” AI模型家族,首批包含两个模型:o1-preview和o1-mini。公司表示,这些模型旨在“推理复杂任务并解决比GPT系列更难的问题”。


这两个模型现已向ChatGPT Plus用户开放,但最初限制为每周o1-preview只能发送30条消息,o1-mini则为50条。


然而,OpenAI 也提醒用户:“作为一个早期模型,它还没有许多使 ChatGPT 实用的功能,例如通过网络浏览信息和上传文件及图片。在许多常见情况下,GPT-4o 在短期内仍然更为强大。”


的确,我们在最初的测试中尝试让其为这篇文章生成图片时发现它无法完成。在 OpenAI 的 API 平台网站上,公司明确表示,这个模型家族在测试阶段仅支持“文本内容,暂不支持图片”。


o1系列在GPT模型上的优势


OpenAI 声称其新的 o1 系列特别适合于在科学、医疗保健和技术等领域处理复杂问题的用户。


OpenAI 设想这些模型将被广泛应用,从帮助物理学家为量子光学生成数学公式,到协助医疗研究人员为细胞测序数据做标注。


开发者也会发现 o1-mini 模型在构建和执行多步骤工作流、调试代码以及高效解决编程挑战方面颇具成效。


o1-preview的表现达到博士生水平


o1-preview 模型旨在通过花更多时间思考和优化响应来处理挑战性任务,类似于人类面对复杂问题时的应对方式。


在测试中,这种方法使该模型在物理学、化学和生物学等领域的表现接近博士生水平。此外,o1-preview 模型在编程方面表现优异,在 Codeforces 编程比赛中排名第 89 百分位,展现了其处理多步骤工作流、调试复杂代码和生成准确解决方案的能力。


在国际数学奥林匹克竞赛 (IMO) 预选考试等基准测试中,o1-preview 展示了其卓越能力,成功解决了 83% 的问题,显著超越其前任 GPT-4o 仅 13% 的成功率。


它已经向ChatGPT的Plus和Team用户开放使用,Enterprise和Edu用户将在下周获得访问权限。该模型也通过OpenAI API提供给符合API使用第5层级的开发者,尽管最初会有速率限制。


o1-mini功能较弱但便宜80%


与o1-preview同时,OpenAI还推出了o1-mini模型,这是一个更精简的版本,旨在提供更快且更便宜的推理能力。


虽然o1-mini主要针对编程和STEM任务进行了优化,但它在数学和编程领域依然表现出色。


在IMO数学基准测试中,o1-mini得分为70%,几乎与o1-preview的74%持平,同时推理成本显著降低。在编码评估中,它也表现出色,在Codeforces上获得了1650的Elo评分,位于前86%的程序员之列。


与o1-preview相比,o1-mini的价格便宜了80%,它主要面向那些需要推理能力但不需要o1-preview模型所具备的广泛知识的开发者和研究人员。


这一具有成本效益的解决方案也将向ChatGPT Plus、Team、Enterprise和Edu用户开放,未来还计划向ChatGPT Free用户扩展使用权限。


安全性和保障增强


为了遵守OpenAI对安全性的承诺,这两个模型都采用了一种新的安全训练方法,以增强它们遵循安全和对齐准则的能力。


OpenAI指出,o1-preview在其最严苛的越狱测试之一中得分达到了84分,相较于GPT-4o的22分有了显著提升。能够在上下文中推理安全规则,使这些模型更好地处理不安全的提示,避免生成不适当的内容。


作为更广泛安全努力的一部分,OpenAI已与美国和英国的AI安全研究所达成协议。


这些合作包括为研究版本的o1模型提供早期访问权限,以帮助评估和测试未来的AI系统。


OpenAI的安全工作还包括全面的内部治理,并与联邦政府合作,通过定期测试、红队测试以及公司安全与保障委员会的董事会层级监督来加强安全性。


OpenAI的o1系列未来展望


尽管o1-preview和o1-mini模型在推理和问题解决方面已经是强大的工具,OpenAI承认这只是一个开始。


公司计划定期更新和改进这些模型,包括增加API版本当前尚不支持的功能,如浏览、文件和图像上传以及函数调用。


展望未来,OpenAI将继续开发其GPT和o1系列,进一步扩展AI在各个领域的能力。用户可以期待不断的进步,因为公司致力于提高这些模型在不同应用中的实用性和可访问性。


版权声明:本文为企业网D1net编译,转载需在文章开头注明出处为:企业网D1net,如果不注明出处,企业网D1net将保留追究其法律责任的权利。


相关文章
|
21天前
|
机器学习/深度学习 人工智能
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。
62 10
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
|
20天前
|
人工智能 编解码 机器人
OpenAI又出王炸了!正式推出超强AI视频模型Sora
OpenAI正式推出AI视频生成模型Sora,可根据文本提示生成逼真视频,面向美国及其他市场ChatGPT付费用户开放。Sora Turbo支持生成长达20秒的视频及多种变体,具备模拟物理世界的新兴能力,可创建多镜头视频,提供Remix和Storyboard等创新功能。
48 4
OpenAI又出王炸了!正式推出超强AI视频模型Sora
|
7天前
|
人工智能 安全 机器人
OpenAI重拾规则系统,用AI版机器人定律守护大模型安全
在人工智能领域,大语言模型(LLM)展现出强大的语言理解和生成能力,但也带来了安全性和可靠性挑战。OpenAI研究人员提出“规则基于奖励(RBR)”方法,通过明确规则引导LLM行为,确保其符合人类价值观和道德准则。实验显示,RBR方法在安全性与有用性之间取得了良好平衡,F1分数达97.1。然而,规则制定和维护复杂,且难以完全捕捉语言的多样性。论文:https://arxiv.org/pdf/2411.01111。
47 13
|
20天前
|
数据采集 人工智能 数据可视化
InternVL 2.5,首个MMMU超过70%的开源模型,性能媲美GPT-4o
近期Internvl2.5发布,性能与GPT-4o和Claude-3.5-sonnet等领先的商业模型相媲美,成为首个在MMMU上超过70%的开源模型,通过链式思考(CoT)推理实现了3.7个百分点的提升,展示了强大的测试时间可扩展性潜力。
|
5天前
|
人工智能 安全 开发者
OpenAI o1强推理能提升安全性?长对话诱导干翻o1
最近,一项名为《Derail Yourself: Multi-turn LLM Jailbreak Attack through Self-discovered Clues》的研究揭示了大型语言模型(LLM)在多轮交互中的安全漏洞。该研究提出了一种基于行动者网络理论的新型攻击方法ActorAttack,通过构建语义相关行动者网络,生成多样化攻击路径,隐藏有害意图并利用LLM知识发现通向有害目标的路径。研究表明,ActorAttack在多轮攻击中表现优于现有方法,引发了对LLM安全性的担忧。研究团队计划发布SafeMTData数据集,以帮助训练更安全的LLM,并强调跨学科合作的重要性。
26 8
|
4天前
|
人工智能 自然语言处理 机器人
OpenAI推出具有图像上传和分析功能的完整o1模型,并首次推出ChatGPT Pro
OpenAI推出具有图像上传和分析功能的完整o1模型,并首次推出ChatGPT Pro
|
9天前
|
人工智能 自然语言处理 前端开发
openai 12天发布会收官 | AI大咖说
OpenAI这12天的发布会,并没有太多特别令人惊喜的内容,可能是前面的惊喜太多了。更多的是,让ChatGPT越来越侧重参与现实中的应用,真正赋能改变生活,包括projects项目管理,canvas文档写作,接入电话,接入ios,接入桌面,接入搜索,以及chatGPT桌面和更多应用的交互。 以及更多的多模态的延展,视觉vision,语音,视频sora。 在最后收官中,宣布新一代的O3和O3-mini更强的推理模型
99 11
|
4天前
|
人工智能 搜索推荐 iOS开发
OpenAI推出适用于iPhone的ChatGPT,与Apple实现具有里程碑意义的AI整合
OpenAI推出适用于iPhone的ChatGPT,与Apple实现具有里程碑意义的AI整合
|
16天前
|
人工智能 自然语言处理 前端开发
OpenAI 12天发布会全解析 | AI大咖说
OpenAI近日宣布将在12个工作日内每天进行一场直播,展示一系列新产品和样品。首日推出GPT-o1正式版,性能大幅提升;次日展示Reinforcement Fine-Tuning技术,提高模型决策质量;第三天推出Sora,实现高质量视频生成;第四天加强Canvas,提升多模态创作效率;第五天发布ChatGPT扩展功能,增强灵活性;第六天推出ChatGPT Vision,实现多模态互动;第七天推出ChatGPT Projects,优化项目管理。这些新技术正改变我们的生活和工作方式。
797 9
|
12天前
|
机器学习/深度学习 人工智能 负载均衡
利用AI智能分析代理IP流量:提升网站性能的新策略
在数字时代,网站性能至关重要。代理IP技术广泛应用于突破地域限制、保护隐私和优化访问速度,但也带来了服务器负担加重和安全风险。AI智能分析代理IP流量成为有效策略,通过精准识别、动态调整和预测分析,提升网站性能和安全性。案例显示,某电商平台通过AI智能分析成功提升了访问速度和安全性,用户满意度显著提高。未来,AI技术将进一步优化代理IP应用,助力网站发展。
41 5

热门文章

最新文章