GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结了?(3)

简介: GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结了?

局限性

尽管功能已经非常强大,但 GPT-4 仍与早期的 GPT 模型具有相似的局限性,其中最重要的一点是它仍然不完全可靠。OpenAI 表示,GPT-4 仍然会产生幻觉、生成错误答案,并出现推理错误。

目前,使用语言模型应谨慎审查输出内容,必要时使用与特定用例的需求相匹配的确切协议(例如人工审查、附加上下文或完全避免使用) 。

总的来说,GPT-4 相对于以前的模型(经过多次迭代和改进)已经显著减轻了幻觉问题。在 OpenAI 的内部对抗性真实性评估中,GPT-4 的得分比最新的 GPT-3.5 模型高 40%:

GPT-4 在 TruthfulQA 等外部基准测试方面也取得了进展,OpenAI 测试了模型将事实与错误陈述的对抗性选择区分开的能力,结果如下图所示。

实验结果表明,GPT-4 基本模型在此任务上仅比 GPT-3.5 略好;然而,在经过 RLHF 后训练之后,二者的差距就很大了。以下是 GPT-4 的测试示例 —— 并不是所有时候它都能做出正确的选择。

该模型在其输出中可能会有各种偏见,OpenAI 在这些方面已经取得了进展,目标是使建立的人工智能系统具有合理的默认行为,以反映广泛的用户价值观。

GPT-4 通常缺乏对其绝大部分数据截止后(2021 年 9 月)发生的事件的了解,也不会从其经验中学习。它有时会犯一些简单的推理错误,这似乎与这么多领域的能力不相符,或者过于轻信用户的明显虚假陈述。有时它也会像人类一样在困难的问题上失败,比如在它生成的代码中引入安全漏洞。

GPT-4 预测时也可能出错但很自信,意识到可能出错时也不会 double-check。有趣的是,基础预训练模型经过高度校准(其对答案的预测置信度通常与正确概率相匹配)。然而,通过 OpenAI 目前的后训练(post-training)过程,校准减少了。

风险及缓解措施

OpenAI 表示,研究团队一直在对 GPT-4 进行迭代,使其从训练开始就更加安全和一致,所做的努力包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监测和执行。

GPT-4 有着与以前的模型类似的风险,如产生有害的建议、错误的代码或不准确的信息。同时,GPT-4 的额外能力导致了新的风险面。为了了解这些风险的程度,团队聘请了 50 多位来自人工智能对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家,对该模型在高风险领域的行为进行对抗性测试。这些领域需要专业知识来评估,来自这些专家的反馈和数据为缓解措施和模型的改进提供了依据。

预防风险

按照 demo 视频里 OpenAI 工程师们的说法,GPT-4 的训练在去年 8 月完成,剩下的时间都在进行微调提升,以及最重要的去除危险内容生成的工作。

GPT-4 在 RLHF 训练中加入了一个额外的安全奖励信号,通过训练模型拒绝对此类内容的请求来减少有害的输出。奖励是由 GPT-4 的零样本分类器提供的,它判断安全边界和安全相关 prompt 的完成方式。为了防止模型拒绝有效的请求,团队从各种来源(例如,标注的生产数据、人类的红队、模型生成的 prompt)收集多样化的数据集,在允许和不允许的类别上应用安全奖励信号(有正值或负值)。

这些措施大大在许多方面改善了 GPT-4 的安全性能。与 GPT-3.5 相比,模型对不允许内容的请求的响应倾向降低了 82%,而 GPT-4 对敏感请求(如医疗建议和自我伤害)的响应符合政策的频率提高了 29%。

训练过程

与之前的 GPT 模型一样,GPT-4 基础模型经过训练可以预测文档中的下一个单词。OpenAI 使用公开可用的数据(例如互联网数据)以及已获得许可的数据进行训练。训练数据是一个网络规模的数据语料库,包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述,以及各种各样的意识形态和想法。

因此,当提出问题时,基础模型的回应可能与用户的意图相去甚远。为了使其与用户意图保持一致,OpenAI 依然使用强化学习人类反馈 (RLHF) 来微调模型的行为。请注意,该模型的能力似乎主要来自预训练过程 ——RLHF 不会提高考试成绩(甚至可能会降低它)。但是模型的控制来自后训练过程 —— 基础模型甚至需要及时的工程设计来回答问题。

GPT-4 的一大重点是建立了一个可预测扩展的深度学习栈。主要原因是,对于像 GPT-4 这样的大型训练,进行广泛的特定模型调整是不可行的。团队开发了基础设施和优化,在多种规模下都有可预测的行为。为了验证这种可扩展性,他们提前准确地预测了 GPT-4 在内部代码库(不属于训练集)上的最终损失,方法是通过使用相同的方法训练的模型进行推断,但使用的计算量为 1/10000。

现在,OpenAI 可以准确地预测在训练过程中优化的指标(损失)。例如从计算量为 1/1000 的模型中推断并成功地预测了 HumanEval 数据集的一个子集的通过率:

有些能力仍然难以预测。例如,Inverse Scaling 竞赛旨在找到一个随着模型计算量的增加而变得更糟的指标,而 hindsight neglect 任务是获胜者之一。GPT-4 扭转了这一趋势。

能够准确预测未来的机器学习能力对于技术安全来说至关重要,但它并没有得到足够的重视,OpenAI 表示正在投入更多精力开发相关方法,并呼吁业界共同努力。

OpenAI 表示正在开源 OpenAI Evals 软件框架,它被用于创建和运行基准测试以评估 GPT-4 等模型,同时可以逐样本地检查模型性能。

ChatGPT 直接升级至 GPT-4 版

GPT-4 发布后,OpenAI 直接升级了 ChatGPT。ChatGPT Plus 订阅者可以在 chat.openai.com 上获得具有使用上限的 GPT-4 访问权限。

要访问 GPT-4 API(它使用与 gpt-3.5-turbo 相同的 ChatCompletions API),用户可以注册等待。OpenAI 会邀请部分开发者体验。

获得访问权限后,用户目前可以向 GPT-4 模型发出纯文本请求(图像输入仍处于有限的 alpha 阶段)。至于价格方面,定价为每 1k 个 prompt token 0.03 美元,每 1k 个 completion token 0.06 美元。默认速率限制为每分钟 40k 个 token 和每分钟 200 个请求。

GPT-4 的上下文长度为 8,192 个 token。OpenAI 还提供了 32,768 个 token 上下文(约 50 页文本)版本的有限访问,该版本也将随着时间自动更新(当前版本 gpt-4-32k-0314,也支持到 6 月 14 日)。定价为每 1K prompt token 0.06 美元和每 1k completion token 0.12 美元。


以上,就是今天 OpenAI 关于 GPT-4 的所有内容了。令人不满的一点是,OpenAI 公开的技术报告中,不包含任何关于模型架构、硬件、算力等方面的更多信息,可以说是很不 Open 了。

不管怎样,迫不及待的用户大概已经开始测试体验了吧。

最后,也想问一下读者,看完 GPT-4 的发布,你有何感想。

参考内容:https://openai.com/product/gpt-4

相关文章
|
5月前
|
机器学习/深度学习 人工智能 并行计算
DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍
DeepSpeed Chat 是一款革命性的平台,专为简化和加速类ChatGPT模型的训练而设计。通过一键式脚本,用户可以轻松完成从预训练模型到生成自定义ChatGPT模型的全过程。该系统复刻了InstructGPT的RLHF训练方法,并集成了一系列优化技术,如DeepSpeed Hybrid Engine,大幅提升了训练效率和经济性。使用DeepSpeed Chat,即使是拥有数千亿参数的大模型,也能在短时间内完成训练,且成本显著降低。无论是单GPU还是多GPU集群环境,DeepSpeed Chat都能提供卓越的性能和易用性,让RLHF训练变得更加普及。
DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍
|
6月前
|
数据采集 自然语言处理 监控
大模型微调使GPT3成为了可以聊天发布指令的ChatGPT
正是通过微调大模型使得GPT3成为了可以聊天发布指令的ChatGPT。聊天大模型在通用大模型的基础上加一层微调就实现人人能用的大模型,使得通用大模型的能力被更多人使用和了解。
96 4
大模型微调使GPT3成为了可以聊天发布指令的ChatGPT
|
5月前
|
算法 搜索推荐 机器人
【ChatGPT】参加计算机科学考试(GPT-4对比GPT-3.5)
【ChatGPT】参加计算机科学考试(GPT-4对比GPT-3.5)
77 0
|
7月前
|
人工智能 搜索推荐 机器人
OpenAI 将向企业开放 GPT-4o 模型定制版,国内怎么使用ChatGPT?
OpenAI新推功能让企业客户能定制GPT-4o模型,通过微调技术满足特定需求和业务场景,以前所未有的方式优化AI投资回报。企业上传自有数据后,可在一到两小时内完成模型定制,如滑板公司打造专业客服聊天机器人解答详细问题,大幅提升服务针对性与客户体验。目前定制限于文本数据,但仍显著增强了企业应用AI的灵活性与效率。
188 2
OpenAI 将向企业开放 GPT-4o 模型定制版,国内怎么使用ChatGPT?
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
让非算法同学也能了解 ChatGPT 等相关大模型
让非算法同学也能了解 ChatGPT 等相关大模型
让非算法同学也能了解 ChatGPT 等相关大模型
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型】ChatGPT模型原理介绍(下)
【AI大模型】ChatGPT模型原理介绍(下)
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型】ChatGPT模型原理介绍(上)
【AI大模型】ChatGPT模型原理介绍(上)
|
7月前
|
机器学习/深度学习 人工智能 算法
为什么ChatGPT等AI大模型都是基于Python开发?
为什么ChatGPT等AI大模型都是基于Python开发?
158 0
|
7月前
|
自然语言处理 iOS开发 开发者
ChatGPT 等相关大模型问题之大模型提升开发效率如何解决
ChatGPT 等相关大模型问题之大模型提升开发效率如何解决
|
8月前
|
存储 SQL 数据库
Python 金融编程第二版(GPT 重译)(四)(4)
Python 金融编程第二版(GPT 重译)(四)
77 3

热门文章

最新文章