ChatGPT4

简介: 4.3.3 人类反馈强化微调效果

ChatGPT通过人类反馈强化学习(RLHF)来让模型理解人类的指令。人类反馈强化学习(RLHF)是DeepMind早期提出的,使用少量的人类反馈来解决现代RL任务。RLHF的思想在很多工作中都有体现,例如OpenAI的webGPT、DeepMind中Sparrow等都通过人类的反馈进一步提升大模型的效果。

RLHF整个训练过程如下图所示:
image.png
目标是实现后空翻的任务,智能体Agent在环境中随机行动,每隔一段时间,两个行为的视频片段给一个人,人判断两个视频哪个更接近目标。通过人的反馈数据,学习一个最能解释人类判断的奖励模型Reward Model,然后使用RL来学习如何实现目标。随着人类继续提供模型无法判断时候的反馈,实现了进一步完善它对目标的理解。智能体Agent从人类反馈中学习最终在许多环境中有时甚至是超过人类的表现。

4.4 行动驱动的大语言模型
尽管学术界一直无法真正定义AGI,今年大型语言模型(LLM)的表现让我们对通用人工智能有了期待,通过OpenAI的ChatGPT、Google的PaLM、DeepMind的Sparrow取得的成功,人工智能的未来应该是行动驱动的,一个行动驱动的LLM看起来很像AGI,如下图所示:

image.png
模型的行为就像一个智能体Agent选择行动。在中间,我们有开箱即用的基础模型LLM。用户通过Prompt询问模型结果。

左边是外部可利用的资源,这些可以是任何将文本作为输入并提供文本作为输出的函数,包括搜索、数据库、代码解释器和与人聊天等,它可以增强模型的能力。

右边是我们有任务导向的训练,如instruction tuning、RLHF等。instruction tuning相对好实现,RLHF需要调整PPO算法相对较难。整体上RL利用使用日志等专有数据,通过创建强大的反馈回路,训练模型使其更加符合任务需求并迭代优化。
5 总结与展望
5.1 技术创新:待解决问题和改进
ChatGPT一个问题是只能回答2021年前的问题。模型无法获取近期的知识,将ChatGPT+webGPT结合是一个可以想到的方案。DeepMind提出的Sparrow就是一个参考,Sparrow model针对对话内容模型生成结果并判断是否搜索互联网,以提供更多的正确参考答案,用强化学习算法去优化Sparrow的输出结果。整体流程如下图所示:

image.png
5.2 技术应用:能否取代搜索引擎
应该不会取代,根据目前体验的效果,距离搜索引擎还有很长的路要走,主要基于几个方面。

首先ChatGPT本质是语言模型,当前的训练技术模型不具备或者说很弱的推理能力,一些推理问题比如小学生问题完败。根据当前体验看擅长创作类文案,其他问题经常出现一些事实错误情况。而搜索引擎技术的核心索引、检索和排序是给到用户Top相关性内容,用户自主多了一层推理、对比筛选、总结。

其次目前的ChatGPT不能够回答21年之后的问题,新知识的获取是通过增加标注数据实现。如果要支持获取社会热点新闻等,就需要改变底层技术方案。尽管这个问题WebGPT、Sparrow通过搜索引擎解决,能否替代自己就有了答案。

最后就是成本问题,ChatGPT火的原因之一就是免费体验,之前超大模型GPT3收费模式根本没有产生这么大的反响。商业化一直是大模型的痛,模型效果和模型参数成正比。搜索引擎索引、检索、排序的成本和ChatGPT这种模型计算成本不在一个量级上。

5.3 未来预期:资本市场怎么看
和负责投资和战略的同学聊,近期都在讨论AI。AI赛道无疑是投资界“今年最大的热点之一”。ChatGPT和今年大火的AI绘画都属于泛AIGC领域,AIGC 是继 PGC、UGC 后的新内容生产形态。AI投资人看来,从语音、文字、图像的内容生成都将出现增长,而对话可能是其中最重要的杀手级应用。根据 Gartner 预计,到 2025 年,生成式人工智能将占所有生成数据的 10%,而当前占比小于 1%。

回顾一下OpenAI,作为AIGC顶级技术公司已经做了不少商业化的尝试,通过API方式来推动GPT-3的技术商业化,将GPT3作为一项付费服务来推广。Codex也是已经商业化的产品。GPT-3历经两年商业化尝试,如今并未取代记者编辑或码农的职业生涯,OpenAI也从中发现,将GPT系列作为辅助生产力工具对商业化更为合适。此次ChatGPT采取免费试用可能是OpenAI准备继续打磨这款产品,根据用户的反馈帮助模型改进从而作出更恰当的反应。等产品打磨好可能为GPT-4商业化铺路。

回顾国内行业巨头和高校科研机构大规模预训练模型军备竞赛一直持续。百度发布了产业级知识增强大模型“文心”(参数规模达2600亿),并基于“文心”模型形成了产业全景图。华为联合鹏程实验室发布“盘古”大模型,阿里巴巴达摩院发布的中文语言模型 PLUG。智源人工智能研究院的超大规模预训练模型“悟道”(悟道2.0参数规模达1.75万亿)。回顾国内创业公司,根据睿兽分析显示2022年以来大规模预训练模型赛道出现多笔融资,其中不乏联想创投、君联资本、启明创投、创新工场等知名投资机构。澜舟科技、聆心智能、小冰等这些企业均将商业落地作为融资后的发力重点。

2022 年以来 AIGC 应用多点开花,伴随着深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能,AIGC 有望加速发展,让人们对通用人工智能有了更多的期待。

相关文章
|
6月前
|
搜索推荐 UED
ChatGPT的推理过程
【1月更文挑战第8天】ChatGPT的推理过程
146 3
ChatGPT的推理过程
|
1月前
|
机器学习/深度学习 搜索推荐
ChatGPT的结果是如何生成的
ChatGPT的结果是如何生成的
|
2月前
|
Web App开发 JavaScript 前端开发
ChatGPT与其他
ChatGPT与其他
24 3
|
2月前
|
Linux 调度
Schedutil 【ChatGPT】
Schedutil 【ChatGPT】
|
2月前
|
存储 安全 API
VFIO【ChatGPT】
VFIO【ChatGPT】
|
2月前
|
Web App开发 前端开发 Shell
控制组 【ChatGPT】
控制组 【ChatGPT】
|
2月前
|
缓存 负载均衡 Shell
CPUSETS 【ChatGPT】
CPUSETS 【ChatGPT】
|
2月前
|
缓存 算法 Linux
hwpoison 【ChatGPT】
hwpoison 【ChatGPT】
|
人工智能 程序员
Chatgpt可以帮我做的66件事情
Chatgpt可以帮我做的66件事情
179 0
|
机器学习/深度学习 自然语言处理 安全
ChatGPT简单介绍:
ChatGPT简单介绍:
295 0
下一篇
无影云桌面