人工智能原理概述 - ChatGPT 背后的故事8

简介: 4.3 训练过程虽然经过上述过程,ChatGPT已经可以自主的组织句子回答了。但如果没有适当的指导,该模型也可能生成不真实或者负面的输出。

image.png
为了使模型更安全,并能够以聊天机器人的方式提问和回答。该模型经过进一步的微调后,成为目前 ChatGPT 中使用的版本。微调是将不太符合人类价值观的模型,转变为可控的 ChatGPT。微调模型的这个过程称为人类反馈强化训练(RLHF)。image.png
OpenAI 解释了他们如何在模型上运行RLHF,使用 RLHF 微调 GPT 3.5 就像提高厨师的技能,使他们的菜肴更加美味。
最初,厨师接受了大量食谱和烹饪技术数据集的培训。然而,有时厨师不知道要根据客户定制要求制作那道菜。为了帮助解决这个问题,我们收集真实用户反馈来创建新的数据集。第一步是创建比较数据集,我们要求厨师根据给定要求准备多种菜肴,然后让人们根据口味和外观对菜肴进行排名。这有助于厨师了解顾客喜欢那些菜肴。
下一步是奖励建模,厨师利用这些反馈创建奖励模型,就像了解顾客偏好的指南。奖励越高,菜品越好。接下来,我们使用PPO(即临近策略优化)训练模型,在这个类比中,厨师在遵循奖励模型的同时练习制作菜肴。他们使用一种称为“近端策略优化”的技术来提高他们的技能。这就像厨师将他们当前的菜肴与略有不同的版本进行比较,并根据奖励模型了解那一个更好。
这个过程会重复几次,厨师会根据最新的客户反馈来完善他们的技能。通过每次迭代,厨师都会更好地准备满足顾客喜好的菜肴。从另一个角度看,GPT-3.5 通过收集人们的反馈、根据他们的偏好创建奖励模型,然后使用 PPO 迭代改进模型性能,对 RLHF 进行了微调。这使得GPT-3.5能够针对特定用户请求生成更好的响应。

4.4 Prompt
通过 GPT 训练员针对它的教导后,我们就可以使用 ChatGPT 了。但由于基于大语言模型的 GPT 参数过于繁杂,其实准确表达出我们需求也是非常关键的。也就是说,想要更好的和 AI 进行对话,就需要 Prompt “语言”。现在网上有很多教程教会大家,如何能更高效的使用 Prompt 和 AI 沟通。
image.png
下图就是 Prompt 的具体逻辑,其实就是描述的越准确,ChatGPT 就会给你的越精准。image.png
从概念上说,Prompt 就像输入给ChatGPT模型并返回输出一样简单。事实上,情况要复杂一些。首先 ChatGPT 了解聊天对话上下文,这是通过每次输入新提示时 ChatGPT UI 向模型提供整个对话来完成的。image.png
这称为会话 Prompt 注入,这就是ChatGPT具有上下文感知能力的方式。

其次,ChatGPT包括隐含的 Prompt 内容,这些是在用户提示之前和之后注入的指令,用于指导模型使用对话语气。这些提示对于用户来说是不可见的。比如,它会事先分析你的输入是什么语气的,什么语言等等。
image.png
生成的结果也可能会在返回给用户之前传递给审核APIimage.png
创建ChatGPT使用的模型需要进行大量工程设计,其背后的技术不断发展,为新的可能性打开了大门,并重塑了我们的沟通方式。ChatGPT 正在彻底改变软件开发人员的工作方式,展示它如何增强我们的日常任务并提高效率。为了不落后,我们应当了解,如何利用ChatGPT的强大功能,并在这个快速发展的软件开发世界中保持领先地位。
五、总结
在历史上发生了几次工业革命,每一次工业革命都是以科学的突破和根技术的发展为基础的。例如第一次工业革命,18世纪牛顿经典力学和热力学出现了突破。瓦特改良了蒸汽机,带领人类走进了蒸汽时代,他让英国成为日不落帝国。19世纪末20世纪初,法拉第发现了电磁感应现象,麦克斯韦阐述了电磁波原理。人类发明了发电机,电动机和无线电通讯。这就是第二次工业革命,他让美国成为了世界第一强国。20世纪中叶,因为电子技术计算机技术发展,人类迅速进入了电子时代,这就是第三次工业革命。日本抓住了这个机会,迅速从战争的阴影中走了出来,成为世界最发达国家俱乐的一员。前三次工业革命中国都没赶上,而现在世界正处于无线互联网、人工智能、新能源和生物科技为代表的第四次工业革命当中。这一次中国人没有缺席,无论是5G还是人工智能,亦或是新能源或者生物科技。中国的科学家和工程师用了二十多年实现了追赶,在很多新科学和新技术方面,走在了世界的前列。

相关文章
|
22天前
|
人工智能 自然语言处理 前端开发
基于ChatGPT开发人工智能服务平台
### 简介 ChatGPT 初期作为问答机器人,现已拓展出多种功能,如模拟面试及智能客服等。模拟面试功能涵盖个性化问题生成、实时反馈等;智能客服则提供全天候支持、多渠道服务等功能。借助人工智能技术,这些应用能显著提升面试准备效果及客户服务效率。 ### 智能平台的使用价值 通过自动化流程,帮助用户提升面试准备效果及提高客户服务效率。 ### 实现思路 1. **需求功能设计**:提问与接收回复。 2. **技术架构设计**:搭建整体框架。 3. **技术选型**:示例采用 `Flask + Template + HTML/CSS`。 4. **技术实现**:前端界面与后端服务实现。
37 1
|
2月前
|
人工智能
最近很火的人工智能ChatGPT可以实现“ 连续对话”机制
这篇文章介绍了人工智能ChatGPT实现连续对话机制的方法,包括如何通过传递特定的参数如conversation_id来保持对话的连续性。
最近很火的人工智能ChatGPT可以实现“ 连续对话”机制
|
2月前
|
人工智能 Java 定位技术
人工智能ChatGPT 体验案例:使用ChatGPT实现java扫雷小游戏
这篇文章通过一个使用ChatGPT实现的Java扫雷小游戏案例,展示了ChatGPT在编程领域的应用能力。文章中包含了扫雷游戏的Java代码实现,代码中初始化了雷区地图,随机放置雷,计算每个格子周围雷的数量,并提供了一个简单的文本界面与用户交互进行游戏。游戏通过控制台输入接受玩家的指令,并给出相应的反馈。
人工智能ChatGPT 体验案例:使用ChatGPT实现java扫雷小游戏
|
1月前
|
存储 安全 机器人
autofs - 工作原理 【ChatGPT】
autofs - 工作原理 【ChatGPT】
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能】深度解读 ChatGPT基本原理
ChatGPT是OpenAI开发的一种基于人工智能技术的自然语言处理工具,它代表了自然语言处理(NLP)技术的前沿进展。ChatGPT的基本原理建立在一系列先进技术和方法之上,主要包括GPT(Generative Pre-trained Transformer)模型架构、预训练与微调技术、以及可能采用的RLHF(Reinforcement Learning from Human Feedback)等高级训练策略。下面将详细解读ChatGPT的基本原理和关键技术:
60 1
|
2月前
|
人工智能 自然语言处理 算法
【人工智能】TF-IDF算法概述
TF-IDF算法,全称Term Frequency-Inverse Document Frequency(词频-逆文档频率),是一种在信息检索和文本挖掘领域广泛应用的加权技术。它通过评估一个词语在文档中的重要程度,来挖掘文章中的关键词,进而用于文本分析、搜索引擎优化等场景。其核心思想是:如果某个词或短语在一篇文章中出现的频率高(TF高),且在其他文章中很少出现(IDF也高),则认为这个词或短语具有很好的类别区分能力,适合用来代表这篇文章的内容。 具体而言,TF-IDF由两部分组成,即词频(TF)和逆文档频率(IDF)。词频(TF)指的是某一个给定的词在该文件中出现的频率。这个数值通常会被归一化
31 3
|
2月前
|
机器学习/深度学习 人工智能 并行计算
【人工智能】CPU、GPU与TPU:人工智能领域的核心处理器概述
在人工智能和计算技术的快速发展中,CPU(中央处理器)、GPU(图形处理器)和TPU(张量处理器)作为核心处理器,各自扮演着不可或缺的角色。它们不仅在性能上各有千秋,还在不同的应用场景中发挥着重要作用
126 2
|
2月前
|
机器学习/深度学习 人工智能 算法
【人工智能】传统语音识别算法概述,应用场景,项目实践及案例分析,附带代码示例
传统语音识别算法是将语音信号转化为文本形式的技术,它主要基于模式识别理论和数学统计学方法。以下是传统语音识别算法的基本概述
60 2
|
2月前
|
机器学习/深度学习 人工智能 搜索推荐
【人工智能】人工智能在医疗健康中的应用以及实际案例和进展概述
人工智能(Artificial Intelligence, AI)在医疗健康领域的应用日益广泛,为医疗服务的提升和健康管理带来了革命性的变化。以下是人工智能在医疗健康中的主要应用
260 1
|
1月前
|
机器学习/深度学习 人工智能 算法
探索人工智能:机器学习的基本原理与Python代码实践
【9月更文挑战第6天】本文深入探讨了人工智能领域中的机器学习技术,旨在通过简明的语言和实际的编码示例,为初学者提供一条清晰的学习路径。文章不仅阐述了机器学习的基本概念、主要算法及其应用场景,还通过Python语言展示了如何实现一个简单的线性回归模型。此外,本文还讨论了机器学习面临的挑战和未来发展趋势,以期激发读者对这一前沿技术的兴趣和思考。