一分钟秒懂人工智能对齐

简介: 一分钟秒懂人工智能对齐

1.什么是人工智能对齐

人工智能对齐(AI Alignment)指让人工智能的行为符合人的意图和价值观。

人工智能系统可能会出现“不对齐”(misalign)的问题。以ChatGPT这样的问答系统为例,ChatGPT的回答可能会含有危害祖国统一、侮辱先烈、丑化中华民族、教唆暴力、出口成“脏”等违法或不符合社会主义核心价值观的言论,也可能会出现阿谀奉承、威逼利诱、信口雌黄等干预用户达到预定目标的情况。消除人工智能系统不对齐的过程就称为人工智能对齐。

图 ChatGPT的不对齐行为

2.为什么要研究人工智能对齐

根据人工智能对齐的定义,所有的人工智能问题(包括AI伦理、AI治理、可解释性AI,甚至是最基本的回归和分类问题)都可以算是人工智能对齐问题。那么为什么学术界还要发明“人工智能对齐”这个新概念?研究“人工智能对齐”这个新概念有什么价值呢?

事实上,人工智能对齐这一概念和ChatGPT这样的通用大模型的诞生密不可分。对于通用大模型而言,一个模型可以同时完成多种任务,而且不同的任务有着不同的期望有的任务希望能够更有想象力,有的任务希望能够更尊重事实;有的任务希望能够理性客观,有的任务希望能有细腻丰富的情感。任务的多样性导致了需要对大模型进行全方面的对齐,而不仅仅是就某些方面进行对齐。传统的研究往往针对某个方面进行对齐,对于ChatGPT这样的通用模型会导致“按下葫芦浮起瓢”,无法面面俱到。

随着机器学习模型规模的不断变大以及神经网络的大量应用,人类已经无法完全理解和解释人工智能的某些行为。例如,用于围棋AlphaGo下的某些棋迄今也不能被人类所完全理解。在未来,有可能会出现全方面碾压人类的人工智能(比如《流浪地球》里的MOSS)。传统的对齐方法显然不能满足对这样的人工智能的对齐需求

3.人工智能对齐的常见方法

人工智能对齐离不开人的接入。人对人工智能系统进行评估和反馈,可以确认人工智能中不对齐的情况,并指导其进行改进。

人工智能对齐的方法包括模仿学习和人类反馈强化学习。ChatGPT就采用了这些对齐方法。

ChatGPT训练步骤 图片来源

上图是ChatGPT的训练步骤图

步骤一利用收集到的数据进行监督学习,这一部分就是在用模仿学习进行人工智能对齐。不过,ChatGPT的训练团队认为,仅仅用模仿学习并不能完全达到要求。

模仿学习不能完全满足对齐需求的原因可能如下:模仿学习使用的数据集能覆盖到的数据范围是有限的,不可能包括所有的情况。用这样数据集训练出来的人工智能难免有些边脚情形的表现不对齐。另外,虽然训练后能够让训练目标基本上达到最优,但是在训练目标最优情况下还是会出现在某些样本点上表现不好的情况。而这些样本点也许还挺重要,这些不好的样本点可能会涉及到重大的法律或是舆论风险。

为此,ChatGPT的训练过程进一步地使用了人类反馈强化学习。步骤图中的第二步和第三步就用到了人类反馈强化学习。

第二步通过人类的反馈构建奖励模型。

在这一步中,提供反馈的人可以就其认为需要重点关注的问题进行着重考察,来确保在哪些重要的问题上奖励模型是正确的。并且在后续的测试中如果发现了之前没有预料到的新问题,还可以通过提供更多反馈样本来为奖励模型打上补丁。这样,通过人工干预、不断迭代反馈,奖励模型就趋于完善。这样,就让奖励模型的人类的期望对齐

在利用反馈进行奖励模型对齐的训练过程中,对于每个样本,先由语言模型输出几个备选的回答,然后再由人类对这些回答进行排序。这样的做法与直接让用户提供参考答案相比,更能够激发语言模型本身的创造力,也能使得反馈更快更省钱。

第三步利用奖励模型进行强化学习。

步骤中提到的PPO算法就是一种强化学习算法。通过使用强化学习算法,使得系统的行为和奖励模型对齐

基于反馈的强化学习在ChatGPT等大模型上的成功应用使得该算法称为最受关注的大模型对齐算法。目前绝大多数的大模型都采用了这个技术进行对齐。

延伸阅读

《强化学习:原理与Python实战》

肖智清 著

解密ChatGPT关键技术PPO和RLHF

  • 理论完备:涵盖强化学习主干理论和常见算法,带你参透ChatGPT技术要点;
  • 实战性强:每章都有编程案例,深度强化学习算法提供TenorFlow和PyTorch对照实现;
  • 配套丰富:逐章提供知识点总结,章后习题形式丰富多样。还有Gym源码解读、开发环境搭建指南、习题答案等在线资源助力自学。


目录
相关文章
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能文本生成
人工智能文本生成
157 1
|
7月前
|
机器学习/深度学习 传感器 人工智能
人工智能图像数据
人工智能图像数据
76 3
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能未来的发展方向是什么
人工智能未来的发展方向是什么
156 0
|
机器学习/深度学习 人工智能 边缘计算
探索未来的人工智能方向
随着科技的迅猛发展,人工智能(AI)已经成为了当今世界最炙手可热的技术领域之一。本博客将探索未来的人工智能技术趋势,揭示当前和即将到来的创新,以及它们对各个行业的影响。
100 0
|
26天前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能的边界####
本文深入探讨了人工智能(AI)领域的最新进展和未来趋势,通过分析当前技术挑战与突破,揭示了AI技术在医疗、教育、制造业等多个行业的应用前景。文章还讨论了AI伦理问题,提出了对数据隐私保护和算法透明度的思考。 ####
26 0
|
3月前
|
机器学习/深度学习 人工智能 算法
探索人工智能的伦理边界
当人工智能(AI)技术日益融入我们的生活,从智能助手到自动驾驶汽车,我们不禁要问:AI的发展是否应有所节制?本文将探讨AI技术的伦理问题,分析其对社会的潜在影响,并提出相应的道德框架。通过深入浅出的方式,我们将一同思考如何在保障技术进步的同时,确保人类的伦理和价值观不被边缘化。
|
4月前
|
人工智能 自动驾驶 安全
探索人工智能的伦理边界:我们如何与AI共存?
【8月更文挑战第27天】在这篇文章中,我们将深入探讨人工智能(AI)技术背后的伦理问题。随着AI技术的迅速发展,它已经在各个领域产生了深远的影响,从自动驾驶汽车到医疗诊断,再到虚拟助手。然而,这些进步也引发了关于隐私、安全性和责任等一系列伦理问题。本文将通过分析AI技术的实际应用案例,探讨如何在保障人权和尊重个人隐私的同时,推动AI技术的发展和应用。我们将提出一些指导原则,以帮助决策者、开发者和用户更好地理解和应对AI技术带来的伦理挑战。
|
4月前
|
机器学习/深度学习 人工智能 自动驾驶
探索人工智能的无限可能
【8月更文挑战第26天】本文将探讨人工智能(AI)如何改变我们的世界,并分享一些实用的代码示例。我们将从AI的基本概念开始,然后深入到AI的各种应用,如自动驾驶、语音识别等。最后,我们将通过一些Python代码示例,展示如何使用AI技术解决实际问题。无论你是AI初学者还是有一定基础的开发者,都能在本文中找到有价值的信息。让我们一起探索AI的无限可能吧!
|
4月前
|
机器学习/深度学习 人工智能 数据可视化
【人工智能】人工智能可解释性和透明度的详细探讨
人工智能的可解释性和透明度是当前AI领域的重要议题,它们对于AI系统的公正性、可靠性、用户信任以及合规性等方面都具有深远的影响。以下是对人工智能可解释性和透明度的详细探讨
225 1
|
7月前
|
人工智能 自动驾驶 搜索推荐
人工智能的发展方向有哪些?
【5月更文挑战第17天】人工智能的发展方向有哪些?
194 3