一种轻松且客观介绍大模型方式,避免过度解读:一

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 这篇文章旨在为没有计算机科学背景的读者提供一些关于ChatGPT及其类似的人工智能系统(如GPT-3、GPT-4、Bing Chat、Bard等)如何工作的原理。ChatGPT是一种聊天机器人,建立在一个大型语言模型之上,用于对话交互。这些术语可能比较晦涩难懂,我将对其进行解释。同时,我们将讨论它们背后的核心概念,而且本文并不需要读者具备任何技术或数学方面的背景知识。我们将大量使用比喻来解释相关概念,以便更好地理解它们。我们还将讨论这些技术的意义,以及我们应该期待或不应该期待大型语言模型如ChatGPT所能做的事情。

“我正在参加「掘金·启航计划」”

这是我关于《一种轻松且客观介绍大模型方式,避免过度解读》第一篇

一、前言

这篇文章旨在为没有计算机科学背景的读者提供一些关于ChatGPT及其类似的人工智能系统(如GPT-3、GPT-4、Bing Chat、Bard等)如何工作的原理。ChatGPT是一种聊天机器人,建立在一个大型语言模型之上,用于对话交互。这些术语可能比较晦涩难懂,我将对其进行解释。同时,我们将讨论它们背后的核心概念,而且本文并不需要读者具备任何技术或数学方面的背景知识。我们将大量使用比喻来解释相关概念,以便更好地理解它们。我们还将讨论这些技术的意义,以及我们应该期待或不应该期待大型语言模型如ChatGPT所能做的事情。

接下来我们将以尽可能不使用专业术语的方式,从基础的“什么是人工智能”开始,逐步深入讨论与大型语言模型和ChatGPT相关的术语和概念,并将使用比喻来解释它们。同时,我们也将谈论这些技术的意义,以及我们应该期待它们能够做什么或不应该期待它们能够做什么。

二、什么是人工智能

首先,让我们从一些基本术语开始,这些术语你可能经常听到。那么什么是人工智能呢?

人工智能:指一种能够表现出类似于人类所认为的智能行为的实体。用“智能”来定义人工智能有些问题,因为“智能”本身并没有一个清晰的定义。但是,这个定义仍然比较恰当。它基本上意味着,如果我们看到一些人造的东西,它们能够进行有趣、有用、看起来有一定难度的行为,那么我们可能会说它们具有智能。例如,在电脑游戏中,我们通常称计算机控制的角色为“AI”。这些角色大多是基于if-then-else代码的简单程序(例如,“如果玩家在射程范围内,则开火,否则移动到最近的石头后躲藏”)。但是,如果这些角色可以保持我们的参与度和娱乐性,同时不做任何显然愚蠢的事情,那么我们可能会认为它们比实际上更为复杂。

一旦我们了解了某个东西的工作原理,我们可能就不会觉得它很神奇,而是期望在幕后有更为复杂的东西。这完全取决于我们对幕后发生的事情的了解程度。

重要的一点是,人工智能不是魔术。因为它不是魔术,所以它是可以被解释的。

三、 什么是机器学习

另一个与人工智能经常相关联的术语是机器学习。

机器学习:一种通过收集数据、形成模型,然后执行模型的方式来创建行为的方法。有时候,手动创建一堆if-then-else语句以捕捉某些复杂现象(比如语言)是很困难的。在这种情况下,我们尝试找到大量数据,并使用能够在数据中找到模式的算法进行建模。

那么什么是模型呢?模型是某种复杂现象的简化版本。例如,汽车模型是真实汽车的更小、更简单版本,它具有真实汽车许多属性,当然并不意味着要完全替代原始版本。模型汽车可能看起来很真实,在实验的时候很有用。

image-1683548234500

就像我们可以制造一个更小、更简单的汽车一样,我们也可以制造一个更小、更简单的人类语言模型。我们使用“大型语言模型”这个术语,因为这些模型从需要使用的内存(显存)量的角度来看是非常大的。目前生产中最大的模型,例如ChatGPT、GPT-3和GPT-4,非常庞大,需要运行在数据中心服务器上的超级计算机才能创建和运行。

四、什么是神经网络

有很多方法可以通过数据来学习一个模型,其中神经网络就是其中一种方法。这种技术大致基于人脑的结构,人脑由一系列互相连接的神经元组成,神经元之间传递电信号,使我们能够完成各种任务。神经网络的基本概念在20世纪40年代就已经被发明了,如何训练神经网络的基本概念则是在20世纪80年代发明的,当时神经网络非常低效,直到2017年左右计算机硬件升级,我们才可以大规模地使用它们。

但是,个人比较喜欢用电路的隐喻来模拟神经网络。通过电阻、电流经过电线的流动,我们可以模拟神经网络的工作。

想象一下我们想要制作一辆可以在高速公路上行驶的自动驾驶汽车。我们在车的前、后和两侧装上了距离传感器。当有物体接近时,距离传感器会报告一个值为1的数值,而当附近没有可检测的物体时,传感器会报告一个值为0的数值。

我们还安装了机器人操作方向盘,踩刹车和加速。当油门接收到1的数值时,它使用最大的加速度,而0的数值意味着没有加速。同样,发送给制动机构的数值为1意味着紧急刹车,而0则意味着没有制动。转向机构接受-1到+1之间的数值,负数表示向左转,正数表示向右转,而0表示保持直线行驶。

当然我们必须记录驾驶的数据。当前方的道路清晰时,你会加速。当前方有汽车时,你会减速。当一辆汽车从左侧靠得太近时,你会向右转向并变换车道,当然,前提是右侧没有车。这个过程非常复杂,需要根据不同的传感器信息组合进行不同的操作(向左或向右转,加速或减速,制动),因此需要将每个传感器都连接到每个机器人机构上。

image-1683548252771

当你开车上路时会发生什么?电流从所有传感器流向所有机器人执行器,车辆同时向左转、向右转、加速和刹车。会形成一团乱麻。

拿出电阻器并开始将它们放在电路的不同部分,以便电流可以在某些传感器和某些机械臂之间更自由地流动。例如,我们希望电流能够从前方接近传感器更自由地流向刹车而不是转向机构。我们还安装了称为门的元件,直到足够的电荷积累以触发开关之前,电流才会停止流动(只有在前方和后方的接近传感器都报告高数字时才允许电流流动),或者仅在输入电强度较低时向前发送电能(当前方接近传感器报告低值时向加速器发送更多电力)。

但是我们应该在哪里放置这些电阻器和门呢?我也不知道。随机地将它们放在各个位置。然后再试一次。也许这次汽车开得更好,这意味着它有时会在数据表明最好刹车和转向等时刹车和转向,但它并不是每次都正确。而有些事情它做得更糟糕(在数据表明有时需要刹车时它加速了)。因此,我们不断地随机尝试不同的电阻器和门的组合。最终,我们会偶然发现一个足够好的组合,那么我们宣布成功。比如下面这个组合:

image-1683548266697

(实际上,我们不会添加或删除门,但我们会修改门,使其可以以较低的能量从下方激活,或者需要更多的能量从下方输出,或者只有在下方有非常少的能量时才释放大量的能量。机器学习是纯粹主义者,可能会对这种描述感到不舒服。技术上,这是通过调整门上的偏置来完成的,这通常不会在此类图示中显示,但从电路隐喻的角度来看,它可以被认为是一个插入直接连到电源的线缆,可以像所有其他线缆一样进行修改。)

随意尝试并不好。一个名为反向传播的算法在改变电路配置方面具有相当不错的猜测能力。算法的细节并不重要,只需知道它会微调调整电路以使其行为更接近于数据所建议的行为,经过成千上万次的微调,最终可以得到与数据相符的结果。

我们称电阻器和门为参数,因为实际上它们无处不在,而反向传播算法所做的是宣布每个电阻器更强或更弱。因此,如果我们知道电路的布局和参数值,整个电路可以在其他汽车上复制。

敬请观看《一种轻松且客观介绍大模型方式,避免过度解读》第二篇

目录
相关文章
|
7月前
|
存储 计算机视觉 开发者
【mobileSam】使用大模型推理赋能标注工作,让标注工作不再困难
【mobileSam】使用大模型推理赋能标注工作,让标注工作不再困难
340 1
|
算法 数据挖掘 数据库
priori 算法的影响因素分析| 学习笔记
快速学习 priori 算法的影响因素分析。
priori 算法的影响因素分析| 学习笔记
|
5天前
|
机器学习/深度学习 监控
在进行多任务学习时,确保模型不会过度拟合单一任务而忽视其他任务
多任务学习(MTL)中,为避免模型过度拟合单一任务,可采取任务权重平衡、损失函数设计、正则化、早停法、交叉验证、任务无关特征学习、模型架构选择、数据增强、任务特定组件、梯度归一化、模型集成、任务选择性训练、性能监控、超参数调整、多任务学习策略、领域适应性和模型解释性分析等策略,以提高模型泛化能力和整体表现。
|
1月前
|
机器学习/深度学习 分布式计算 算法框架/工具
大模型的内部结构复杂,导致其决策过程难以解释,这对于某些应用场景来说是不可接受的。
【10月更文挑战第23天】随着人工智能技术的发展,越来越多的企业开始探索大模型的私有化部署。本文详细介绍了在企业内部实现大模型私有化部署的方法,包括硬件配置、数据隐私保护、模型可解释性提升以及模型更新和维护等方面的解决方案,帮助企业克服相关挑战,提高数据处理的安全性和效率。
32 4
|
3月前
|
数据采集 存储 关系型数据库
选择合适的数据收集方式,需要考虑多个因素,
选择合适的数据收集方式,需要考虑多个因素,
107 5
|
4月前
|
机器学习/深度学习 监控
在进行多任务学习时,如何确保模型不会过度拟合单一任务而忽视其他任务?
在进行多任务学习时,如何确保模型不会过度拟合单一任务而忽视其他任务?
|
5月前
|
人工智能
Sora信息问题之模拟对象状态变化存在的局限如何解决
Sora信息问题之模拟对象状态变化存在的局限如何解决
45 0
|
7月前
|
数据采集 机器学习/深度学习 自然语言处理
数据更多更好还是质量更高更好?这项研究能帮你做出选择
【5月更文挑战第28天】研究探索了在机器学习中数据质量与规模的权衡,提出质量-数量权衡(QQT)概念和神经网络可扩展定律,考虑数据非同质性、效用衰减及多数据池交互。结果表明预训练时数据质量和规模同等重要,应根据情况权衡。但研究局限于模型预训练、特定类型模型和模拟数据验证。[[链接](https://arxiv.org/pdf/2404.07177.pdf)]
56 1
|
7月前
|
机器学习/深度学习 人工智能 测试技术
【机器学习】R-squared系数有什么缺点?如何解决?
【5月更文挑战第20天】【机器学习】R-squared系数有什么缺点?如何解决?
|
7月前
大模型开发:描述一个你遇到过的具有挑战性的数据集问题以及你是如何解决它的。
在大模型开发中,面对不平衡数据集(某些类别样本远超其他类别)的问题,可能导致模型偏向多数类。在二分类问题中,正样本远少于负样本,影响模型学习和性能。为解决此问题,采用了数据重采样(过采样、欠采样)、SMOTE技术合成新样本、使用加权交叉熵损失函数、集成学习(Bagging、Boosting)以及模型调整(复杂度控制、早停法、正则化)。这些策略有效提升了模型性能,尤其是对少数类的预测,强调了针对数据集问题灵活运用多种方法的重要性。
74 0