认识AI

简介: 本文介绍AI核心概念与大模型开发原理,涵盖人工智能发展历程及Transformer神经网络的关键作用。通过注意力机制,Transformer实现对文本、图像、音频的高效处理,成为GPT等大语言模型的基础。文章解析LLM如何利用持续生成机制完成连贯内容输出,帮助理解AI对话背后的运行逻辑。(238字)

本篇介绍了AI的一些核心概念,有利于你理解大模型开发的一些原理。
1.人工智能发展
AI,人工智能(Artificial Intelligence),使机器能够像人类一样思考、学习和解决问题的技术。
AI发展至今大概可以分为三个阶段:

其中,深度学习领域的自然语言处理(Natural Language Processing, NLP)有一个关键技术叫做Transformer,这是一种由多层感知机组成的神经网络模型,是现如今AI高速发展的最主要原因。
我们所熟知的大模型(Large Language Models, LLM),例如GPT、DeepSeek底层都是采用Transformer神经网络模型。以GPT模型为例,其三个字母的缩写分别是Generative、Pre-trained、Transformer:

那么问题来, Transformer神经网络有什么神奇的地方,可以实现如此强大的能力呢?
2.大模型原理
其实,最早Transformer是由Google在2017年提出的一种神经网络模型,一开始的作用是把它作为机器翻译的核心:

Transformer中提出的注意力机制使得神经网络在处理信息时可以根据上下内容调整对数据的理解,变得更加智能化。这不仅仅是说人类的文字,包括图片、音频数据都可以交给Transformer来处理。于是,越来越多的模型开始基于Transformer实现了各种神奇的功能。
例如,有的模型可以根据音频生成文本,或者根据文本生成音频:

还有的模型则可以根据文字生成图片,比如Dall-E、MidJourney:

不过,我们今天要聊的大语言模型(Large Language Models, 以下简称LLM)是对Transformer的另一种用法:推理预测。
LLM在训练Transformer时会尝试输入一些文本、音频、图片等信息,然后让Transformer推理接下来跟着的应该是什么内容。推理的结果会以概率分布的形式出现:

可能大家会有疑问:
仅仅是推测接下来的内容,怎么能让ChatGPT在对话中生成大段的有关联的文字内容呢?
其实LLM采用的就是笨办法,答案就是:持续生成
根据前文推测出接下来的一个词语后,把这个词语加入前文,再次交给大模型处理,推测下一个字,然后不断重复前面的过程,就可以生成大段的内容了:

这就是为什么我们跟AI聊天的时候,它生成的内容总是一个字一个字的输出的原因了。
以上就是LLM的核心技术,Transformer的原理了~
如果大家想要进一步搞清楚Transformer机制,可以参考以下两个视频:
https://www.bilibili.com/video/BV1atCRYsE7x
https://www.youtube.com/watch?v=wjZofJX0v4M&t=1169s

相关文章
|
1天前
|
API
开源框架:Zookeeper—Watcher机制(三)之ZooKeeper
Watcher事件流程涵盖服务端检测变更、触发通知至客户端回调。核心为两大阶段:服务端通过WatchManager封装事件并发送,客户端经ZKWatchManager筛选后异步回调。具备一次性、有序性与异步通知特性,需重注册以持续监听,且回调中不可执行耗时操作。
23 5
|
1天前
|
敏捷开发 运维 数据可视化
敏捷与稳定并行:Scrum看板+BPM工具选型指南
本文探讨数字化转型中Scrum看板与BPM工具割裂导致的协同难题,分析敏捷开发与流程管理在目标、节奏与度量上的差异,提出构建端到端价值流平台的解决方案。通过全局可视化、自动化衔接、混合流程支持与数据驱动优化,实现开发与业务协同。提供涵盖架构融合、用户体验、生态集成与场景适应的四维选型框架,给出分阶段实施路径,助力组织打通交付堵点,提升整体响应力与竞争力。
|
1天前
|
机器学习/深度学习 自然语言处理 算法
分词器详解
分词器将文本转为模型可处理的数字序列,主流算法有BPE、WordPiece和SentencePiece。BPE高效但中文支持弱;WordPiece适合英文,BERT常用;SentencePiece语言无关,尤适中文。实战中需根据语种选择,结合特殊标记处理OOV等问题,优化模型性能。
|
1天前
|
机器学习/深度学习 自然语言处理 网络架构
Transformer基础结构
Transformer是Vaswani等人于2017年提出的革命性模型,基于自注意力机制,摒弃了传统RNN的序列依赖,实现并行化处理,显著提升训练效率与长距离依赖建模能力。其核心由编码器-解码器架构、多头自注意力、位置编码、残差连接和层归一化组成,广泛应用于NLP及多模态任务,成为大模型时代的基础架构。(238字)
|
JavaScript 前端开发 Java
驼峰命名规范及其在代码可读性中的重要性
驼峰命名规范及其在代码可读性中的重要性
714 15
|
JavaScript 测试技术 iOS开发
vue element plus Icon 图标
vue element plus Icon 图标
7089 0
|
6天前
|
存储 JavaScript 前端开发
JavaScript基础
本节讲解JavaScript基础核心知识:涵盖值类型与引用类型区别、typeof检测类型及局限性、===与==差异及应用场景、内置函数与对象、原型链五规则、属性查找机制、instanceof原理,以及this指向和箭头函数中this的绑定时机。重点突出类型判断、原型继承与this机制,助力深入理解JS面向对象机制。(238字)
|
5天前
|
云安全 人工智能 安全
阿里云2026云上安全健康体检正式开启
新年启程,来为云上环境做一次“深度体检”
1609 6
|
7天前
|
安全 数据可视化 网络安全
安全无小事|阿里云先知众测,为企业筑牢防线
专为企业打造的漏洞信息收集平台
1333 2
|
1天前
|
消息中间件 人工智能 Kubernetes
阿里云云原生应用平台岗位急招,加入我们,打造 AI 最强基础设施
云原生应用平台作为中国最大云计算公司的基石,现全面转向 AI,打造 AI 时代最强基础设施。寻找热爱技术、具备工程极致追求的架构师、极客与算法专家,共同重构计算、定义未来。杭州、北京、深圳、上海热招中,让我们一起在云端,重构 AI 的未来。