Chap01. 认识AI-阿里云开发者社区

Chap01. 认识AI

2025-12-12 292

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文介绍了AI核心概念与大模型开发原理，涵盖人工智能发展历程及Transformer神经网络的关键作用。详解其注意力机制如何提升信息处理智能，并解析大语言模型（LLM）如何通过持续生成实现连贯文本输出，帮助理解GPT等模型的工作机制。（238字）

本篇介绍了AI的一些核心概念，有利于你理解大模型开发的一些原理。
1.人工智能发展
AI，人工智能（Artificial Intelligence），使机器能够像人类一样思考、学习和解决问题的技术。
AI发展至今大概可以分为三个阶段：

其中，深度学习领域的自然语言处理(Natural Language Processing, NLP)有一个关键技术叫做Transformer，这是一种由多层感知机组成的神经网络模型，是现如今AI高速发展的最主要原因。
我们所熟知的大模型（Large Language Models, LLM），例如GPT、DeepSeek底层都是采用Transformer神经网络模型。以GPT模型为例，其三个字母的缩写分别是Generative、Pre-trained、Transformer：

那么问题来， Transformer神经网络有什么神奇的地方，可以实现如此强大的能力呢？
2.大模型原理
其实，最早Transformer是由Google在2017年提出的一种神经网络模型，一开始的作用是把它作为机器翻译的核心：

Transformer中提出的注意力机制使得神经网络在处理信息时可以根据上下内容调整对数据的理解，变得更加智能化。这不仅仅是说人类的文字，包括图片、音频数据都可以交给Transformer来处理。于是，越来越多的模型开始基于Transformer实现了各种神奇的功能。
例如，有的模型可以根据音频生成文本，或者根据文本生成音频：

还有的模型则可以根据文字生成图片，比如Dall-E、MidJourney：

不过，我们今天要聊的大语言模型（Large Language Models, 以下简称LLM）是对Transformer的另一种用法：推理预测。
LLM在训练Transformer时会尝试输入一些文本、音频、图片等信息，然后让Transformer推理接下来跟着的应该是什么内容。推理的结果会以概率分布的形式出现：

可能大家会有疑问：
仅仅是推测接下来的内容，怎么能让ChatGPT在对话中生成大段的有关联的文字内容呢？
其实LLM采用的就是笨办法，答案就是：持续生成
根据前文推测出接下来的一个词语后，把这个词语加入前文，再次交给大模型处理，推测下一个字，然后不断重复前面的过程，就可以生成大段的内容了：

这就是为什么我们跟AI聊天的时候，它生成的内容总是一个字一个字的输出的原因了。
以上就是LLM的核心技术，Transformer的原理了~
如果大家想要进一步搞清楚Transformer机制，可以参考以下两个视频：
https://www.bilibili.com/video/BV1atCRYsE7x
https://www.youtube.com/watch?v=wjZofJX0v4M&t=1169s

Chap01. 认识AI

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Chap01. 认识AI

热门文章

最新文章

相关电子书