认识AI

简介: 人工智能(AI)历经三阶段发展,核心突破在于Transformer神经网络。其注意力机制让模型理解上下文,支撑大语言模型(如GPT、DeepSeek)实现文本生成、翻译等智能任务。通过持续预测下一个词,LLM能生成连贯长文本,推动AI飞速进步。

1.人工智能发展
AI,人工智能(Artificial Intelligence),使机器能够像人类一样思考、学习和解决问题的技术。
AI发展至今大概可以分为三个阶段:

其中,深度学习领域的自然语言处理(Natural Language Processing, NLP)有一个关键技术叫做Transformer,这是一种由多层感知机组成的神经网络模型,是现如今AI高速发展的最主要原因。
我们所熟知的大模型(Large Language Models, LLM),例如GPT、DeepSeek底层都是采用Transformer神经网络模型。以GPT模型为例,其三个字母的缩写分别是Generative、Pre-trained、Transformer:

那么问题来, Transformer神经网络有什么神奇的地方,可以实现如此强大的能力呢?
2.大模型原理
其实,最早Transformer是由Google在2017年提出的一种神经网络模型,一开始的作用是把它作为机器翻译的核心:

Transformer中提出的注意力机制使得神经网络在处理信息时可以根据上下内容调整对数据的理解,变得更加智能化。这不仅仅是说人类的文字,包括图片、音频数据都可以交给Transformer来处理。于是,越来越多的模型开始基于Transformer实现了各种神奇的功能。
例如,有的模型可以根据音频生成文本,或者根据文本生成音频:

还有的模型则可以根据文字生成图片,比如Dall-E、MidJourney:

不过,我们今天要聊的大语言模型(Large Language Models, 以下简称LLM)是对Transformer的另一种用法:推理预测。
LLM在训练Transformer时会尝试输入一些文本、音频、图片等信息,然后让Transformer推理接下来跟着的应该是什么内容。推理的结果会以概率分布的形式出现:

可能大家会有疑问:
仅仅是推测接下来的内容,怎么能让ChatGPT在对话中生成大段的有关联的文字内容呢?
其实LLM采用的就是笨办法,答案就是:持续生成
根据前文推测出接下来的一个词语后,把这个词语加入前文,再次交给大模型处理,推测下一个字,然后不断重复前面的过程,就可以生成大段的内容了:

这就是为什么我们跟AI聊天的时候,它生成的内容总是一个字一个字的输出的原因了。
以上就是LLM的核心技术,Transformer的原理了~
如果大家想要进一步搞清楚Transformer机制,可以参考以下两个视频:
https://www.bilibili.com/video/BV1atCRYsE7x
https://www.youtube.com/watch?v=wjZofJX0v4M&t=1169s

相关文章
|
3月前
|
缓存 前端开发 JavaScript
头条面经
涵盖前端、网络、JS核心、框架及算法等多方面知识,包括深拷贝、双向绑定、HTTP缓存、跨域、Vue原理、TCP/UDP、设计模式、事件循环、类型判断、闭包、原型链、性能优化等高频面试题,全面考察技术深度与综合能力。
|
3月前
|
存储 关系型数据库 MySQL
数据库检索:如何使用 B+ 树对海量磁盘数据建立索引?
本讲探讨磁盘环境下大规模数据检索的挑战与解决方案。由于内存有限,数据常存储于磁盘,而磁盘随机访问远慢于内存,因此需减少磁盘IO。B+树通过将索引与数据分离、节点大小对齐磁盘块、分层存储等设计,实现高效磁盘检索。其内部节点仅存索引,叶子节点存数据,并通过链表连接,支持快速查找与范围查询。即使数据在磁盘,也能通过少量IO完成检索,广泛应用于数据库如MySQL。
|
3月前
|
存储 缓存 算法
非线性结构检索:数据频繁变化的情况下,如何高效检索?
通过树状结构与跳表,将无序数据组织为可高效检索的非线性结构。二叉检索树利用有序分层实现二分查找,跳表则通过多层指针加速链表访问,二者均在动态数据场景下兼顾查询与更新效率,优于传统数组。
|
3月前
|
监控 网络协议 JavaScript
前端性能监控指标
前端性能指标包括白屏时间、首屏时间、用户可操作时间(DOM Ready)和总下载时间(onload)。可通过注入代码或使用 `window.performance` API 进行量化统计。传统方法依赖代码埋点,数据为估值;而 `performance.timing` API 可精准获取DNS、TCP、请求、解析等各阶段耗时,进而计算出各项性能指标,是现代浏览器推荐的性能监控方案。
|
3月前
|
网络协议 算法 前端开发
架构设计:设计一个灵活的 RPC 框架
本文回顾了RPC通信原理,详解其核心架构设计:通过传输、协议、引导与服务发现等模块实现远程调用。同时引入插件化架构,提升框架可扩展性与维护性,助力构建灵活、健壮的RPC系统。(238字)
|
3月前
|
存储 算法 搜索推荐
线性结构检索:从数组和链表的原理初窥检索本质
本课探讨数组与链表的检索原理。数组连续存储,支持随机访问,适合二分查找,效率为O(log n);链表非连续存储,检索需遍历,效率为O(n),但插入删除更高效。通过理解二者存储特性对检索的影响,掌握“合理组织数据以缩小查询范围”的核心思想,并学会改造链表等结构优化性能,为深入学习高级检索技术打下基础。(238字)
|
4月前
|
人工智能 自然语言处理 语音技术
数字人:不止于“虚拟形象”的技术综合体
数字人是融合3D建模、AI驱动与实时渲染的虚拟交互体,涵盖“躯壳、小脑、大脑”三层技术架构。依托云计算与AIGC,正广泛应用于客服、XR等场景。开发者可借云服务快速构建,迎来全新机遇。
|
5月前
|
缓存 安全 Java
如何理解Java中的并发?
Java并发指多任务交替执行,提升资源利用率与响应速度。通过线程实现,涉及线程安全、可见性、原子性等问题,需用synchronized、volatile、线程池及并发工具类解决,是高并发系统开发的关键基础。(238字)
321 5
|
机器学习/深度学习 人工智能 JavaScript
探索后端开发的未来趋势
本文将带您一起探讨后端开发的未来发展。我们将从当前流行的技术框架出发,分析其发展趋势,并预测可能出现的新技术。同时,我们还将讨论如何提升后端开发的效率和质量,以及如何应对未来可能出现的挑战。