认识AI

简介: 人工智能(AI)历经三阶段发展,核心突破在于Transformer神经网络。其注意力机制让模型理解上下文,支撑大语言模型(如GPT、DeepSeek)实现文本生成、翻译等智能任务。通过持续预测下一个词,LLM能生成连贯长文本,推动AI飞速进步。

1.人工智能发展
AI,人工智能(Artificial Intelligence),使机器能够像人类一样思考、学习和解决问题的技术。
AI发展至今大概可以分为三个阶段:

其中,深度学习领域的自然语言处理(Natural Language Processing, NLP)有一个关键技术叫做Transformer,这是一种由多层感知机组成的神经网络模型,是现如今AI高速发展的最主要原因。
我们所熟知的大模型(Large Language Models, LLM),例如GPT、DeepSeek底层都是采用Transformer神经网络模型。以GPT模型为例,其三个字母的缩写分别是Generative、Pre-trained、Transformer:

那么问题来, Transformer神经网络有什么神奇的地方,可以实现如此强大的能力呢?
2.大模型原理
其实,最早Transformer是由Google在2017年提出的一种神经网络模型,一开始的作用是把它作为机器翻译的核心:

Transformer中提出的注意力机制使得神经网络在处理信息时可以根据上下内容调整对数据的理解,变得更加智能化。这不仅仅是说人类的文字,包括图片、音频数据都可以交给Transformer来处理。于是,越来越多的模型开始基于Transformer实现了各种神奇的功能。
例如,有的模型可以根据音频生成文本,或者根据文本生成音频:

还有的模型则可以根据文字生成图片,比如Dall-E、MidJourney:

不过,我们今天要聊的大语言模型(Large Language Models, 以下简称LLM)是对Transformer的另一种用法:推理预测。
LLM在训练Transformer时会尝试输入一些文本、音频、图片等信息,然后让Transformer推理接下来跟着的应该是什么内容。推理的结果会以概率分布的形式出现:

可能大家会有疑问:
仅仅是推测接下来的内容,怎么能让ChatGPT在对话中生成大段的有关联的文字内容呢?
其实LLM采用的就是笨办法,答案就是:持续生成
根据前文推测出接下来的一个词语后,把这个词语加入前文,再次交给大模型处理,推测下一个字,然后不断重复前面的过程,就可以生成大段的内容了:

这就是为什么我们跟AI聊天的时候,它生成的内容总是一个字一个字的输出的原因了。
以上就是LLM的核心技术,Transformer的原理了~
如果大家想要进一步搞清楚Transformer机制,可以参考以下两个视频:
https://www.bilibili.com/video/BV1atCRYsE7x
https://www.youtube.com/watch?v=wjZofJX0v4M&t=1169s

相关文章
|
27天前
|
前端开发 关系型数据库 MySQL
PHP:从入门到高效的Web开发利器
PHP:从入门到高效的Web开发利器
187 117
|
JavaScript
Electron如何调用.dll文件
Electron如何调用.dll文件
1542 0
Electron如何调用.dll文件
|
1月前
|
存储 关系型数据库 MySQL
数据库检索:如何使用 B+ 树对海量磁盘数据建立索引?
本讲探讨磁盘环境下大规模数据检索的挑战与解决方案。由于内存有限,数据常存储于磁盘,而磁盘随机访问远慢于内存,因此需减少磁盘IO。B+树通过将索引与数据分离、节点大小对齐磁盘块、分层存储等设计,实现高效磁盘检索。其内部节点仅存索引,叶子节点存数据,并通过链表连接,支持快速查找与范围查询。即使数据在磁盘,也能通过少量IO完成检索,广泛应用于数据库如MySQL。
|
1月前
|
存储 机器学习/深度学习 自然语言处理
倒排索引:如何从海量数据中查询同时带有「极」和「客」的唐诗?
本文通过唐诗检索的场景,对比正排索引与倒排索引的差异。正排索引以文档ID为键,适合根据标题查内容;而倒排索引以关键词为键,记录包含该词的文档列表,显著提升按内容检索的效率。文中详细讲解了倒排索引的构建过程、查询方法(如多关键字交集查询)及链表归并优化,并探讨其在搜索引擎、推荐系统等场景的应用,帮助读者掌握高效检索的核心技术。
|
1月前
|
监控 网络协议 JavaScript
前端性能监控指标
前端性能指标包括白屏时间、首屏时间、用户可操作时间(DOM Ready)和总下载时间(onload)。可通过注入代码或使用 `window.performance` API 进行量化统计。传统方法依赖代码埋点,数据为估值;而 `performance.timing` API 可精准获取DNS、TCP、请求、解析等各阶段耗时,进而计算出各项性能指标,是现代浏览器推荐的性能监控方案。
|
1月前
|
缓存 前端开发 JavaScript
头条面经
涵盖前端、网络、JS核心、框架及算法等多方面知识,包括深拷贝、双向绑定、HTTP缓存、跨域、Vue原理、TCP/UDP、设计模式、事件循环、类型判断、闭包、原型链、性能优化等高频面试题,全面考察技术深度与综合能力。
|
1月前
|
存储 缓存 算法
非线性结构检索:数据频繁变化的情况下,如何高效检索?
通过树状结构与跳表,将无序数据组织为可高效检索的非线性结构。二叉检索树利用有序分层实现二分查找,跳表则通过多层指针加速链表访问,二者均在动态数据场景下兼顾查询与更新效率,优于传统数组。
|
1月前
|
网络协议 算法 前端开发
架构设计:设计一个灵活的 RPC 框架
本文回顾了RPC通信原理,详解其核心架构设计:通过传输、协议、引导与服务发现等模块实现远程调用。同时引入插件化架构,提升框架可扩展性与维护性,助力构建灵活、健壮的RPC系统。(238字)