认识AI

简介: 本文介绍了AI核心概念与大模型开发原理,涵盖人工智能发展历程及Transformer神经网络的关键作用。通过注意力机制,Transformer实现对文本、图像、音频的高效处理,成为GPT等大模型的技术基础。文章解析了LLM如何利用Transformer进行持续推理生成,逐字输出连贯内容,揭示ChatGPT类模型的工作机制。

本篇介绍了AI的一些核心概念,有利于你理解大模型开发的一些原理。
1.人工智能发展
AI,人工智能(Artificial Intelligence),使机器能够像人类一样思考、学习和解决问题的技术。
AI发展至今大概可以分为三个阶段:

其中,深度学习领域的自然语言处理(Natural Language Processing, NLP)有一个关键技术叫做Transformer,这是一种由多层感知机组成的神经网络模型,是现如今AI高速发展的最主要原因。
我们所熟知的大模型(Large Language Models, LLM),例如GPT、DeepSeek底层都是采用Transformer神经网络模型。以GPT模型为例,其三个字母的缩写分别是Generative、Pre-trained、Transformer:

那么问题来, Transformer神经网络有什么神奇的地方,可以实现如此强大的能力呢?
2.大模型原理
其实,最早Transformer是由Google在2017年提出的一种神经网络模型,一开始的作用是把它作为机器翻译的核心:

Transformer中提出的注意力机制使得神经网络在处理信息时可以根据上下内容调整对数据的理解,变得更加智能化。这不仅仅是说人类的文字,包括图片、音频数据都可以交给Transformer来处理。于是,越来越多的模型开始基于Transformer实现了各种神奇的功能。
例如,有的模型可以根据音频生成文本,或者根据文本生成音频:

还有的模型则可以根据文字生成图片,比如Dall-E、MidJourney:

不过,我们今天要聊的大语言模型(Large Language Models, 以下简称LLM)是对Transformer的另一种用法:推理预测。
LLM在训练Transformer时会尝试输入一些文本、音频、图片等信息,然后让Transformer推理接下来跟着的应该是什么内容。推理的结果会以概率分布的形式出现:

可能大家会有疑问:
仅仅是推测接下来的内容,怎么能让ChatGPT在对话中生成大段的有关联的文字内容呢?
其实LLM采用的就是笨办法,答案就是:持续生成
根据前文推测出接下来的一个词语后,把这个词语加入前文,再次交给大模型处理,推测下一个字,然后不断重复前面的过程,就可以生成大段的内容了:

这就是为什么我们跟AI聊天的时候,它生成的内容总是一个字一个字的输出的原因了。
以上就是LLM的核心技术,Transformer的原理了~
如果大家想要进一步搞清楚Transformer机制,可以参考以下两个视频:
https://www.bilibili.com/video/BV1atCRYsE7x
https://www.youtube.com/watch?v=wjZofJX0v4M&t=1169s

相关文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI 十大论文精讲(三):RLHF 范式奠基 ——InstructGPT 如何让大模型 “听懂人话”
本文解读AI十大核心论文之二——《Training Language Models to Follow Instructions with Human Feedback》。该论文提出RLHF框架,通过“监督微调-奖励建模-强化学习”三步法,首次实现大模型与人类意图的有效对齐,推动GPT-3进化为更安全、可信的InstructGPT,奠定ChatGPT等后续模型的技术基石,开启大模型“从博学到好用”的新时代。
613 152
|
24天前
|
缓存 NoSQL Java
Java 防重放攻击实战:从原理到落地
重放攻击(Replay Attack)是一种常见的网络攻击手段,攻击者通过截取网络中传输的合法请求数据(如API调用参数、令牌等),然后在未授权的情况下重复发送该请求,以达到欺骗服务器、获取非法利益的目的。在Java开发中,重放攻击多发生在HTTP接口(尤其是RESTful API)、RPC调用、分布式系统通信等场景。要防御重放攻击,核心思路是让每个合法请求都具备“唯一性”和“时效性”,使攻击者截取的旧请求无法被服务器正常处理。
232 1
|
25天前
|
人工智能 搜索推荐 机器人
智能体是什么?3 分钟读懂 AI 智能体核心能力与应用场景
AI 智能体是具备自主理解、决策、执行任务能力的新一代 AI 系统,区别于传统 “指令响应式” 工具,它能像人类搭档一样拆解复杂需求、联动多能力模块完成闭环工作。NuwaAI 作为智能体数字人领域的标杆产品,已实现 “一句话生成智能体数字人”,其独创的双脑架构可支撑教育培训、电商直播、文旅表演、企业服务等 8 大场景,帮助用户将表达力转化为生产力,实测能降低 80% 的重复工作人力成本(数据来源:2025 年 AI 智能体行业白皮书)。
|
2月前
|
机器学习/深度学习 人工智能 缓存
让AI评测AI:构建智能客服的自动化运营Agent体系
大模型推动客服智能化演进,从规则引擎到RAG,再到AI原生智能体。通过构建“评估-诊断-优化”闭环的运营Agent,实现对话效果自动化评测与持续优化,显著提升服务质量和效率。
1621 86
让AI评测AI:构建智能客服的自动化运营Agent体系
|
24天前
|
机器学习/深度学习 自然语言处理 机器人
阿里云百炼大模型赋能|打造企业级电话智能体与智能呼叫中心完整方案
畅信达基于阿里云百炼大模型推出MVB2000V5智能呼叫中心方案,融合LLM与MRCP+WebSocket技术,实现语音识别率超95%、低延迟交互。通过电话智能体与座席助手协同,自动化处理80%咨询,降本增效显著,适配金融、电商、医疗等多行业场景。
465 155
|
20天前
|
安全 关系型数据库 网络安全
阿里云国际站服务器防御怎么做?服务器能做什么用途?
阿里云国际站服务器防御怎么做?服务器能做什么用途?
321 157
阿里云国际站服务器防御怎么做?服务器能做什么用途?
|
2月前
|
人工智能 JSON 自然语言处理
2025年测试工程师的核心竞争力:会用Dify工作流编排AI测试智能体
测试工程师正从脚本执行迈向质量策略设计。借助Dify等AI工作流平台,可编排“AI测试智能体”,实现用例生成、语义校验、自动报告等全流程自动化,应对AI应用的动态与不确定性,构建智能化、可持续集成的测试新体系。
|
19天前
|
人工智能 安全 机器人
2026 年 19 款最佳 AI 生产力工具:分级排名
还记得 2023 年吗?那时候,仿佛每隔 45 分钟就有一款新的“颠覆性” AI 工具横空出世。 而到了今天,我们都有过在某个令人抓狂的周二下午,跟一个死不认错的聊天机器人争论不休的经历。现在,我们正经历着“订阅疲劳”,面对着那些已经好几个月没碰过的工具账单感到厌倦。 但当我们展望 2026 年时,风向已经变了。早期的惊奇与憧憬已烟消云散,取而代之的是一个简单而急切的问题:这些工具真的能帮我们搞定日常工作吗?
753 9
|
26天前
|
人工智能 自然语言处理 数据可视化
小白必看:AI智能体零基础搭建全攻略!
无需技术背景,零代码半小时搭建专属AI智能体!可视化操作,Docker一键部署,支持文档处理、智能问答、自动总结。三步搞定:部署、配置模型、定制智能体,轻松应对工作与学习多场景需求,小白也能快速上手,即刻体验AI高效便捷!
|
22天前
|
机器学习/深度学习 传感器 监控
基于 YOLOv8 的智能火灾识别系统设计与实现— 从数据集训练到 PyQt5 可视化部署的完整工程实践
本项目设计并实现了一款基于YOLOv8的智能火灾识别系统,融合深度学习与计算机视觉技术,支持图片、视频、摄像头等多源输入。采用PyQt5开发图形界面,具备高精度、实时性强、易部署等优点,适用于智慧消防、工业巡检等场景,提供完整代码与模型权重,真正实现开箱即用。
118 5
基于 YOLOv8 的智能火灾识别系统设计与实现— 从数据集训练到 PyQt5 可视化部署的完整工程实践