机器学习/深度学习的搜索结果_文章_第4页-阿里云开发者社区

游客wsxnwr5p22s5w

|

2天前

|

博文

🫗 知识蒸馏

知识蒸馏是一种模型压缩技术，通过让小模型（学生）模仿大模型（教师）的输出或中间特征，实现性能逼近甚至超越。核心方法包括软标签蒸馏、带温度的Softmax提升信息保留，以及特征层对齐。按信息访问程度分为黑盒与白盒蒸馏，广泛用于加速推理、降低资源消耗，同时提升泛化能力。

# 机器学习/深度学习 # 存储 # 知识图谱

游客wsxnwr5p22s5w

|

2天前

|

博文

🎮 强化学习

强化学习（RL）是一种通过智能体与环境交互，基于试错和延迟奖励学习最优策略的机器学习方法。核心要素包括状态、动作、奖励、策略与价值函数。常用算法有Q-learning、策略梯度、PPO、DPO等，广泛应用于游戏、机器人及大模型对齐人类偏好（如RLHF）。其关键挑战在于平衡探索与利用、偏差与方差，并提升样本效率与训练稳定性。

# 机器学习/深度学习 # 算法 # 关系型数据库 # 机器人 # API

游客wsxnwr5p22s5w

|

2天前

|

博文

🔥 高频面试题汇总

Transformer核心基于自注意力机制，通过QKV计算捕捉长距离依赖，结合多头机制增强表达能力。使用位置编码补充序列顺序信息，配合RoPE、绝对/相对编码等技术。采用RMSNorm、SwiGLU等优化架构，结合LoRA、ZeRO实现高效训练与推理。显存估算需综合参数、KV缓存、激活值等，广泛应用于生成、理解与安全对齐任务。

# 机器学习/深度学习 # 存储 # 数据采集 # 缓存 # 物联网

游客wsxnwr5p22s5w

|

2天前

|

博文

🚀 预训练技巧

预训练是大模型基石，涵盖混合精度、分布式训练等核心技术。混合精度提升效率与显存利用率；数据/模型/流水线并行支持超大模型训练；DeepSpeed的ZeRO优化显存，FlashAttention加速注意力计算，助力高效大规模训练。（239字）

# 存储 # 机器学习/深度学习 # 编解码 # 并行计算 # 异构计算

游客wsxnwr5p22s5w

|

2天前

|

博文

🔤 分词器详解

分词器将文本转为模型可处理的数字序列，主流算法如BPE、WordPiece和SentencePiece各有特点：BPE高效但中文支持弱；WordPiece用于BERT，适合英文；SentencePiece语言无关，支持多语言。选择时需权衡粒度、速度与模型需求，中文推荐SentencePiece。

# 机器学习/深度学习 # 自然语言处理 # 算法

游客wi7ee6geiosfw

|

2天前

|

博文

Chap01. 认识AI

本文介绍了AI核心概念及大模型开发原理，涵盖人工智能发展历程与Transformer神经网络的关键作用。通过注意力机制，Transformer实现对文本、图像、音频的高效处理，成为GPT等大模型的基础。大语言模型（LLM）利用其持续生成能力，逐字推理输出内容，实现连贯对话与多模态生成。

# 机器学习/深度学习 # 人工智能 # 自然语言处理

t55cenhjuilvw

|

2天前

|

博文

预训练技巧

预训练是大模型能力的核心，涵盖混合精度、分布式训练等关键技术。混合精度通过FP16/BF16加速计算并节省显存；分布式训练采用数据、模型、流水线并行提升效率，结合All-Reduce等通信策略实现高效同步；DeepSpeed的ZeRO技术分区优化器状态、梯度与参数，显著降低显存占用；FlashAttention优化注意力机制，提升速度与内存效率；学习率策略如warmup与余弦退火助力稳定收敛。

# 存储 # 机器学习/深度学习 # 编解码 # 并行计算 # 异构计算

t55cenhjuilvw

|

2天前

|

博文

位置编码详解

位置编码为Transformer提供序列位置信息，弥补注意力机制无位置感知的缺陷。主要分绝对（如可学习、Sinusoidal）和相对（如RoPE、ALiBi）两类。RoPE通过旋转矩阵建模相对位置，支持外推，广泛用于LLaMA等大模型；ALiBi以线性偏置增强外推能力。不同方法在长度外推、效率间权衡，是面试考察重点。

# 机器学习/深度学习

t55cenhjuilvw

|

2天前

|

博文

Transformer基础结构

Transformer由Vaswani等人于2017年提出，基于自注意力机制，摒弃传统循环结构，实现并行化处理，显著提升长距离依赖建模能力。其核心包括编码器-解码器架构、多头注意力、位置编码、残差连接与层归一化，广泛应用于NLP及多模态任务，是当前大模型的基础架构。（238字）

# 机器学习/深度学习 # 自然语言处理 # 网络架构

t55cenhjuilvw

|

2天前

|

博文

强化学习

强化学习（RL）是一种通过智能体与环境交互来学习最优策略的机器学习方法，核心是最大化长期累积奖励。其关键概念包括状态、动作、奖励、策略与价值函数，依赖试错和延迟奖励机制。常用方法有基于值的Q-learning、基于策略的Policy Gradient，以及结合两者的Actor-Critic框架。PPO、DPO等算法在实际中广泛应用，尤其在RLHF中优化语言模型。该领域持续发展，追求高效、稳定与实用的决策智能。

# 机器学习/深度学习 # 算法 # 关系型数据库 # 机器人 # C++

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

机器学习/深度学习