机器学习/深度学习的搜索结果_文章_第5页-阿里云开发者社区

t55cenhjuilvw

|

2天前

|

博文

预训练技巧

预训练是大模型能力的核心，涵盖混合精度、分布式训练等关键技术。混合精度通过FP16/BF16加速计算并节省显存；分布式训练采用数据、模型、流水线并行提升效率，结合All-Reduce等通信策略实现高效同步；DeepSpeed的ZeRO技术分区优化器状态、梯度与参数，显著降低显存占用；FlashAttention优化注意力机制，提升速度与内存效率；学习率策略如warmup与余弦退火助力稳定收敛。

# 存储 # 机器学习/深度学习 # 编解码 # 并行计算 # 异构计算

t55cenhjuilvw

|

2天前

|

博文

位置编码详解

位置编码为Transformer提供序列位置信息，弥补注意力机制无位置感知的缺陷。主要分绝对（如可学习、Sinusoidal）和相对（如RoPE、ALiBi）两类。RoPE通过旋转矩阵建模相对位置，支持外推，广泛用于LLaMA等大模型；ALiBi以线性偏置增强外推能力。不同方法在长度外推、效率间权衡，是面试考察重点。

# 机器学习/深度学习

t55cenhjuilvw

|

2天前

|

博文

Transformer基础结构

Transformer由Vaswani等人于2017年提出，基于自注意力机制，摒弃传统循环结构，实现并行化处理，显著提升长距离依赖建模能力。其核心包括编码器-解码器架构、多头注意力、位置编码、残差连接与层归一化，广泛应用于NLP及多模态任务，是当前大模型的基础架构。（238字）

# 机器学习/深度学习 # 自然语言处理 # 网络架构

t55cenhjuilvw

|

2天前

|

博文

强化学习

强化学习（RL）是一种通过智能体与环境交互来学习最优策略的机器学习方法，核心是最大化长期累积奖励。其关键概念包括状态、动作、奖励、策略与价值函数，依赖试错和延迟奖励机制。常用方法有基于值的Q-learning、基于策略的Policy Gradient，以及结合两者的Actor-Critic框架。PPO、DPO等算法在实际中广泛应用，尤其在RLHF中优化语言模型。该领域持续发展，追求高效、稳定与实用的决策智能。

# 机器学习/深度学习 # 算法 # 关系型数据库 # 机器人 # C++

t55cenhjuilvw

|

2天前

|

博文

知识蒸馏

知识蒸馏是一种模型压缩技术，通过将大模型（教师）的知识迁移到小模型（学生）中，在降低计算成本的同时提升小模型性能。核心思想是让学生模仿教师的输出分布或中间特征。常用方法包括基于软标签的Hinton蒸馏（引入温度提升泛化信息）、特征蒸馏（对齐中间层表示）。按信息访问程度分为黑盒（仅输出）与白盒（含内部结构）。广泛用于加速推理与模型轻量化。

# 机器学习/深度学习 # 存储 # 知识图谱

t55cenhjuilvw

|

2天前

|

博文

高频面试题汇总

本文系统梳理大模型核心技术，涵盖Transformer自注意力机制、多头注意力、位置编码原理，详解LLaMA与GPT架构差异，解析LoRA、ZeRO优化策略，介绍FlashAttention内存优化，并提供显存与训练时间估算方法，覆盖训练、推理、部署全流程关键技术点。

# 机器学习/深度学习 # 存储 # 数据采集 # 缓存 # 物联网

t55cenhjuilvw

|

2天前

|

博文

前馈神经网络

前馈网络（FFN）是Transformer核心模块，提供非线性变换。主流结构为Linear→Activation→Linear，常用激活函数包括ReLU、GELU（BERT采用）和SwiGLU（LLaMA采用）。MoE通过稀疏激活提升参数规模与表达能力，兼顾计算效率，相较标准FFN更具扩展优势。

# 机器学习/深度学习 # 网络架构

游客wsxnwr5p22s5w

|

2天前

|

博文

🧠 前馈神经网络

前馈网络（FFN）是Transformer核心组件，提供非线性变换。标准FFN为两层线性加激活函数，MoE则通过稀疏激活提升参数效率。常用激活函数包括ReLU、GELU和SwiGLU，其中SwiGLU被LLaMA采用。MoE虽参数多但计算高效，表达能力更强。

# 机器学习/深度学习 # 网络架构

游客wsxnwr5p22s5w

|

2天前

|

博文

🎯 注意力机制详解

注意力机制是Transformer核心，通过自注意力、交叉注意力、多头、分组、多查询及潜在注意力等形式，实现对序列信息的高效建模。各类机制在参数量、速度与质量间权衡，广泛应用于NLP与多模态任务，是大模型设计与面试考察的重点。

# 机器学习/深度学习 # 存储 # 缓存 # 关系型数据库 # MySQL

t55cenhjuilvw

|

2天前

|

博文

05 | 倒排索引：如何从海量数据中查询同时带有「极」和「客」的唐诗？

本文介绍了正排索引与倒排索引的原理及应用。通过唐诗检索的场景对比，说明键值查询与关键词搜索的区别。正排索引以文档ID为键，适合精确查找；而倒排索引以关键字为键，记录包含该词的文档列表，显著提升多关键词联合查询效率。文中详述了倒排索引的构建步骤、链表归并求交集的查询优化方法，并拓展至多路归并与实际应用场景，如搜索引擎、推荐系统等。倒排索引虽原理简单，却是现代信息检索的核心技术之一。

# 存储 # 机器学习/深度学习 # 自然语言处理 # 搜索推荐 # 索引

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

机器学习/深度学习