机器学习/深度学习

首页 标签 机器学习/深度学习
# 机器学习/深度学习 #
关注
71601内容
|
2天前
|
预训练技巧
预训练是大模型能力的核心,涵盖混合精度、分布式训练等关键技术。混合精度通过FP16/BF16加速计算并节省显存;分布式训练采用数据、模型、流水线并行提升效率,结合All-Reduce等通信策略实现高效同步;DeepSpeed的ZeRO技术分区优化器状态、梯度与参数,显著降低显存占用;FlashAttention优化注意力机制,提升速度与内存效率;学习率策略如warmup与余弦退火助力稳定收敛。
|
2天前
|
位置编码详解
位置编码为Transformer提供序列位置信息,弥补注意力机制无位置感知的缺陷。主要分绝对(如可学习、Sinusoidal)和相对(如RoPE、ALiBi)两类。RoPE通过旋转矩阵建模相对位置,支持外推,广泛用于LLaMA等大模型;ALiBi以线性偏置增强外推能力。不同方法在长度外推、效率间权衡,是面试考察重点。
|
2天前
|
Transformer基础结构
Transformer由Vaswani等人于2017年提出,基于自注意力机制,摒弃传统循环结构,实现并行化处理,显著提升长距离依赖建模能力。其核心包括编码器-解码器架构、多头注意力、位置编码、残差连接与层归一化,广泛应用于NLP及多模态任务,是当前大模型的基础架构。(238字)
|
2天前
|
强化学习
强化学习(RL)是一种通过智能体与环境交互来学习最优策略的机器学习方法,核心是最大化长期累积奖励。其关键概念包括状态、动作、奖励、策略与价值函数,依赖试错和延迟奖励机制。常用方法有基于值的Q-learning、基于策略的Policy Gradient,以及结合两者的Actor-Critic框架。PPO、DPO等算法在实际中广泛应用,尤其在RLHF中优化语言模型。该领域持续发展,追求高效、稳定与实用的决策智能。
|
2天前
|
知识蒸馏
知识蒸馏是一种模型压缩技术,通过将大模型(教师)的知识迁移到小模型(学生)中,在降低计算成本的同时提升小模型性能。核心思想是让学生模仿教师的输出分布或中间特征。常用方法包括基于软标签的Hinton蒸馏(引入温度提升泛化信息)、特征蒸馏(对齐中间层表示)。按信息访问程度分为黑盒(仅输出)与白盒(含内部结构)。广泛用于加速推理与模型轻量化。
|
2天前
|
高频面试题汇总
本文系统梳理大模型核心技术,涵盖Transformer自注意力机制、多头注意力、位置编码原理,详解LLaMA与GPT架构差异,解析LoRA、ZeRO优化策略,介绍FlashAttention内存优化,并提供显存与训练时间估算方法,覆盖训练、推理、部署全流程关键技术点。
|
2天前
|
前馈神经网络
前馈网络(FFN)是Transformer核心模块,提供非线性变换。主流结构为Linear→Activation→Linear,常用激活函数包括ReLU、GELU(BERT采用)和SwiGLU(LLaMA采用)。MoE通过稀疏激活提升参数规模与表达能力,兼顾计算效率,相较标准FFN更具扩展优势。
🧠 前馈神经网络
前馈网络(FFN)是Transformer核心组件,提供非线性变换。标准FFN为两层线性加激活函数,MoE则通过稀疏激活提升参数效率。常用激活函数包括ReLU、GELU和SwiGLU,其中SwiGLU被LLaMA采用。MoE虽参数多但计算高效,表达能力更强。
🎯 注意力机制详解
注意力机制是Transformer核心,通过自注意力、交叉注意力、多头、分组、多查询及潜在注意力等形式,实现对序列信息的高效建模。各类机制在参数量、速度与质量间权衡,广泛应用于NLP与多模态任务,是大模型设计与面试考察的重点。
|
2天前
|
05 | 倒排索引:如何从海量数据中查询同时带有「极」和「客」的唐诗?
本文介绍了正排索引与倒排索引的原理及应用。通过唐诗检索的场景对比,说明键值查询与关键词搜索的区别。正排索引以文档ID为键,适合精确查找;而倒排索引以关键字为键,记录包含该词的文档列表,显著提升多关键词联合查询效率。文中详述了倒排索引的构建步骤、链表归并求交集的查询优化方法,并拓展至多路归并与实际应用场景,如搜索引擎、推荐系统等。倒排索引虽原理简单,却是现代信息检索的核心技术之一。
免费试用