机器学习/深度学习

首页 标签 机器学习/深度学习
# 机器学习/深度学习 #
关注
71633内容
🚀 预训练技巧
预训练是大模型基石,涵盖混合精度、分布式训练等核心技术。混合精度提升效率与显存利用率;数据/模型/流水线并行支持超大模型训练;DeepSpeed的ZeRO优化显存,FlashAttention加速注意力计算,助力高效大规模训练。(239字)
🔤 分词器详解
分词器将文本转为模型可处理的数字序列,主流算法如BPE、WordPiece和SentencePiece各有特点:BPE高效但中文支持弱;WordPiece用于BERT,适合英文;SentencePiece语言无关,支持多语言。选择时需权衡粒度、速度与模型需求,中文推荐SentencePiece。
Chap01. 认识AI
本文介绍了AI核心概念及大模型开发原理,涵盖人工智能发展历程与Transformer神经网络的关键作用。通过注意力机制,Transformer实现对文本、图像、音频的高效处理,成为GPT等大模型的基础。大语言模型(LLM)利用其持续生成能力,逐字推理输出内容,实现连贯对话与多模态生成。
|
5天前
|
预训练技巧
预训练是大模型能力的核心,涵盖混合精度、分布式训练等关键技术。混合精度通过FP16/BF16加速计算并节省显存;分布式训练采用数据、模型、流水线并行提升效率,结合All-Reduce等通信策略实现高效同步;DeepSpeed的ZeRO技术分区优化器状态、梯度与参数,显著降低显存占用;FlashAttention优化注意力机制,提升速度与内存效率;学习率策略如warmup与余弦退火助力稳定收敛。
|
5天前
|
位置编码详解
位置编码为Transformer提供序列位置信息,弥补注意力机制无位置感知的缺陷。主要分绝对(如可学习、Sinusoidal)和相对(如RoPE、ALiBi)两类。RoPE通过旋转矩阵建模相对位置,支持外推,广泛用于LLaMA等大模型;ALiBi以线性偏置增强外推能力。不同方法在长度外推、效率间权衡,是面试考察重点。
|
5天前
|
Transformer基础结构
Transformer由Vaswani等人于2017年提出,基于自注意力机制,摒弃传统循环结构,实现并行化处理,显著提升长距离依赖建模能力。其核心包括编码器-解码器架构、多头注意力、位置编码、残差连接与层归一化,广泛应用于NLP及多模态任务,是当前大模型的基础架构。(238字)
|
5天前
|
强化学习
强化学习(RL)是一种通过智能体与环境交互来学习最优策略的机器学习方法,核心是最大化长期累积奖励。其关键概念包括状态、动作、奖励、策略与价值函数,依赖试错和延迟奖励机制。常用方法有基于值的Q-learning、基于策略的Policy Gradient,以及结合两者的Actor-Critic框架。PPO、DPO等算法在实际中广泛应用,尤其在RLHF中优化语言模型。该领域持续发展,追求高效、稳定与实用的决策智能。
|
5天前
|
知识蒸馏
知识蒸馏是一种模型压缩技术,通过将大模型(教师)的知识迁移到小模型(学生)中,在降低计算成本的同时提升小模型性能。核心思想是让学生模仿教师的输出分布或中间特征。常用方法包括基于软标签的Hinton蒸馏(引入温度提升泛化信息)、特征蒸馏(对齐中间层表示)。按信息访问程度分为黑盒(仅输出)与白盒(含内部结构)。广泛用于加速推理与模型轻量化。
|
5天前
|
高频面试题汇总
本文系统梳理大模型核心技术,涵盖Transformer自注意力机制、多头注意力、位置编码原理,详解LLaMA与GPT架构差异,解析LoRA、ZeRO优化策略,介绍FlashAttention内存优化,并提供显存与训练时间估算方法,覆盖训练、推理、部署全流程关键技术点。
|
5天前
|
前馈神经网络
前馈网络(FFN)是Transformer核心模块,提供非线性变换。主流结构为Linear→Activation→Linear,常用激活函数包括ReLU、GELU(BERT采用)和SwiGLU(LLaMA采用)。MoE通过稀疏激活提升参数规模与表达能力,兼顾计算效率,相较标准FFN更具扩展优势。
免费试用