机器学习/深度学习

首页 标签 机器学习/深度学习
# 机器学习/深度学习 #
关注
71731内容
|
14天前
|
注意力机制详解
注意力机制是Transformer核心,实现动态关注关键信息。包括自注意力、交叉注意力、多头、分组、多查询及潜在注意力等类型,各有优势与权衡,广泛应用于序列建模、多模态融合等场景,是大模型设计与面试考察重点。
Transformer基础结构
Transformer是Vaswani等人于2017年提出的基于注意力机制的神经网络,彻底革新了自然语言处理。其核心为编码器-解码器架构,通过自注意力机制并行捕捉长距离依赖,结合位置编码、残差连接与层归一化,显著提升建模效率与性能,成为BERT、GPT等大模型的基础。
🔥 高频面试题汇总
本文系统解析大模型核心技术,涵盖Transformer自注意力机制、多头注意力、位置编码原理,详解LLaMA与GPT架构差异,介绍LoRA、ZeRO优化策略及FlashAttention内存优化,提供显存与训练时间估算方法,并探讨幻觉抑制、安全性评估与垂直领域落地路径,助力深入理解与实战应用。(238字)
🎮 强化学习
强化学习(RL)是一种通过智能体与环境交互,以最大化累积奖励为目标的学习方法。核心要素包括状态、动作、奖励和策略,强调试错与延迟奖励。常见算法如Q-learning、PPO、DPO等,广泛应用于决策优化与大模型对齐人类偏好。
🔤 分词器详解
分词器将文本转为模型可处理的数字序列,主流算法如BPE、WordPiece和SentencePiece各有特点。BPE高效但中文支持弱,WordPiece适合英文,SentencePiece语言无关,尤适中文。实战中需根据语言和任务选择算法与参数。
🫗 知识蒸馏
知识蒸馏是一种模型压缩技术,通过将大模型(教师)的知识迁移到小模型(学生),提升小模型性能。核心思想是模仿教师的输出分布或中间特征,常用KL散度和温度机制优化软标签学习,兼顾推理效率与泛化能力,广泛应用于轻量化模型部署。(238字)
🚀 预训练技巧
预训练是大模型的核心,涵盖混合精度、分布式训练等关键技术。混合精度提升效率与显存利用率;数据、模型、流水线并行协同加速训练;DeepSpeed的ZeRO优化显存,FlashAttention提升注意力计算效率,助力千亿参数模型高效训练。
Transformer基础结构
Transformer是Vaswani等人于2017年提出的基于注意力机制的神经网络,采用编码器-解码器结构,通过自注意力并行处理序列,捕获长距离依赖。核心创新包括多头注意力、位置编码、残差连接与层归一化,显著提升训练效率与性能,广泛应用于NLP任务,取代传统RNN模型。(238字)
最近邻检索(下):如何用乘积量化实现「拍照识花」功能?
AI时代,图片检索依赖高效向量相似性计算。通过CNN提取图像特征后,需解决高维向量的快速检索与存储问题。聚类算法(如K-Means)比局部敏感哈希更精准,能保留语义相似性;乘积量化则大幅压缩向量存储空间。结合聚类、乘积量化与倒排索引,可实现海量图片的高效近似最近邻搜索,广泛应用于以图搜图、商品识别、推荐系统等场景。
非精准 Top K 检索:如何给检索结果的排序过程装上加速器?
本文介绍了非精准 Top K 检索的优化思路与实现方法,旨在通过简化打分过程提升检索性能。重点讲解了三种加速策略:基于静态质量得分排序截断、利用词频构建胜者表、以及分层索引设计。这些方法将计算前置到离线阶段,在线仅做快速截断,大幅降低开销。结合精准排序的两阶段架构(召回+排序),可在保证结果质量的同时显著提升效率,广泛应用于搜索与推荐系统中。
免费试用