机器学习/深度学习

首页 标签 机器学习/深度学习
# 机器学习/深度学习 #
关注
71633内容
🧠 前馈神经网络
前馈网络(FFN)是Transformer核心组件,提供非线性变换。标准FFN为两层线性加激活函数,MoE则通过稀疏激活提升参数效率。常用激活函数包括ReLU、GELU和SwiGLU,其中SwiGLU被LLaMA采用。MoE虽参数多但计算高效,表达能力更强。
🎯 注意力机制详解
注意力机制是Transformer核心,通过自注意力、交叉注意力、多头、分组、多查询及潜在注意力等形式,实现对序列信息的高效建模。各类机制在参数量、速度与质量间权衡,广泛应用于NLP与多模态任务,是大模型设计与面试考察的重点。
|
5天前
|
05 | 倒排索引:如何从海量数据中查询同时带有「极」和「客」的唐诗?
本文介绍了正排索引与倒排索引的原理及应用。通过唐诗检索的场景对比,说明键值查询与关键词搜索的区别。正排索引以文档ID为键,适合精确查找;而倒排索引以关键字为键,记录包含该词的文档列表,显著提升多关键词联合查询效率。文中详述了倒排索引的构建步骤、链表归并求交集的查询优化方法,并拓展至多路归并与实际应用场景,如搜索引擎、推荐系统等。倒排索引虽原理简单,却是现代信息检索的核心技术之一。
|
5天前
|
分词器详解
分词器将文本转为模型可处理的数字序列,主流算法如BPE、WordPiece和SentencePiece各有特点。BPE高效但中文支持弱,WordPiece适合英文,SentencePiece语言无关,尤适中文。实战中需根据语言特性选择,并关注词汇表大小、OOV问题等面试重点。
|
5天前
|
注意力机制详解
注意力机制是Transformer核心,实现动态关注关键信息。包括自注意力、交叉注意力、多头、分组、多查询及潜在注意力等类型,各有优势与权衡,广泛应用于序列建模、多模态融合等场景,是大模型设计与面试考察重点。
Transformer基础结构
Transformer是Vaswani等人于2017年提出的基于注意力机制的神经网络,彻底革新了自然语言处理。其核心为编码器-解码器架构,通过自注意力机制并行捕捉长距离依赖,结合位置编码、残差连接与层归一化,显著提升建模效率与性能,成为BERT、GPT等大模型的基础。
🔥 高频面试题汇总
本文系统解析大模型核心技术,涵盖Transformer自注意力机制、多头注意力、位置编码原理,详解LLaMA与GPT架构差异,介绍LoRA、ZeRO优化策略及FlashAttention内存优化,提供显存与训练时间估算方法,并探讨幻觉抑制、安全性评估与垂直领域落地路径,助力深入理解与实战应用。(238字)
🎮 强化学习
强化学习(RL)是一种通过智能体与环境交互,以最大化累积奖励为目标的学习方法。核心要素包括状态、动作、奖励和策略,强调试错与延迟奖励。常见算法如Q-learning、PPO、DPO等,广泛应用于决策优化与大模型对齐人类偏好。
🔤 分词器详解
分词器将文本转为模型可处理的数字序列,主流算法如BPE、WordPiece和SentencePiece各有特点。BPE高效但中文支持弱,WordPiece适合英文,SentencePiece语言无关,尤适中文。实战中需根据语言和任务选择算法与参数。
🫗 知识蒸馏
知识蒸馏是一种模型压缩技术,通过将大模型(教师)的知识迁移到小模型(学生),提升小模型性能。核心思想是模仿教师的输出分布或中间特征,常用KL散度和温度机制优化软标签学习,兼顾推理效率与泛化能力,广泛应用于轻量化模型部署。(238字)
免费试用