机器学习/深度学习

首页 标签 机器学习/深度学习
# 机器学习/深度学习 #
关注
71631内容
【报考指南】2026年想考AI证书,有哪些靠谱建议?
最近总被朋友问到:“想学点AI,考个证是不是靠谱?”说实话,证书本身不是魔法钥匙,但它确实能帮你梳理知识体系,有时在求职或转行时增加一点“辨识度”。如果你在规划2026年的学习计划,下面这几个不同方向的认证,或许可以帮你打开思路
认识AI
本文介绍了AI核心概念及大模型开发原理,涵盖人工智能发展历程与Transformer神经网络的关键作用。重点解析了Transformer的注意力机制及其在自然语言处理中的应用,揭示大语言模型(LLM)如何通过持续生成实现连贯文本输出,帮助理解GPT等模型的工作机制。
|
5天前
|
前馈神经网络
前馈网络(FFN)是Transformer的核心组件,提供非线性变换能力。标准FFN采用“线性变换-激活函数-线性变换”结构,常用ReLU、GELU和SwiGLU等激活函数。其中GELU被BERT采用,SwiGLU则用于LLaMA。MoE(混合专家)模型通过稀疏激活实现高效计算,在参数量大的同时保持较低计算开销,具备动态路由与专家并行特性。三者在参数量、计算量与表达能力上各有优势。
|
5天前
|
🔥 高频面试题汇总
本文系统梳理了大模型核心技术,涵盖Transformer架构、训练优化、推理部署及显存估算等关键主题,并结合面试场景提供回答框架与实战计算题解析,助力深入理解与高效表达。
前馈神经网络
前馈神经网络(FFN)是Transformer核心模块,实现非线性变换。标准结构为Linear→Activation→Linear,常用ReLU、GELU、SwiGLU激活函数。MoE引入稀疏激活与专家路由,提升表达能力与效率。相比标准FFN,MoE参数多、计算更高效,广泛用于大模型。
基础算法2
本文系统介绍了加密算法与排序算法的核心知识。涵盖对称加密(如AES、SM4)、非对称加密(如RSA、SM2)、哈希摘要、电子签名及密码存储方案,并深入解析常见排序算法(冒泡、快排、归并等)的原理、复杂度与优化策略,同时涉及字符串反转、正则匹配与二分查找等典型应用,内容全面,理论结合实践,适用于技术学习与面试准备。
位置编码详解
位置编码为Transformer提供序列位置信息,弥补注意力机制无位置感知的缺陷。主要分绝对(如可学习、Sinusoidal)和相对(如RoPE、ALiBi)两类。RoPE通过旋转矩阵支持长序列,ALiBi以线性偏置增强外推能力。不同方法在长度外推、效率上各有优劣,广泛应用于LLaMA、BLOOM等大模型,是面试考察重点。
|
5天前
|
🎮 强化学习
强化学习通过智能体与环境交互,基于状态、动作和奖励学习最优策略。核心方法包括价值迭代、Q-learning、策略梯度及Actor-Critic框架,结合在线/离线学习与同/异策略优化,实现高效决策。
Transformer基础结构
Transformer是Vaswani等人于2017年提出的基于注意力机制的神经网络架构,摒弃了传统RNN,实现并行化处理,显著提升自然语言处理性能。其核心为编码器-解码器结构,通过自注意力机制捕捉长距离依赖,结合位置编码、残差连接与层归一化,有效训练深层模型。多头注意力机制增强特征表达能力,广泛应用于机器翻译、文本生成等任务,成为现代大模型基石。
注意力机制详解
注意力机制是Transformer核心,实现动态信息聚焦。涵盖自注意力、交叉注意力、多头(MHA)、分组(GQA)、多查询(MQA)及潜在注意力(MLA),在参数量、速度与质量间权衡。广泛应用于NLP与多模态任务,面试常考其原理与复杂度。
免费试用