Jokerw_个人页

Jokerw

文章

问答

视频

个人介绍

暂无个人介绍

擅长的技术

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明

高分内容

最新动态

文章
问答
视频

暂无更多信息

2025年12月

12.18 15:12:19

发表了文章 2025-12-18 15:12:19

🔧 微调技术

微调是将预训练模型适配特定任务的关键技术，主要包括指令微调、对齐微调和高效参数微调。LoRA等方法通过低秩矩阵分解减少参数量，提升训练效率，而Prefix Tuning、Prompt Tuning则通过少量可训练参数实现高效迁移，在效果与成本间取得平衡。
12.18 15:11:34

发表了文章 2025-12-18 15:11:34

🚀 预训练技巧

预训练是大模型能力基石，涵盖混合精度、分布式训练等核心技术。混合精度通过FP16/BF16加速计算、节省显存；分布式训练采用数据、模型、流水线并行突破算力与显存瓶颈；DeepSpeed的ZeRO技术降低显存冗余，支持千亿参数训练；FlashAttention优化注意力计算效率。
12.18 15:08:53

发表了文章 2025-12-18 15:08:53

模型架构篇🏗️ 主流大模型结构

本文系统梳理主流大模型架构：Encoder-Decoder、Decoder-Only、Encoder-Only及Prefix-Decoder，解析GPT、LLaMA、BERT等代表模型特点与应用，并对比参数、上下文长度与优势场景，涵盖中英文大模型发展及面试核心要点。
12.18 15:08:05

发表了文章 2025-12-18 15:08:05

解码策略

解码策略影响模型文本生成的创造性和准确性。本文介绍贪婪解码、Beam Search及随机采样（如Top-k、Top-p）等方法，对比其在多样性、质量与计算成本上的差异，助你选择合适策略应对不同应用场景。
12.18 15:07:21

发表了文章 2025-12-18 15:07:21

前馈神经网络

前馈网络（FFN）是Transformer的核心组件，提供非线性变换能力。标准FFN采用“线性变换-激活函数-线性变换”结构，常用ReLU、GELU和SwiGLU等激活函数。其中GELU被BERT采用，SwiGLU则用于LLaMA。MoE（混合专家）模型通过稀疏激活实现高效计算，在参数量大的同时保持较低计算开销，具备动态路由与专家并行特性。三者在参数量、计算量与表达能力上各有优势。
12.18 15:05:47

发表了文章 2025-12-18 15:05:47

归一化技术

归一化技术对大模型训练至关重要。LayerNorm通过对特征维度归一化提升稳定性，是Transformer标配；RMSNorm省去均值计算，更高效且广泛用于LLaMA等模型；Pre-norm结构因更好性能成为现代架构主流。
12.18 15:01:24

发表了文章 2025-12-18 15:01:24

AI大模型位置编码详解

位置编码为Transformer提供序列顺序信息，弥补注意力机制无位置感知的缺陷。主要分为绝对编码（如可学习、Sinusoidal）和相对编码（如RoPE、ALiBi）。RoPE通过旋转矩阵支持长序列，ALiBi以线性偏置增强外推能力。不同方法在长度外推、效率等方面各有优劣，广泛应用于LLaMA、BLOOM等大模型中。
12.18 14:59:45

发表了文章 2025-12-18 14:59:45

AI大模型注意力机制详解

注意力机制是Transformer的核心，实现序列间动态关注。包括自注意力、交叉注意力、多头（MHA）、分组（GQA）、多查询（MQA）及低秩压缩的MLA等变体，平衡效率与性能，广泛应用于大模型优化与推理加速。
12.18 14:58:02

发表了文章 2025-12-18 14:58:02

AI大模型分词器详解

分词器是将文本转为模型可处理数字序列的关键组件。本文详解BPE、WordPiece、SentencePiece三大主流算法原理与优劣，对比其在多语言支持、分词粒度等方面的差异，并提供中英文实战代码示例，助你掌握词汇表构建流程、特殊标记处理及常见面试问题应对策略。
12.18 14:55:06

发表了文章 2025-12-18 14:55:06

云原生

Docker是一个基于Go语言的开源容器化平台，实现“一次镜像，处处运行”。它通过容器技术将应用及其依赖打包，实现高效、轻量的部署与隔离，相比传统虚拟机启动更快、资源占用更少。
12.18 14:51:10

发表了文章 2025-12-18 14:51:10

时间空间复杂度入门

本文介绍算法复杂度基础，重点讲解时间与空间复杂度的估算方法。使用Big O表示法，强调只需关注最高阶项，忽略常数与低阶项。通过多个代码示例，说明如何根据循环结构和内存申请情况分析复杂度，并指出常见简化估算的适用场景与局限性。
12.18 14:47:57

发表了文章 2025-12-18 14:47:57

AI大模型Transformer基础结构

Transformer是2017年提出的基于注意力机制的神经网络，摒弃了传统RNN结构，采用自注意力与多头注意力机制，实现并行化处理和长距离依赖建模。其核心由编码器-解码器架构、位置编码、残差连接和层归一化组成，广泛应用于NLP任务，成为BERT、GPT等模型的基础。