Jokerw_个人页

Jokerw
个人头像照片
59
0
0

个人介绍

暂无个人介绍

擅长的技术

获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明
暂无更多信息

2025年12月

  • 12.18 15:12:19
    发表了文章 2025-12-18 15:12:19

    🔧 微调技术

    微调是将预训练模型适配特定任务的关键技术,主要包括指令微调、对齐微调和高效参数微调。LoRA等方法通过低秩矩阵分解减少参数量,提升训练效率,而Prefix Tuning、Prompt Tuning则通过少量可训练参数实现高效迁移,在效果与成本间取得平衡。
  • 12.18 15:11:34
    发表了文章 2025-12-18 15:11:34

    🚀 预训练技巧

    预训练是大模型能力基石,涵盖混合精度、分布式训练等核心技术。混合精度通过FP16/BF16加速计算、节省显存;分布式训练采用数据、模型、流水线并行突破算力与显存瓶颈;DeepSpeed的ZeRO技术降低显存冗余,支持千亿参数训练;FlashAttention优化注意力计算效率。
  • 12.18 15:08:53
    发表了文章 2025-12-18 15:08:53

    模型架构篇🏗️ 主流大模型结构

    本文系统梳理主流大模型架构:Encoder-Decoder、Decoder-Only、Encoder-Only及Prefix-Decoder,解析GPT、LLaMA、BERT等代表模型特点与应用,并对比参数、上下文长度与优势场景,涵盖中英文大模型发展及面试核心要点。
  • 12.18 15:08:05
    发表了文章 2025-12-18 15:08:05

    解码策略

    解码策略影响模型文本生成的创造性和准确性。本文介绍贪婪解码、Beam Search及随机采样(如Top-k、Top-p)等方法,对比其在多样性、质量与计算成本上的差异,助你选择合适策略应对不同应用场景。
  • 12.18 15:07:21
    发表了文章 2025-12-18 15:07:21

    前馈神经网络

    前馈网络(FFN)是Transformer的核心组件,提供非线性变换能力。标准FFN采用“线性变换-激活函数-线性变换”结构,常用ReLU、GELU和SwiGLU等激活函数。其中GELU被BERT采用,SwiGLU则用于LLaMA。MoE(混合专家)模型通过稀疏激活实现高效计算,在参数量大的同时保持较低计算开销,具备动态路由与专家并行特性。三者在参数量、计算量与表达能力上各有优势。
  • 12.18 15:05:47
    发表了文章 2025-12-18 15:05:47

    归一化技术

    归一化技术对大模型训练至关重要。LayerNorm通过对特征维度归一化提升稳定性,是Transformer标配;RMSNorm省去均值计算,更高效且广泛用于LLaMA等模型;Pre-norm结构因更好性能成为现代架构主流。
  • 12.18 15:01:24
    发表了文章 2025-12-18 15:01:24

    AI大模型位置编码详解

    位置编码为Transformer提供序列顺序信息,弥补注意力机制无位置感知的缺陷。主要分为绝对编码(如可学习、Sinusoidal)和相对编码(如RoPE、ALiBi)。RoPE通过旋转矩阵支持长序列,ALiBi以线性偏置增强外推能力。不同方法在长度外推、效率等方面各有优劣,广泛应用于LLaMA、BLOOM等大模型中。
  • 12.18 14:59:45
    发表了文章 2025-12-18 14:59:45

    AI大模型注意力机制详解

    注意力机制是Transformer的核心,实现序列间动态关注。包括自注意力、交叉注意力、多头(MHA)、分组(GQA)、多查询(MQA)及低秩压缩的MLA等变体,平衡效率与性能,广泛应用于大模型优化与推理加速。
  • 12.18 14:58:02
    发表了文章 2025-12-18 14:58:02

    AI大模型分词器详解

    分词器是将文本转为模型可处理数字序列的关键组件。本文详解BPE、WordPiece、SentencePiece三大主流算法原理与优劣,对比其在多语言支持、分词粒度等方面的差异,并提供中英文实战代码示例,助你掌握词汇表构建流程、特殊标记处理及常见面试问题应对策略。
  • 12.18 14:55:06
    发表了文章 2025-12-18 14:55:06

    云原生

    Docker是一个基于Go语言的开源容器化平台,实现“一次镜像,处处运行”。它通过容器技术将应用及其依赖打包,实现高效、轻量的部署与隔离,相比传统虚拟机启动更快、资源占用更少。
  • 12.18 14:51:10
    发表了文章 2025-12-18 14:51:10

    时间空间复杂度入门

    本文介绍算法复杂度基础,重点讲解时间与空间复杂度的估算方法。使用Big O表示法,强调只需关注最高阶项,忽略常数与低阶项。通过多个代码示例,说明如何根据循环结构和内存申请情况分析复杂度,并指出常见简化估算的适用场景与局限性。
  • 12.18 14:47:57
    发表了文章 2025-12-18 14:47:57

    AI大模型Transformer基础结构

    Transformer是2017年提出的基于注意力机制的神经网络,摒弃了传统RNN结构,采用自注意力与多头注意力机制,实现并行化处理和长距离依赖建模。其核心由编码器-解码器架构、位置编码、残差连接和层归一化组成,广泛应用于NLP任务,成为BERT、GPT等模型的基础。
  • 发表了文章 2025-12-18

    [Blog]三层架构:代码本地运行(☆)

  • 发表了文章 2025-12-18

    [舍弃,后续需调整][Blog]JPA实现分页需求(☆☆)

  • 发表了文章 2025-12-18

    低代码平台芋道:代码本地运行(☆) 知识储备:SpringBoot、MySQL、Maven

  • 发表了文章 2025-12-18

    2.映射关系(1-1 1-n n-n)

  • 发表了文章 2025-12-18

    [ERP]SpringBoot集成Swagger技术(☆

  • 发表了文章 2025-12-18

    Activiti工程分享

  • 发表了文章 2025-12-18

    Activiti框架拓展

  • 发表了文章 2025-12-18

    导读丨三步走策略,轻松搞定检索!

  • 发表了文章 2025-12-18

    [MES]数据库改造H2到MySQL(☆☆)[MES]数据库改造H2到MySQL(☆☆)

  • 发表了文章 2025-12-18

    一场FullGC故障排查

  • 发表了文章 2025-12-18

    [Blog]SpringBootExcel导入(☆☆☆)

  • 发表了文章 2025-12-18

    发布模式

  • 发表了文章 2025-12-18

    汇总

  • 发表了文章 2025-12-18

    搭建dubbo-zk应用

  • 发表了文章 2025-12-18

    .入门运行Soul

  • 发表了文章 2025-12-18

    SpringBoot

  • 发表了文章 2025-12-18

    自动装配机制

  • 发表了文章 2025-12-18

    MyBatis 1.常见配置

  • 发表了文章 2025-12-18

    3.分页

  • 发表了文章 2025-12-18

    数据同步原理

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
暂无更多信息