图解强化学习|手算无模型学习:蒙特卡罗与时序差分
这篇博客介绍了强化学习在21点游戏中的应用,重点讲解了蒙特卡罗和时序差分两种无模型算法。游戏规则方面,详细说明了21点的观测状态、动作空间(要牌/停牌)、胜负判定和奖励机制。算法部分,蒙特卡罗方法通过完整对局后反向更新价值函数,而时序差分则采用单步更新策略,结合即时奖励和下一状态估值进行动态调整。文章通过具体示例展示了两种算法的计算流程,包括回报累加、Q值更新和策略优化过程,适合强化学习初学者理解基础概念。
PyTorch深度学习实战 |SegNet
CamVid_11是面向自动驾驶的语义分割数据集,含700+张精准标注图像,划分为训练/验证/测试集。涵盖道路、车辆、行人等11类场景目标(含背景共12类),支持SegNet等模型训练与评估。
人工智能|大白话DETR 模型
DETR(检测变换器)是首个端到端目标检测模型,摒弃锚框与NMS后处理。它以CNN提取特征,经Transformer编码器-解码器处理,配合100个可学习目标查询(OQ),通过二分图匹配实现预测框与真实框的一对一最优分配,直接输出类别与坐标。(239字)
人工智能|大白话YOLOv3,YOLOv4
YOLOv3采用全卷积+残差连接+多尺度融合架构,含Darknet-53骨干网、FPN颈部与三尺度检测头,支持任意32倍数输入(如416×416),输出13×13、26×26、52×52特征图,兼顾大中小目标检测。
人工智能|大白话GPT
GPT-1是首个基于Transformer解码器的生成式预训练模型,采用自回归方式逐词生成文本:以起始,依上下文预测下一词,循环直至。其核心为12层Decoder-only架构,通过掩码自注意力实现单向语言建模,并支持分类、蕴含等下游任务微调。(239字)
人工智能|手算Swin Transformer模型
Swin Transformer是一种高效视觉Transformer,通过移位窗口注意力(Shifted Window)替代全局自注意力,结合分层下采样与局部窗口计算,显著降低计算复杂度,同时保持强大建模能力。其核心包括Patch划分、线性嵌入、W-MSA/SW-MSA交替模块及Patch Merging,构成多尺度特征金字塔,已成为目标检测、分割等任务的主流骨干网络。(239字)