人工智能|大白话YOLOv2
YOLOv2采用轻量高效的Darknet-19骨干网络(仅19层卷积),全用1×1和3×3小卷积核,配BatchNorm与LeakyReLU;引入Anchor Boxes、Passthrough层融合多尺度特征,并支持多尺寸输入,显著提升精度与小目标检测能力。(238字)
人工智能|YOLOv1的损失函数和非极大值抑制
YOLOv1将图像划分为7×7网格,每格预测2个边界框(共98个),含中心点、宽高、置信度及20类概率。损失函数由坐标(加权5)、置信度(含/不含物体分权重)和分类三部分构成,均采用带平衡系数的均方误差,并以IoU为核心匹配与评估依据。(239字)
人工智能 |手算CLIP模型
本文详解CLIP模型原理:突破传统CNN需重新训练的局限,通过4亿图文对联合训练文本与图像编码器,实现零样本迁移。利用对比学习对齐多模态特征,支持图文检索、零样本分类等应用,让AI像人一样理解未见过的概念。(239字)
单车检测数据集分享-适用于YOLO视觉检测、目标检测数据集分享
本单车检测数据集含3000张真实场景图像,覆盖城市道路、园区、校园等多环境,支持昼夜、遮挡、多角度等复杂条件,采用YOLO标准格式标注(单类“单车”),适配YOLO系列、Faster R-CNN、RT-DETR等主流模型,开箱即用,适用于智慧交通、共享单车管理、安防巡检与教学科研。
图解强化学习 |手算DQN
摘要:本文系统介绍了深度Q网络(DQN)算法及其改进方案。DQN通过神经网络替代Q表解决高维状态问题,采用经验回放和目标网络提升稳定性,但仍存在Q值高估等局限性。文章详细解析了DQN网络结构(4维输入→2维动作Q值输出)、基于时序差分的更新流程(含经验回放采样与双网络协同机制),并通过矩阵示例演示MSELoss计算过程。进一步探讨两种改进算法:DoubleDQN通过解耦动作选择与价值评估缓解过估计问题;DuelingDQN则创新性地拆分状态价值V与动作优势A分支,提升学习效率。二者均保持DQN基础框架,分别
PyTorch深度学习实战 |手算变分自编码器(VAE)
本文详解变分自编码器(VAE)原理:指出传统自编码器因潜在空间无序而无法生成新图像;VAE通过引入概率建模,用高斯分布近似后验,并结合重构损失与KL散度优化,使潜在空间连续可采样,从而实现可控图像生成。含公式推导、重参数化技巧及完整代码实现。(239字)