计算机视觉

首页 标签 计算机视觉
# 计算机视觉 #
关注
26019内容
|
9小时前
|
面向古籍版面数字化识别应用研究—基于HisDoc-DETR模型深入剖析
针对古籍版面复杂、文字稀疏、数据稀缺等难题,合合信息与华南理工大学联合提出HisDoc-DETR模型。该框架融合Transformer全局建模与CNN局部特征提取优势,创新引入语义关系学习、双流特征融合及GIoU感知预测头三大模块,显著提升古籍逻辑与物理结构的识别精度,在SCUT-CAB数据集上性能超越主流方法,为古籍数字化、知识库构建与文化遗产传播提供强有力的技术支撑。
|
1天前
| |
来自: 物联网
Phi-3 技术报告:手机本地运行的高能力语言模型
Phi-3系列模型通过高质量数据训练与架构创新,实现小体积、高性能。38亿参数的phi-3-mini在手机端可达GPT-3.5水平,支持长上下文、多模态与高效推理,推动AI普惠化。
|
1天前
|
【MPDR & SMI】失配广义夹角随输入信噪比变化趋势、输出信干噪比随输入信噪比变化趋势研究(Matlab代码实现)
【MPDR & SMI】失配广义夹角随输入信噪比变化趋势、输出信干噪比随输入信噪比变化趋势研究(Matlab代码实现)
|
1天前
|
【改进引导滤波器】各向异性引导滤波器,利用加权平均来实现最大扩散,同时保持图像中的强边缘,实现强各向异性滤波,同时保持原始引导滤波器的低低计算成本(Matlab代码实现)
【改进引导滤波器】各向异性引导滤波器,利用加权平均来实现最大扩散,同时保持图像中的强边缘,实现强各向异性滤波,同时保持原始引导滤波器的低低计算成本(Matlab代码实现)
YOLOv11浅浅解析:架构创新
YOLOv11是YOLO系列最新升级版,通过C3k2模块、SPPF优化和解耦检测头等创新,显著提升检测精度与速度,mAP提高2-5%,推理更快,支持多平台部署,适用于工业、安防、自动驾驶等场景。
香烟品牌识别和规格识别设计思路
基于YOLOv8实现香烟品牌与规格(条装/单盒装)识别,采用“品牌+规格”组合为60类的复合类别方案,结合充足标注数据(每类300-500张)、数据增强与反例优化,进行端到端联合训练,提升模型在复杂场景下的检测与分类精度。
|
3天前
| |
如何让AI更“聪明”?VLM模型的优化策略与测试方法全解析​
本文系统解析视觉语言模型(VLM)的核心机制、推理优化、评测方法与挑战。涵盖多模态对齐、KV Cache优化、性能测试及主流基准,助你全面掌握VLM技术前沿。建议点赞收藏,深入学习。
基于YOLOv8的人体多姿态行为识别系统(站立、摔倒、坐姿、深蹲与跑步)|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!
本项目基于YOLOv8深度学习模型,实现了一个多姿态行为识别系统,能够精准地识别站立、摔倒、坐姿、深蹲和跑步等行为。项目的核心内容包括完整的YOLOv8训练代码、标注数据集、预训练权重文件、部署教程和PyQt5界面,提供了一套从数据收集到最终部署的完整解决方案。
免费试用