视觉智能开放平台

首页 标签 视觉智能开放平台
|
1月前
| |
来自: 视觉智能
视频字幕擦除与动态修复技术深度解析:从开源算法基准到高并发SaaS架构的演进
本报告深度解析视频硬字幕擦除与修复技术演进,涵盖光流传播、时空Transformer(如ProPainter)及扩散模型等前沿算法;对比开源工具、桌面软件与SaaS云平台,指出云端原生架构在算力解耦、热更新、高并发与易用性上的断代优势,为工业落地提供权威指南。
红外小目标检测新突破!异常感知检测头AA-YOLO:节俭又鲁棒,小样本也能精准识别
本文提出AA-YOLO:首个将统计异常检验嵌入YOLO检测头的方法,通过指数分布建模背景,显式识别小目标为统计异常,显著降低误报率;仅需10%数据即达90%全量性能,参数比EFLNet少6倍,轻量高效;在噪声、跨域、跨模态下鲁棒性强,且可无缝适配各类YOLO及实例分割网络。
|
1月前
| |
来自: 视觉智能
SPMamba-YOLO:多尺度增强+全局建模,水下目标检测精度飙升4.9%!
本文提出SPMamba-YOLO水下目标检测模型:创新融合SPPELAN(增强多尺度特征与感受野)、PSA注意力(抑制背景、提升小目标判别)及Mamba状态空间模块(建模长程依赖),在URPC2022上mAP@0.5达82.5%,超越YOLOv8n 4.9%。
基于YOLO11的交通违规检测系统(Python源码+数据集+Pyside6界面)
本文基于YOLO11构建交通违规检测系统,涵盖23类目标(车辆、信号灯、标志等),详解数据制作(ROI裁剪优化尺度)、模型改进(C3k2、C2PSA、轻量Detect头)及训练可视化全过程,并集成PySide6实现GUI应用,助力工业落地。
|
1月前
| |
来自: 视觉智能
基于云原生架构的 AIGC 视频后处理实践:应对扩散模型纹理挑战
随着 AIGC 视频生成规模化应用,视频后处理能力逐渐成为系统吞吐与质量保障的关键环节。本文结合实际工程实践,分析扩散模型生成视频在高频纹理与时间一致性方面的挑战,并探讨基于云原生架构的 GPU 化后处理方案。通过引入生成式重构与弹性算力调度,实现视频修复性能与吞吐能力的显著提升。
video-subtitle-remover(VSR)--开源AI去字幕方案深度解析
VSR(video-subtitle-remover)是一款开源AI视频去字幕工具,支持本地运行,无需上传数据。它融合STTN、LaMa、ProPainter三大前沿修复模型,可智能检测并擦除硬字幕/水印,保持原分辨率与画质。兼容CUDA/DirectML,适配NVIDIA/AMD/Intel显卡,兼顾隐私性、可控性与高性能。
|
1月前
| |
来自: 视觉智能
视频后期黑科技:深度拆解开源 VSR 架构与视频 Inpainting 实践全指南
本文深度解析视频补全(Video Inpainting)前沿技术,聚焦硬字幕去除工具VSR的底层架构(OCR定位、时序传播、光流对齐)、本地部署要点(CUDA环境、显存优化)及云端方案(550W AI扩散模型),对比二者在隐私、效率与画质上的差异,助力开发者科学选型。(239字)
|
2月前
| |
来自: 视觉智能
AI Glasses识别百变脸谱
本项目提出“AI脸谱眼镜”方案:通过端云协同架构,结合人脸检测、EasyDL脸谱识别、戏曲百科与AR投射技术,让观众佩戴眼镜即可实时获取京剧角色名、性格、行当等信息。卡片投射于视野下方,不遮挡表演,专为戏迷、游客及学生设计,助力传统文化沉浸式普及。(239字)
|
2月前
| |
来自: 视觉智能
当AI Glasses走进小吃街,实现美食百科
这是一款面向吃货的AI眼镜系统,融合图像识别、美食百科与AR投射技术。用户扫视小吃,即刻获取名称、热量、辣度、成分及推荐指数等信息,端云协同实现500ms内响应。支持健康色标(绿/黄/红)、动态百科更新与场景化提示,让逛吃更聪明、更安心。(239字)
|
2月前
| |
来自: 视觉智能
AI视频去字幕技术完全指南:原理、方法与工具对比(2026版)
本文深度解析AI视频去字幕技术,涵盖原理(OCR检测+GAN修复+时序一致性)、主流工具横评、分步实操教程及短视频、教育、影视等六大行业应用。适合创作者、自媒体人与技术爱好者,20分钟掌握高效去字幕方法。
免费试用