视觉智能开放平台

首页 标签 视觉智能开放平台
|
2月前
| |
来自: 视觉智能
视频字幕擦除与动态修复技术深度解析:从开源算法基准到高并发SaaS架构的演进
本报告深度解析视频硬字幕擦除与修复技术演进,涵盖光流传播、时空Transformer(如ProPainter)及扩散模型等前沿算法;对比开源工具、桌面软件与SaaS云平台,指出云端原生架构在算力解耦、热更新、高并发与易用性上的断代优势,为工业落地提供权威指南。
FFmpeg开发笔记(二十六)Linux环境安装ZLMediaKit实现视频推流
《FFmpeg开发实战》书中介绍轻量级流媒体服务器MediaMTX,但其功能有限,不适合生产环境。推荐使用国产开源的ZLMediaKit,它支持多种流媒体协议和音视频编码标准。以下是华为欧拉系统下编译安装ZLMediaKit和FFmpeg的步骤,包括更新依赖、下载源码、配置、编译、安装以及启动MediaServer服务。此外,还提供了通过FFmpeg进行RTSP和RTMP推流,并使用VLC播放器拉流的示例。
Stable Virtual Camera:2D秒变3D电影!Stability AI黑科技解锁无限运镜,自定义轨迹一键生成
Stable Virtual Camera 是 Stability AI 推出的 AI 模型,能够将 2D 图像转换为具有真实深度和透视感的 3D 视频,支持自定义相机轨迹和多种动态路径,生成高质量且时间平滑的视频。
YOLO26如何训练自己的数据集 | (NEU-DET为案列)
本文详解YOLO26全新架构:移除DFL、端到端无NMS推理、ProgLoss+STAL损失策略及MuSGD优化器;并以NEU-DET数据集为例,详述训练全流程(含预训练/优化器选择/模型缩放对比),附结构图、代码与可视化结果。
|
22天前
| |
来自: 视觉智能
普通摄像头秒变“透视仪”:黎曼分形透镜如何让微弱瑕疵无处遁形(军工项目之外研究)
一种基于黎曼分形动力学的非线性图像增强技术——“分形透镜”。无需AI模型,仅用纯C++实现,通过递归映射与黄金分割比调控,实时放大微弱灰度差异(如水渍、指纹、低温差目标),在普通USB摄像头上实现“透视级”细节增强,计算耗时 0.5ms,已开源并验证于工业检测与国防场景。
CogView-3-Flash:智谱首个免费AI图像生成模型,支持多种分辨率,快速生成创意图像
CogView-3-Flash 是智谱推出的首个免费AI图像生成模型,支持多种分辨率,快速生成高质量图像,广泛应用于广告、设计、艺术创作等领域。
AI-ClothingTryOn:服装店老板连夜下架试衣间!基于Gemini开发的AI试衣应用,一键生成10种穿搭效果
AI-ClothingTryOn是基于Google Gemini技术的虚拟试衣应用,支持人物与服装照片智能合成,可生成多达10种试穿效果版本,并提供自定义提示词优化功能。
|
4月前
| |
来自: 视觉智能
构建AI智能体:九十五、YOLO视觉大模型入门指南:从零开始掌握目标检测
本文介绍了视觉大模型及YOLO目标检测技术,重点讲解YOLOv8在CPU上的部署与应用。涵盖模型选择、图像检测、实时摄像头识别及性能优化,适合初学者快速上手。
|
1月前
| |
来自: 视觉智能
企业如何抓住AI红利?阿里云权益中心深度解读与实战指南
本文深度解析阿里云AI权益中心的核心价值与落地场景,涵盖Qwen大模型、JVS Claw智能体平台等全栈能力,助力企业降本增效——电商视频生成成本直降99%,内容创作提效18倍。附技术选型框架与实战指南。(239字)
免费试用