视觉智能开放平台

首页 标签 视觉智能开放平台
DragAnything:视频PS来了!开源AI控制器让视频「指哪动哪」:拖拽任意物体轨迹,多对象独立运动一键生成
DragAnything 是快手联合浙江大学和新加坡国立大学推出的基于实体表示的可控视频生成方法,支持多实体独立运动控制、高质量视频生成,并在 FID、FVD 和用户研究等评估指标上达到最佳性能。
Light-A-Video:好莱坞级打光自由!上海AI Lab开源视频打光AI,无需训练秒改画面氛围,3步让阴天变夕阳
Light-A-Video 是由上海AI Lab联合交大等高校推出的无需训练的视频重照明方法,支持高质量、时间一致的光照控制,零样本生成和前景背景分离处理。
Umi-OCR:31K Star!离线OCR终结者!公式+二维码+多语种,开源免费吊打付费
Umi-OCR 是一款免费开源的离线 OCR 文字识别工具,支持截图、批量图片、PDF 扫描件的文字识别,内置多语言识别库,提供命令行和 HTTP 接口调用功能。
漫画师福音!开源AI神器让线稿着色快如闪电!MagicColor:港科大开源多实例线稿着色框架,一键生成动画级彩图
MagicColor是香港科技大学推出的多实例线稿着色框架,基于扩散模型和自监督训练策略,实现单次前向传播完成多实例精准着色,大幅提升动画制作和数字艺术创作效率。
|
10月前
| |
来自: 视觉智能
【PDF提取内容改名】批量提取PDF指定区域内容重命名PDF文件,PDF自动提取内容命名的方案和详细步骤
本工具可批量提取PDF中的合同编号、日期、发票号等关键信息,支持PDF自定义区域提取并自动重命名文件,适用于合同管理、发票处理、文档归档和数据录入场景。基于iTextSharp库实现,提供完整代码示例与百度、腾讯网盘下载链接,助力高效处理PDF文档。
|
2月前
| |
来自: 视觉智能
视频后期黑科技:深度拆解开源 VSR 架构与视频 Inpainting 实践全指南
本文深度解析视频补全(Video Inpainting)前沿技术,聚焦硬字幕去除工具VSR的底层架构(OCR定位、时序传播、光流对齐)、本地部署要点(CUDA环境、显存优化)及云端方案(550W AI扩散模型),对比二者在隐私、效率与画质上的差异,助力开发者科学选型。(239字)
免费试用