视觉智能开放平台

首页 标签 视觉智能开放平台
SPAR3D:一张图片就能生成3D模型,每个物体的重建时间仅需0.7秒!
SPAR3D 是由 Stability AI 和伊利诺伊大学香槟分校推出的先进单图生成3D模型方法,支持快速推理与用户交互式编辑,适用于多种3D建模场景。
Light-A-Video:好莱坞级打光自由!上海AI Lab开源视频打光AI,无需训练秒改画面氛围,3步让阴天变夕阳
Light-A-Video 是由上海AI Lab联合交大等高校推出的无需训练的视频重照明方法,支持高质量、时间一致的光照控制,零样本生成和前景背景分离处理。
Hi3DGen:2D照片秒变高精度模型,毛孔级细节完爆Blender!港中文×字节×清华联手打造3D生成黑科技
Hi3DGen是由香港中文大学、字节跳动和清华大学联合研发的高保真3D几何生成框架,通过法线图中间表示实现细节丰富的3D模型生成,其双阶段生成流程显著提升了几何保真度。
EasyControl Ghibli:在线体验一键生成宫崎骏动画风,开源AI模型让你的照片秒变吉卜力
EasyControl Ghibli是基于扩散模型的AI工具,通过条件注入技术将普通照片转化为吉卜力动画风格,仅需100张训练样本即可精准还原标志性光影与色调特征。
这个模型让AI角色会说话还会演!MoCha:Meta联手滑铁卢大学打造对话角色视频生成黑科技
MoCha是由Meta与滑铁卢大学联合开发的端到端对话角色视频生成模型,通过创新的语音-视频窗口注意力机制实现精准的唇语同步和全身动作生成。
|
4月前
| |
来自: 视觉智能
视频后期黑科技:深度拆解开源 VSR 架构与视频 Inpainting 实践全指南
本文深度解析视频补全(Video Inpainting)前沿技术,聚焦硬字幕去除工具VSR的底层架构(OCR定位、时序传播、光流对齐)、本地部署要点(CUDA环境、显存优化)及云端方案(550W AI扩散模型),对比二者在隐私、效率与画质上的差异,助力开发者科学选型。(239字)
|
4月前
| |
来自: 视觉智能
边缘AI算法在工业AR眼镜中的部署实践:从模型轻量化到端侧推理
本文分享AR眼镜端侧AI部署实践:针对工业无网/弱网、毫秒级响应需求,通过知识蒸馏+INT8量化+剪枝将模型压缩至<10MB;选用MNN引擎优化推理,实测仪表OCR(38ms/99.2%)、缺陷检测(42ms/98.7%)等任务均满足实时性与精度要求。
免费试用