开发者社区> ModelScope模型即服务> 计算机视觉

计算机视觉

关注

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

0
今日
3366
内容
0
活动
266
关注
|
11月前
|
人工智能 异构计算
|

DisPose:清华北大等多所高校联合推出基于人物图像增强视频生成技术,实现对人物动画的准确控制和一致性

DisPose是由北京大学、中国科学技术大学、清华大学和香港科技大学联合推出的增强人物图像控制动画质量的技术。该技术通过从骨骼姿态和参考图像中提取控制信号,生成密集运动场,并保持对不同体型的泛化能力,显著提升了人物图像动画的质量和一致性。

297 14
|
11月前
|
人工智能 数据挖掘 vr&ar
|

LeviTor:蚂蚁集团开源3D目标轨迹控制视频合成技术,能够控制视频中3D物体的运动轨迹

LeviTor是由南京大学、蚂蚁集团等机构联合推出的3D目标轨迹控制视频合成技术,通过结合深度信息和K-means聚类点控制视频中3D物体的轨迹,无需显式的3D轨迹跟踪。

305 4
|
11月前
|
传感器 人工智能 数据可视化
|

iDP3:斯坦福大学联合多所高校推出的改进型3D视觉运动策略

iDP3是由斯坦福大学联合多所高校推出的改进型3D视觉运动策略,旨在提升人形机器人在多样化环境中的自主操作能力。该策略基于自我中心的3D视觉表征,无需精确相机校准和点云分割,显著提高了机器人在未见过的环境中的实用性和灵活性。

210 11
|
11月前
|
人工智能 机器人 vr&ar
|

Find3D:加州理工学院推出的3D部件分割模型

Find3D是由加州理工学院推出的3D部件分割模型,能够根据任意文本查询分割任意对象的任何部分。该模型利用强大的数据引擎自动从互联网上的3D资产生成训练数据,并通过对比训练方法训练出一个可扩展的3D模型。Find3D在多个数据集上表现出色,显著提升了平均交并比(mIoU),并能处理来自iPhone照片和AI生成图像的野外3D构建。

214 5
|
12月前
|
人工智能 编解码 BI
|

LEOPARD:腾讯AI Lab西雅图实验室推出的视觉语言模型

LEOPARD是由腾讯AI Lab西雅图实验室推出的视觉语言模型,专为处理含有大量文本的多图像任务设计。该模型通过自适应高分辨率多图像编码模块和大规模多模态指令调优数据集,在多个基准测试中表现卓越,适用于自动化文档理解、教育和学术研究、商业智能和数据分析等多个应用场景。

334 2
|
9月前
|
人工智能 编解码 算法
|

ENEL:3D建模革命!上海AI Lab黑科技砍掉编码器,7B模型性能吊打13B巨头

ENEL是由上海AI Lab推出的无编码器3D大型多模态模型,能够在多个3D任务中实现高效语义编码和几何结构理解,如3D对象分类、字幕生成和视觉问答。

250 9
|
10月前
|
人工智能 自然语言处理 物联网
|

MultiBooth:清华联合 Meta 推出多对象的图像生成框架,生成包含多个指定对象的图像

MultiBooth是清华大学联合Meta等机构推出的多概念图像生成方法,支持高效生成高保真度图像,适用于娱乐、广告、教育等多个领域。

208 19
|
10月前
|
人工智能 并行计算 PyTorch
|

SPRIGHT:提升文本到图像模型空间一致性的数据集

SPRIGHT 是一个专注于空间关系的大型视觉-语言数据集,通过重新描述600万张图像,显著提升文本到图像模型的空间一致性。

214 18
|
11月前
|
人工智能 搜索推荐 开发者
|

Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问

Aurora是xAI为Grok AI助手推出的新图像生成模型,专注于生成高逼真度的图像,特别是在人物和风景图像方面。该模型支持文本到图像的生成,并能处理包括公共人物和版权形象在内的多种图像生成请求。Aurora的可用性因用户等级而异,免费用户每天能生成三张图像,而Premium用户则可享受无限制访问。

269 11
|
11月前
|
机器学习/深度学习 人工智能 达摩院
|

MVGenMaster:复旦联合阿里等实验室推出的多视图扩散模型

MVGenMaster是由复旦大学、阿里巴巴达摩院和湖潘实验室联合推出的多视图扩散模型,专注于新视角合成(NVS)任务。该模型通过整合3D先验信息,显著提升了NVS的泛化和3D一致性,并能从单一图像生成多达100个新视图。此外,研究团队还推出了包含160万场景的大型多视图图像数据集MvD-1M,以支持模型的训练和优化。

282 27
|
11月前
|
人工智能
|

Fancy123:华中科技和华南理工推出的3D网格生成技术

Fancy123是由华中科技大学和华南理工大学联合推出的3D网格生成技术,能够从单张图片生成高质量的3D网格。该技术通过即插即用的变形技术,解决了多视图图像的局部不一致性,提高了网格对输入图像的保真度,并确保了高清晰度。Fancy123在定性和定量实验中表现出色,能够无缝集成到现有的单图像到3D的方法中。

156 5
|
8月前
|
人工智能 搜索推荐 图形学
|

ChatAnyone:阿里通义黑科技!实时风格化肖像视频生成框架震撼发布

阿里巴巴通义实验室推出的ChatAnyone框架,通过高效分层运动扩散模型和混合控制融合技术,实现高保真度、自然度的实时肖像视频生成。

327 13
|
9月前
|
算法框架/工具 PyTorch 开发工具
|

RetinaFace下载下来的模型验证失败

268 1
|
10月前
|
传感器 人工智能
|

X-Dyna:一张图片就能实现动画化!字节联合斯坦福推出动画生成框架

X-Dyna 是由字节跳动联合斯坦福等高校推出的动画生成框架,基于扩散模型实现单张图像动画化,支持面部表情和身体动作控制,生成高质量动态细节。

247 6
|
10月前
|
机器学习/深度学习 人工智能
|

Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量

Diff-Instruct 是一种从预训练扩散模型中迁移知识的通用框架,通过最小化积分Kullback-Leibler散度,指导其他生成模型的训练,提升生成性能。

286 11
|
11月前
|
人工智能 搜索推荐 开发者
|

ClotheDreamer:上海大学联合腾讯等高校推出的3D服装生成技术

ClotheDreamer是由上海大学、上海交通大学、复旦大学和腾讯优图实验室联合推出的3D服装生成技术,能够根据文本描述生成高保真、可穿戴的3D服装资产,适用于虚拟试穿和物理精确动画。

252 6
|
11月前
|
人工智能 自然语言处理 PyTorch
|

BrushEdit:腾讯和北京大学联合推出的图像编辑框架,通过自然语言指令实现对图像的编辑和修复

BrushEdit是由腾讯、北京大学等机构联合推出的先进图像编辑框架,结合多模态大型语言模型和双分支图像修复模型,支持基于指令引导的图像编辑和修复。

252 12
|
11月前
|
机器学习/深度学习 人工智能 数据格式
|

Make-It-Animatable:中科大联合腾讯推出的自动生成即时动画准备资产

Make-It-Animatable是由中国科学技术大学和腾讯联合推出的数据驱动框架,能够在不到一秒内将任何3D人形模型转换为可用于动画的状态。该框架支持多种3D数据格式,并采用从粗到细的表示策略和结构感知建模,显著提升了动画准备的质量和速度。

217 7
|
12月前
|
人工智能 并行计算 PyTorch
|

ViewExtrapolator:南洋理工联合UCAS团队推出的新型视图合成方法

南洋理工大学与UCAS团队联合推出了一种新型视图合成方法——ViewExtrapolator。该方法基于稳定视频扩散(SVD)技术,能够在不进行微调的情况下,高效生成超出训练视图范围的新视角图像,显著减少伪影,提升视觉质量。ViewExtrapolator具有广泛的应用前景,尤其在虚拟现实、3D内容创建、电影制作等领域。

180 1
|
12月前
|
人工智能 编解码 算法
|

MVPaint:腾讯PCG联合多所高校共同推出的3D纹理生成框架

MVPaint是由腾讯PCG联合多所高校共同推出的3D纹理生成框架,基于同步多视角扩散技术,实现高分辨率、无缝且多视图一致的3D纹理生成。该框架包含三个核心模块:同步多视角生成、空间感知3D修补和UV细化,显著提升3D模型的纹理生成效果。

218 2
我要发布