开发者社区> ModelScope模型即服务> 计算机视觉

计算机视觉

关注

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

0
今日
3367
内容
0
活动
267
关注
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Reve Image:设计师失业警告!AI秒出海报级神图,排版自动搞定

Reve Image 是 Reve 推出的全新 AI 图像生成模型,专注于提升美学表现、精确的提示遵循能力以及出色的排版设计,能生成高质量的视觉作品。

575 29
|
9月前
|
人工智能 物联网
|

VideoPainter:开源视频修复神器!双分支架构一键修复,对象身份永久在线

VideoPainter 是由香港中文大学、腾讯ARC Lab等机构联合推出的视频修复和编辑框架,基于双分支架构和预训练扩散模型,支持任意长度视频的修复与编辑,具备背景保留、前景生成、文本指导编辑等功能,为视频处理领域带来新的突破。

491 12
|
10月前
|
机器学习/深度学习 人工智能 并行计算
|

BEN2:一键快速抠图!自动移除图像和视频中的背景,支持在线使用

BEN2 是由 Prama LLC 开发的深度学习模型,专注于从图像和视频中快速移除背景并提取前景,支持高分辨率处理和GPU加速。

971 10
|
人工智能 编解码 虚拟化
|

See3D:智源研究院开源的无标注视频学习 3D 生成模型

See3D 是智源研究院推出的无标注视频学习 3D 生成模型,能够从大规模无标注的互联网视频中学习 3D 先验,实现从视频中生成 3D 内容。See3D 采用视觉条件技术,支持从文本、单视图和稀疏视图到 3D 的生成,并能进行 3D 编辑与高斯渲染。

448 13
|
机器学习/深度学习 算法 PyTorch
|

Stable Diffusion 介绍与入门

Stable Diffusion 介绍与入门,简单的介绍

2245 2
|
11月前
|
人工智能 搜索推荐
|

PersonaMagic:人像与风格融合!快速生成个性化的头像

PersonaMagic 是一种创新的高保真人脸定制技术,通过阶段调节的文本条件策略和动态嵌入学习,能够根据单张图像生成个性化角色,广泛应用于娱乐、游戏、影视等领域。

262 25
|
11月前
|
人工智能 自然语言处理 并行计算
|

VITRON:开源像素级视觉大模型,同时满足图像与视频理解、生成、分割和编辑等视觉任务

VITRON 是由 Skywork AI、新加坡国立大学和南洋理工大学联合推出的像素级视觉大模型,支持图像与视频的理解、生成、分割和编辑,适用于多种视觉任务。

805 13
|
11月前
|
人工智能 数据库
|

Poetry2Image:专为中文古诗词设计的图像生成校正框架,增强了诗歌内容与模型生成图像之间的一致性

Poetry2Image 是一个专为中文古诗词图像生成设计的迭代校正框架,通过自动化反馈和校正循环,提升诗歌与图像之间的一致性,有效捕捉诗歌的语义和艺术精髓。

427 11
|
11月前
|
机器学习/深度学习 人工智能 编解码
|

VideoVAE+:AI 生成视频高保真重建和跨模态重建工具,基于文本信息指导视频重建,提升视频细节质量

VideoVAE+ 是香港科技大学推出的先进跨模态视频变分自编码器,通过时空分离压缩机制和文本指导,实现了高效视频压缩与精准重建。

456 7
|
人工智能 搜索推荐 开发者
|

Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问

Aurora是xAI为Grok AI助手推出的新图像生成模型,专注于生成高逼真度的图像,特别是在人物和风景图像方面。该模型支持文本到图像的生成,并能处理包括公共人物和版权形象在内的多种图像生成请求。Aurora的可用性因用户等级而异,免费用户每天能生成三张图像,而Premium用户则可享受无限制访问。

312 11
|
人工智能 vr&ar
|

GeneMAN:上海AI Lab联合北大等高校推出的3D人体模型创建框架

GeneMAN是由上海AI实验室、北京大学、南洋理工大学和上海交通大学联合推出的3D人体模型创建框架。该框架能够从单张图片中生成高保真度的3D人体模型,适用于多种应用场景,如虚拟试衣、游戏和娱乐、增强现实和虚拟现实等。

579 7
|
机器学习/深度学习 人工智能 算法
|

这个社区可以互相交流学习AI相关的开发技术吗?自学开发AI图像算法插件一段时间,和大家分享一下经历吧,也不知道自己目前在折腾的东西有没有用。

接触AI相关快一年的时间,期间自学了一些AI图像相关的算法,然后用掌握的一些知识整了一些土枪土炮的花样,给大家献个丑,希望能在这里找到一个可以交流学习的环境。

326 3
|
9月前
|
存储 人工智能 编解码
|

TripoSF:3D建模内存暴降80%!VAST AI新一代模型细节狂飙82%

TripoSF 是 VAST AI 推出的新一代 3D 基础模型,采用创新的 SparseFlex 表示方法,支持 1024³ 高分辨率建模,内存占用降低 82%,在细节捕捉和复杂结构处理上表现优异。

299 10
|
9月前
|
人工智能 算法 语音技术
|

Video-T1:视频生成实时手术刀!清华腾讯「帧树算法」终结闪烁抖动

清华大学与腾讯联合推出的Video-T1技术,通过测试时扩展(TTS)和Tree-of-Frames方法,显著提升视频生成的连贯性与文本匹配度,为影视制作、游戏开发等领域带来突破性解决方案。

336 4
|
9月前
|
人工智能 自然语言处理 自动驾驶
|

AVD2:清华联合复旦等机构推出的自动驾驶事故视频理解与生成框架

AVD2 是由清华大学联合多所高校推出的自动驾驶事故视频理解与生成框架,结合视频生成与事故分析,生成高质量的事故描述、原因分析和预防措施,显著提升自动驾驶系统的安全性和可靠性。

218 6
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
|

DynamicCity:上海AI Lab开源4D场景神器助力自动驾驶场景!128帧动态LiDAR生成,1:1还原城市早晚高峰

DynamicCity 是上海 AI Lab 推出的 4D 动态场景生成框架,专注于生成具有语义信息的大规模动态 LiDAR 场景,适用于自动驾驶、机器人导航和交通流量分析等多种应用场景。

290 1
|
11月前
|
机器学习/深度学习 人工智能 算法
|

Edicho:多图像一致性编辑,支持即插即用无需训练,快速实现风格转换

Edicho 是蚂蚁集团联合港科大等高校推出的多图像一致性编辑方法,基于扩散模型,支持即插即用,无需额外训练,适用于多种图像编辑任务。

263 8
|
机器学习/深度学习 测试技术 TensorFlow
|

ModelScope模型使用与EAS部署调用

本文以魔搭数据的模型为例,演示在DSW实例中如何快速调用模型,然后通过Python SDK将模型部署到阿里云PAI EAS服务,并演示使用EAS SDK实现对服务的快速调用,重点针对官方关于EAS模型上线后示例代码无法正常调通部分进行了补充。

622 2
|
机器学习/深度学习 存储 编解码
|

底层视觉与黑白图像上色

底层视觉(即视觉增强)是计算机视觉中的一个分支,它专注于提高图像整体的观看体验。如果 “中高层视觉” 关注的是如何让计算机理解图像中的内容,那么底层视觉则致力于解决图像的清晰度、色彩、时序等各类画质问题。这些问题的出现与拍摄环境、设备等因素有关,而视觉增强技术则旨在修复这些问题,提供更好的视觉观看体验。

471 0
|
4月前
|
机器人 图形学 开发者
|

腾讯混元最新开源:一张图,秒变游戏大片

有没有想过,随手拍的一张风景照,下一秒就能变成可操控的游戏开放世界?

424 3
|
8月前
|
机器学习/深度学习 人工智能 监控
|

Amodal3R:3D重建领域新突破!这个模型让残破文物完美还原,3D重建结果助力文物修复

Amodal3R是一种创新的条件式3D生成模型,通过掩码加权多头交叉注意力机制和遮挡感知层,能够从部分可见的2D图像中重建完整3D形态,仅用合成数据训练即可实现真实场景的高精度重建。

415 13
|
9月前
|
机器学习/深度学习 人工智能
|

ObjectMover:港大联合Adobe打造图像编辑黑科技,移动物体光影自动匹配

香港大学与Adobe联合研发的ObjectMover模型,通过视频生成先验迁移技术,实现图像中物体的自然移动、删除和插入,自动保持光影一致性。

257 21
|
9月前
|
人工智能 编解码 数据建模
|

MIT颠覆传统!分形生成模型效率暴涨4000倍,高分辨率图像秒级生成

Fractal Generative Models 是麻省理工学院与 Google DeepMind 团队推出的新型图像生成方法,基于分形思想,通过递归调用模块构建自相似架构,显著提升计算效率,适用于高分辨率图像生成、医学图像模拟等领域。

382 0
|
10月前
|
存储 人工智能 缓存
|

DiffSplat:输入文本或图像,2秒内生成3D建模!北大联合字节开源3D建模生成框架

DiffSplat 是由北京大学和字节跳动联合推出的一个高效 3D 生成框架,能够在 1-2 秒内从文本提示或单视图图像生成高质量的 3D 高斯点阵,并确保多视图下的一致性。

612 19
|
11月前
|
人工智能 编解码 自然语言处理
|

CogView-3-Flash:智谱首个免费AI图像生成模型,支持多种分辨率,快速生成创意图像

CogView-3-Flash 是智谱推出的首个免费AI图像生成模型,支持多种分辨率,快速生成高质量图像,广泛应用于广告、设计、艺术创作等领域。

445 6
|
11月前
|
人工智能 达摩院 计算机视觉
|

SHMT:体验 AI 虚拟化妆!阿里巴巴达摩院推出自监督化妆转移技术

SHMT 是阿里达摩院与武汉理工等机构联合研发的自监督化妆转移技术,支持高效妆容迁移与动态对齐,适用于图像处理、虚拟试妆等多个领域。

496 9
|
11月前
|
人工智能 计算机视觉
|

MangaNinja:开源线稿着色工具,自动匹配图像风格,一键快速上色

MangaNinja 是一款基于参考图像的线稿着色工具,通过创新的补丁重排模块和点驱动控制方案,实现精准颜色匹配和复杂场景处理,适用于漫画、插画和数字艺术创作。

554 10
|
11月前
|
人工智能 自然语言处理 算法
|

VidTok:微软开源的视频分词器,能够将视频内容转换为视觉 Token

VidTok 是微软开源的一款先进的视频分词器,支持连续和离散分词化,能够高效地将视频内容转换为视觉 Token,适用于多种应用场景。

253 15
|
人工智能 自动驾驶 决策智能
|

DrivingDojo:中科院联合美团推出的自动驾驶数据集,包含视频片段、驾驶操作和驾驶知识

DrivingDojo是由中国科学院自动化研究所与美团无人车团队联合推出的交互式驾驶世界模型数据集,包含18,000个视频片段,涵盖驾驶操作、多智能体交互及开放世界驾驶知识。该数据集为自动驾驶模型的开发提供了坚实基础,并定义了动作指令跟随(AIF)基准,用于评估世界模型在执行动作控制的未来预测能力。

271 6
|
8月前
|
人工智能 语音技术
|

ACTalker:港科大联合腾讯清华推出,多模态驱动的说话人视频生成神器

ACTalker是由香港科技大学联合腾讯、清华大学研发的端到端视频扩散框架,采用并行Mamba结构和多信号控制技术,能生成高度逼真的说话人头部视频。

375 0
|
9月前
|
人工智能 图形学
|

PhysGen3D:清华等高校联合推出,单图秒变交互式3D场景

PhysGen3D是清华等高校联合开发的创新框架,通过单张图像重建3D场景并模拟物理行为,实现从静态图像到动态交互的突破性转换。

302 15
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
|

VidSketch:手残党逆袭!浙大AI神器草图秒变4K动画,三连提示词玩转影视级特效

VidSketch 是浙江大学推出的创新视频生成框架,通过手绘草图和简单文本提示生成高质量视频动画,降低视频创作的技术门槛,满足多样化的艺术需求。

403 6
|
10月前
|
人工智能 数据可视化 UED
|

DragAnything:视频PS来了!开源AI控制器让视频「指哪动哪」:拖拽任意物体轨迹,多对象独立运动一键生成

DragAnything 是快手联合浙江大学和新加坡国立大学推出的基于实体表示的可控视频生成方法,支持多实体独立运动控制、高质量视频生成,并在 FID、FVD 和用户研究等评估指标上达到最佳性能。

443 10
|
10月前
|
存储 人工智能 算法
|

Magic 1-For-1:北大联合英伟达推出的高质量视频生成量化模型,支持在消费级GPU上快速生成

北京大学、Hedra Inc. 和 Nvidia 联合推出的 Magic 1-For-1 模型,优化内存消耗和推理延迟,快速生成高质量视频片段。

580 3
|
人工智能 编解码 自动驾驶
|

MagicDriveDiT:华为联合港中文等机构推出的自动驾驶高分辨率长视频生成方法

MagicDriveDiT是由华为联合港中文等机构推出的一种新型自动驾驶高分辨率长视频生成方法。该方法基于DiT架构,通过流匹配增强模型的可扩展性,并采用渐进式训练策略处理复杂场景。MagicDriveDiT能够生成高分辨率的长视频,提供对视频内容的精确控制,适用于自动驾驶系统的测试与验证、感知模型训练、场景重建与模拟以及数据增强等多个应用场景。

307 17
|
人工智能 PyTorch 算法框架/工具
|

StableAnimator:复旦联合微软等机构推出的端到端身份一致性视频扩散框架

StableAnimator是由复旦大学、微软亚洲研究院、虎牙公司和卡内基梅隆大学联合推出的端到端身份一致性视频扩散框架。该框架能够根据一张参考图像和一系列姿态,直接合成高保真度且保持人物身份一致性的视频,无需任何后处理工具。本文详细介绍了StableAnimator的主要功能、技术原理以及如何运行该框架。

510 7
|
人工智能 编解码
|

OmniBooth:华为诺亚方舟联合港科大推出的图像生成框架

OmniBooth是由华为诺亚方舟实验室和港科大研究团队联合推出的图像生成框架,支持基于文本提示或图像参考进行空间控制和实例级定制。该框架通过用户定义的掩码和相关联的文本或图像指导,精确控制图像中对象的位置和属性,提升文本到图像合成技术的可控性和实用性。

201 1
|
机器学习/深度学习 自然语言处理 数据可视化
|

图像(目标)检测入门理论课程

提到目标检测,不得不提到图像分类。 图像分类也是非常基础的工作,它是以一张图片作为输入,输出图片包含的物体类别以及分数。分数指有多大的置信度认为它是某一个类别。 目标检测任务相对于图像任务更进了一步,它会针对一个或者多个目标的图片,检测出其中目标的位置,分辨其类别并给出分数。

715 0
|
11月前
|
传感器 人工智能
|

X-Dyna:一张图片就能实现动画化!字节联合斯坦福推出动画生成框架

X-Dyna 是由字节跳动联合斯坦福等高校推出的动画生成框架,基于扩散模型实现单张图像动画化,支持面部表情和身体动作控制,生成高质量动态细节。

288 6
|
11月前
|
人工智能 自然语言处理
|

联通元景:中国联通开源中文原生的文生图模型,优化对中文长文本和成语语义等理解

联通元景(UniT2IXL)是中国联通AI推出的中文原生文生图模型,基于国产昇腾AI平台,优化中文语义理解,支持高质量图像生成。

717 20
|
12月前
|
机器学习/深度学习 人工智能
|

DiTCtrl:腾讯推出多提示视频生成方法,通过多个提示生成连贯的视频内容,确保内容与提示一致

DiTCtrl 是一种基于多模态扩散变换器(MM-DiT)架构的多提示视频生成方法,能够在无需额外训练的情况下,实现多个文本提示之间的连贯视频生成,并保持内容和运动的一致性。

342 1
|
机器学习/深度学习 人工智能 PyTorch
|

HelloMeme:开源的面部表情与姿态迁移框架,将视频中的人物表情迁移到静态图像中生成动态视频

HelloMeme 是一个基于 Stable Diffusion 1.5 模型的面部表情与姿态迁移框架,通过集成空间编织注意力机制,实现了自然且物理合理的表情包视频生成。该框架具有强大的泛化能力和扩展性,适用于多种应用场景。

540 77
|
机器学习/深度学习 人工智能 编解码
|

OminiControl:AI图像生成框架,实现图像主题控制和空间精确控制

OminiControl 是一个高度通用且参数高效的 AI 图像生成框架,专为扩散变换器模型设计,能够实现图像主题控制和空间精确控制。该框架通过引入极少量的额外参数(0.1%),支持主题驱动控制和空间对齐控制,适用于多种图像生成任务。

341 10
|
机器学习/深度学习 达摩院 监控
|

达摩院OpenVI-视频目标跟踪ICASSP 2023 Oral 渐进式上下文Transformer跟踪器 ProContEXT

视频目标跟踪(Video Object Tracking, VOT)任务以一段视频和第一帧中待跟踪目标的位置信息(矩形框)作为输入,在后续视频帧中预测该跟踪目标的精确位置。该任务对跟踪目标的类别没有限制,目的在于跟踪感兴趣的目标实例。该算法在学术界和工业界都是非常重要的一个研究课题,在自动驾驶、人机交互、视频监控领域都有广泛应用。本文将做较为详细的介绍说明。

954 1
|
29天前
|
人工智能 测试技术
|

NeurlPS 2025!多伦多大学TIRE助力3D/4D 生成精准保留主体身份

TIRE提出“追踪-补全-重投影”三阶段方法,实现主体驱动的3D/4D生成。通过视频跟踪识别缺失区域,定制2D模型补全纹理,并重投影至3D空间,提升生成一致性与质量,推动动态场景生成新进展。

120 8
|
10月前
|
机器学习/深度学习 人工智能 编解码
|

FlashVideo:生成1080p视频仅需102秒,字节联合港大推出低成本高分辨率视频生成框架

FlashVideo 是字节跳动和香港大学联合推出的高分辨率视频生成框架,通过两阶段方法显著降低计算成本,快速生成高质量视频。

420 5
|
11月前
|
人工智能 并行计算 PyTorch
|

SPRIGHT:提升文本到图像模型空间一致性的数据集

SPRIGHT 是一个专注于空间关系的大型视觉-语言数据集,通过重新描述600万张图像,显著提升文本到图像模型的空间一致性。

242 18
|
11月前
|
机器学习/深度学习 人工智能 编解码
|

Inf-DiT:清华联合智谱AI推出超高分辨率图像生成模型,生成的空间复杂度从 O(N^2) 降低到 O(N)

Inf-DiT 是清华大学与智谱AI联合推出的基于扩散模型的图像上采样方法,能够生成超高分辨率图像,突破传统扩散模型的内存限制,适用于多种实际应用场景。

335 21
|
人工智能 异构计算
|

DisPose:清华北大等多所高校联合推出基于人物图像增强视频生成技术,实现对人物动画的准确控制和一致性

DisPose是由北京大学、中国科学技术大学、清华大学和香港科技大学联合推出的增强人物图像控制动画质量的技术。该技术通过从骨骼姿态和参考图像中提取控制信号,生成密集运动场,并保持对不同体型的泛化能力,显著提升了人物图像动画的质量和一致性。

324 14
|
机器学习/深度学习 人工智能 编解码
|

CLEAR:新加坡国立大学推出线性注意力机制,使8K图像的生成速度提升6.3倍,显著减少了计算量和时间延迟

新加坡国立大学推出的CLEAR线性注意力机制,通过局部注意力窗口设计,显著提升了预训练扩散变换器生成高分辨率图像的效率,生成8K图像时提速6.3倍。

285 18
我要发布