计算机视觉-推荐-第3页-阿里云开发者社区-阿里云

开发者社区> ModelScope模型即服务> 计算机视觉

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

今日

3367

内容

活动

267

关注

来自： ModelScope模型即服务

文章

视频

问答

精华

蚝油菜花

11月前

人工智能达摩院计算机视觉

博文

SHMT：体验 AI 虚拟化妆！阿里巴巴达摩院推出自监督化妆转移技术

SHMT 是阿里达摩院与武汉理工等机构联合研发的自监督化妆转移技术，支持高效妆容迁移与动态对齐，适用于图像处理、虚拟试妆等多个领域。

490 9 9

蚝油菜花

11月前

机器学习/深度学习人工智能编解码

博文

Inf-DiT：清华联合智谱AI推出超高分辨率图像生成模型，生成的空间复杂度从 O(N^2) 降低到 O(N)

Inf-DiT 是清华大学与智谱AI联合推出的基于扩散模型的图像上采样方法，能够生成超高分辨率图像，突破传统扩散模型的内存限制，适用于多种实际应用场景。

332 21 22

蚝油菜花

12月前

机器学习/深度学习人工智能

博文

DiTCtrl：腾讯推出多提示视频生成方法，通过多个提示生成连贯的视频内容，确保内容与提示一致

DiTCtrl 是一种基于多模态扩散变换器（MM-DiT）架构的多提示视频生成方法，能够在无需额外训练的情况下，实现多个文本提示之间的连贯视频生成，并保持内容和运动的一致性。

338 1 1

蚝油菜花

9月前

机器学习/深度学习人工智能测试技术

博文

IMAGPose：南理工突破性人体生成框架！多姿态适配+细节语义融合，刷新图像生成范式

IMAGPose 是南京理工大学推出的用于人体姿态引导图像生成的统一条件框架，解决了传统方法在姿态引导的人物图像生成中的局限性，支持多场景适应、细节与语义融合、灵活的图像与姿态对齐以及全局与局部一致性。

225 0 0

蚝油菜花

9月前

人工智能物联网

博文

ART：匿名区域布局+多层透明图像生成技术，生成速度比全注意力方法快12倍以上

ART 是一种新型的多层透明图像生成技术，支持根据全局文本提示和匿名区域布局生成多个独立的透明图层，具有高效的生成机制和强大的透明度处理能力。

290 8 8

蚝油菜花

10月前

人工智能监控自动驾驶

博文

Migician：清北华科联手放大招！多图像定位大模型问世：3秒锁定跨画面目标，安防监控迎来AI革命！

Migician 是北交大联合清华、华中科大推出的多模态视觉定位模型，支持自由形式的跨图像精确定位、灵活输入形式和多种复杂任务。

322 3 3

游客ub22igak5qixo

10月前

问答

请教大家，modelscope有能让图片中模糊文字变清晰的模型吗？

222 1 0

蚝油菜花

10月前

人工智能编解码算法

博文

ENEL：3D建模革命！上海AI Lab黑科技砍掉编码器，7B模型性能吊打13B巨头

ENEL是由上海AI Lab推出的无编码器3D大型多模态模型，能够在多个3D任务中实现高效语义编码和几何结构理解，如3D对象分类、字幕生成和视觉问答。

288 9 9

蚝油菜花

11月前

机器学习/深度学习人工智能算法

博文

RLCM：康奈尔大学推出文本到图像一致性模型优化框架，支持快速生成与任务特定奖励优化

RLCM 是康奈尔大学推出的基于强化学习的文本到图像生成模型优化框架，支持快速训练与推理，能够根据任务特定奖励函数生成高质量图像。

233 12 12

蚝油菜花

12月前

人工智能自然语言处理

博文

DynamicControl：腾讯推出动态地条件控制图像生成框架，结合了多模态大语言模型的推理能力和文生图模型的生成能力

DynamicControl 是腾讯优图联合南洋理工等机构推出的动态条件控制图像生成新框架，通过自适应选择不同条件，显著增强了图像生成的可控性。

212 11 11

蚝油菜花

12月前

机器学习/深度学习人工智能 PyTorch

博文

HelloMeme：开源的面部表情与姿态迁移框架，将视频中的人物表情迁移到静态图像中生成动态视频

HelloMeme 是一个基于 Stable Diffusion 1.5 模型的面部表情与姿态迁移框架，通过集成空间编织注意力机制，实现了自然且物理合理的表情包视频生成。该框架具有强大的泛化能力和扩展性，适用于多种应用场景。

535 77 77

蚝油菜花

9月前

存储人工智能编解码

博文

TripoSF：3D建模内存暴降80%！VAST AI新一代模型细节狂飙82%

TripoSF 是 VAST AI 推出的新一代 3D 基础模型，采用创新的 SparseFlex 表示方法，支持 1024³ 高分辨率建模，内存占用降低 82%，在细节捕捉和复杂结构处理上表现优异。

293 10 11

蚝油菜花

9月前

机器学习/深度学习人工智能自然语言处理

博文

TrajectoryCrafter：腾讯黑科技！单目视频运镜自由重构，4D生成效果媲美实拍

TrajectoryCrafter 是腾讯与香港中文大学联合推出的单目视频相机轨迹重定向技术，支持后期自由调整视频的相机位置和角度，生成高质量的新型轨迹视频，广泛应用于沉浸式娱乐、创意视频制作等领域。

277 12 12

1452750375310896

10月前

算法框架/工具 PyTorch 开发工具

问答

RetinaFace下载下来的模型验证失败

287 1 0

蚝油菜花

10月前

机器学习/深度学习人工智能自然语言处理

博文

DynamicCity：上海AI Lab开源4D场景神器助力自动驾驶场景！128帧动态LiDAR生成，1:1还原城市早晚高峰

DynamicCity 是上海 AI Lab 推出的 4D 动态场景生成框架，专注于生成具有语义信息的大规模动态 LiDAR 场景，适用于自动驾驶、机器人导航和交通流量分析等多种应用场景。

284 1 1

蚝油菜花

11月前

人工智能测试技术

博文

VideoPhy：UCLA 和谷歌联合推出评估视频生成模型物理模拟能力的评估工具，衡量模型生成的视频是否遵循现实世界的物理规则

VideoPhy 是 UCLA 和谷歌联合推出的首个评估视频生成模型物理常识能力的基准测试，旨在衡量模型生成的视频是否遵循现实世界的物理规则。

285 9 9

nick6507384252

26天前

人工智能测试技术

博文

NeurlPS 2025！多伦多大学TIRE助力3D/4D 生成精准保留主体身份

TIRE提出“追踪-补全-重投影”三阶段方法，实现主体驱动的3D/4D生成。通过视频跟踪识别缺失区域，定制2D模型补全纹理，并重投影至3D空间，提升生成一致性与质量，推动动态场景生成新进展。

116 8 8

游客wwcr5vyhxncgw

8月前

问答

凹多边形的三角细分模型有什么呢

104 0 0

游客2d4cqs7amspr6

8月前

编解码测试技术计算机视觉

问答

如何通过对应用程序界面截图中的功能做图像识别对比缺陷

155 0 0

蚝油菜花

12月前

人工智能异构计算

博文

DisPose：清华北大等多所高校联合推出基于人物图像增强视频生成技术，实现对人物动画的准确控制和一致性

DisPose是由北京大学、中国科学技术大学、清华大学和香港科技大学联合推出的增强人物图像控制动画质量的技术。该技术通过从骨骼姿态和参考图像中提取控制信号，生成密集运动场，并保持对不同体型的泛化能力，显著提升了人物图像动画的质量和一致性。

321 14 14

蚝油菜花

8月前

人工智能语音技术

博文

ACTalker：港科大联合腾讯清华推出，多模态驱动的说话人视频生成神器

ACTalker是由香港科技大学联合腾讯、清华大学研发的端到端视频扩散框架，采用并行Mamba结构和多信号控制技术，能生成高度逼真的说话人头部视频。

368 0 0

蚝油菜花

11月前

人工智能 UED

博文

VersaGen：生成式 AI 代理，基于 Stable Diffusion 生成图像，专注于控制一至多个视觉主体等生成细节

VersaGen 是一款生成式 AI 代理，专注于文本到图像合成中的视觉控制能力，支持多种视觉控制类型，并通过优化策略提升图像生成质量和用户体验。

239 8 8

bododpzahjhcw

12月前

API

问答

No module named 'modelscope_agent.retrieve'

236 1 0

蚝油菜花

12月前

机器学习/深度学习人工智能编解码

博文

CLEAR：新加坡国立大学推出线性注意力机制，使8K图像的生成速度提升6.3倍，显著减少了计算量和时间延迟

新加坡国立大学推出的CLEAR线性注意力机制，通过局部注意力窗口设计，显著提升了预训练扩散变换器生成高分辨率图像的效率，生成8K图像时提速6.3倍。

280 18 18

蚝油菜花

11月前

人工智能自然语言处理物联网

博文

MultiBooth：清华联合 Meta 推出多对象的图像生成框架，生成包含多个指定对象的图像

MultiBooth是清华大学联合Meta等机构推出的多概念图像生成方法，支持高效生成高保真度图像，适用于娱乐、广告、教育等多个领域。

225 19 19

哈达2

11月前

计算机视觉 Python 异构计算

问答

希望通过damo-YOLO训练检查自己提供的logo

104 2 0

蚝油菜花

11月前

机器学习/深度学习人工智能

博文

Diff-Instruct：指导任意生成模型训练的通用框架，无需额外训练数据即可提升生成质量

Diff-Instruct 是一种从预训练扩散模型中迁移知识的通用框架，通过最小化积分Kullback-Leibler散度，指导其他生成模型的训练，提升生成性能。

313 11 11

游客5dbqqnkbzrtgi

6月前

SQL

问答

在部署 SQL Server Express MCP 远程连接不通，求解

104 0 0

游客ckeqlms2owmig

10月前

问答

关于魔塔社区里面有UI-TARS模型一件部署在阿里云的几个相关问题

504 1 0

你好！

登录掌握更多精彩内容

账号登录

我的内容

我的收藏

模型库

数据集

创空间

文档

更多版块

自然语言处理语音多模态科学计算

活跃用户

计算机视觉

最新

文章

视频

问答

推荐

精华

SHMT：体验 AI 虚拟化妆！阿里巴巴达摩院推出自监督化妆转移技术

Inf-DiT：清华联合智谱AI推出超高分辨率图像生成模型，生成的空间复杂度从 O(N^2) 降低到 O(N)

DiTCtrl：腾讯推出多提示视频生成方法，通过多个提示生成连贯的视频内容，确保内容与提示一致

IMAGPose：南理工突破性人体生成框架！多姿态适配+细节语义融合，刷新图像生成范式

ART：匿名区域布局+多层透明图像生成技术，生成速度比全注意力方法快12倍以上

Migician：清北华科联手放大招！多图像定位大模型问世：3秒锁定跨画面目标，安防监控迎来AI革命！

请教大家，modelscope有能让图片中模糊文字变清晰的模型吗？

ENEL：3D建模革命！上海AI Lab黑科技砍掉编码器，7B模型性能吊打13B巨头

RLCM：康奈尔大学推出文本到图像一致性模型优化框架，支持快速生成与任务特定奖励优化

DynamicControl：腾讯推出动态地条件控制图像生成框架，结合了多模态大语言模型的推理能力和文生图模型的生成能力

HelloMeme：开源的面部表情与姿态迁移框架，将视频中的人物表情迁移到静态图像中生成动态视频

TripoSF：3D建模内存暴降80%！VAST AI新一代模型细节狂飙82%

TrajectoryCrafter：腾讯黑科技！单目视频运镜自由重构，4D生成效果媲美实拍

RetinaFace下载下来的模型验证失败

DynamicCity：上海AI Lab开源4D场景神器助力自动驾驶场景！128帧动态LiDAR生成，1:1还原城市早晚高峰

VideoPhy：UCLA 和谷歌联合推出评估视频生成模型物理模拟能力的评估工具，衡量模型生成的视频是否遵循现实世界的物理规则

NeurlPS 2025！多伦多大学TIRE助力3D/4D 生成精准保留主体身份

凹多边形的三角细分模型有什么呢

如何通过对应用程序界面截图中的功能做图像识别对比缺陷

DisPose：清华北大等多所高校联合推出基于人物图像增强视频生成技术，实现对人物动画的准确控制和一致性

ACTalker：港科大联合腾讯清华推出，多模态驱动的说话人视频生成神器

VersaGen：生成式 AI 代理，基于 Stable Diffusion 生成图像，专注于控制一至多个视觉主体等生成细节

No module named 'modelscope_agent.retrieve'

CLEAR：新加坡国立大学推出线性注意力机制，使8K图像的生成速度提升6.3倍，显著减少了计算量和时间延迟

MultiBooth：清华联合 Meta 推出多对象的图像生成框架，生成包含多个指定对象的图像

希望通过damo-YOLO训练检查自己提供的logo

Diff-Instruct：指导任意生成模型训练的通用框架，无需额外训练数据即可提升生成质量

在部署 SQL Server Express MCP 远程连接不通，求解

关于魔塔社区里面有UI-TARS模型一件部署在阿里云的几个相关问题

活跃用户

相关产品