计算机视觉-推荐-第2页-阿里云开发者社区-阿里云

蚝油菜花

|

12月前

|

人工智能自然语言处理并行计算

|

博文

EchoMimicV2：阿里推出的开源数字人项目，能生成完整数字人半身动画

EchoMimicV2是阿里蚂蚁集团推出的开源数字人项目，能够生成完整的数字人半身动画。该项目基于参考图片、音频剪辑和手部姿势序列，通过音频-姿势动态协调策略生成高质量动画视频，确保音频内容与半身动作的一致性。EchoMimicV2不仅支持中文和英文驱动，还简化了动画生成过程中的复杂条件，适用于虚拟主播、在线教育、娱乐和游戏等多个应用场景。

3511 5 6

modelscope

|

3月前

|

机器人图形学开发者

|

博文

腾讯混元最新开源：一张图，秒变游戏大片

有没有想过，随手拍的一张风景照，下一秒就能变成可操控的游戏开放世界？

271 3 3

蚝油菜花

|

10月前

|

人工智能数据处理

|

博文

LatentSync：根据音频生成高分辨率、动态逼真的唇形同步视频

LatentSync 是由字节跳动与北京交通大学联合推出的端到端唇形同步框架，基于音频条件的潜在扩散模型，能够生成高分辨率、动态逼真的唇同步视频，适用于影视、教育、广告等多个领域。

804 19 19

蚝油菜花

|

10月前

|

人工智能

|

博文

RealisHuman：AI 生成的人像不真实？后处理框架帮你修复生成图像中畸形人体部位

RealisHuman 是一个创新的后处理框架，专注于修复生成图像中畸形的人体部位，如手和脸，通过两阶段方法提升图像的真实性。

389 11 11

蚝油菜花

|

10月前

|

机器学习/深度学习数据采集人工智能

|

博文

TransPixar：港中文联合 Adobe 开源透明背景视频生成模型，生成透明背景的 RGBA 视频，助力特效等视觉效果制作

TransPixar 是由港中文、Adobe 等机构联合开源的文本到视频生成技术，支持生成包含透明背景的 RGBA 视频，适用于娱乐、广告、教育等多个领域。

347 22 22

蚝油菜花

|

11月前

|

人工智能

|

博文

AniDoc：蚂蚁集团开源 2D 动画上色 AI 模型，基于视频扩散模型自动将草图序列转换成彩色动画，保持动画的连贯性

AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型，能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略，实现了色彩和风格的准确传递，适用于动画制作、游戏开发和数字艺术创作等多个领域。

417 16 16

蚝油菜花

|

11月前

|

人工智能物联网 C语言

|

博文

SVDQuant：MIT 推出的扩散模型后训练的量化技术，能够将模型的权重和激活值量化至4位，减少内存占用并加速推理过程

SVDQuant是由MIT研究团队推出的扩散模型后训练量化技术，通过将模型的权重和激活值量化至4位，显著减少了内存占用并加速了推理过程。该技术引入了高精度的低秩分支来吸收量化过程中的异常值，支持多种架构，并能无缝集成低秩适配器（LoRAs），为资源受限设备上的大型扩散模型部署提供了有效的解决方案。

599 5 5

蚝油菜花

|

8月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

DeepMesh：3D建模革命！清华团队让AI自动优化拓扑，1秒生成工业级网格

DeepMesh 是由清华大学和南洋理工大学联合开发的 3D 网格生成框架，基于强化学习和自回归变换器，能够生成高质量的 3D 网格，适用于虚拟环境构建、动态内容生成、角色动画等多种场景。

563 4 4

蚝油菜花

|

10月前

|

机器学习/深度学习编解码人工智能

|

博文

SeedVR：高效视频修复模型，支持任意长度和分辨率，生成真实感细节

SeedVR 是南洋理工大学和字节跳动联合推出的扩散变换器模型，能够高效修复低质量视频，支持任意长度和分辨率，生成真实感细节。

437 16 18

蚝油菜花

|

11月前

|

人工智能

|

博文

HunyuanVideo：腾讯推出的开源视频生成模型，参数高达130亿

腾讯推出的开源视频生成模型HunyuanVideo，拥有130亿参数，是目前参数量最大的开源视频模型之一。该模型具备物理模拟、高文本语义还原度、动作一致性和电影级画质等特性，能生成带有背景音乐的视频，推动了视频生成技术的发展和应用。

463 16 16

蚝油菜花

|

8月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

VidSketch：手残党逆袭！浙大AI神器草图秒变4K动画，三连提示词玩转影视级特效

VidSketch 是浙江大学推出的创新视频生成框架，通过手绘草图和简单文本提示生成高质量视频动画，降低视频创作的技术门槛，满足多样化的艺术需求。

283 6 6

蚝油菜花

|

9月前

|

数据采集机器学习/深度学习人工智能

|

博文

Sitcom-Crafter：动画师失业警告！AI黑科技自动生成3D角色动作，剧情脚本秒变动画

Sitcom-Crafter 是一款基于剧情驱动的 3D 动作生成系统，通过多模块协同工作，支持人类行走、场景交互和多人交互，适用于动画、游戏及虚拟现实等领域。

399 4 4

蚝油菜花

|

9月前

|

人工智能数据可视化 UED

|

博文

DragAnything：视频PS来了！开源AI控制器让视频「指哪动哪」：拖拽任意物体轨迹，多对象独立运动一键生成

DragAnything 是快手联合浙江大学和新加坡国立大学推出的基于实体表示的可控视频生成方法，支持多实体独立运动控制、高质量视频生成，并在 FID、FVD 和用户研究等评估指标上达到最佳性能。

346 10 10

蚝油菜花

|

9月前

|

机器学习/深度学习人工智能并行计算

|

博文

BEN2：一键快速抠图！自动移除图像和视频中的背景，支持在线使用

BEN2 是由 Prama LLC 开发的深度学习模型，专注于从图像和视频中快速移除背景并提取前景，支持高分辨率处理和GPU加速。

591 10 10

蚝油菜花

|

10月前

|

人工智能达摩院并行计算

|

博文

VideoRefer：阿里达摩院开源视频对象感知与推理框架，可集成 VLLM 提升其空间和时间理解能力

VideoRefer 是浙江大学与阿里达摩学院联合推出的视频对象感知与推理技术，支持细粒度视频对象理解、复杂关系分析及多模态交互，适用于视频剪辑、教育、安防等多个领域。

522 17 17

蚝油菜花

|

11月前

|

机器学习/深度学习人工智能算法

|

博文

Enhance-A-Video：上海 AI Lab 推出视频生成质量增强算法，显著提升 AI 视频生成的真实度和细节表现

Enhance-A-Video 是由上海人工智能实验室、新加坡国立大学和德克萨斯大学奥斯汀分校联合推出的视频生成质量增强算法，能够显著提升视频的对比度、清晰度和细节真实性。

407 8 8

蚝油菜花

|

9月前

|

机器学习/深度学习人工智能编解码

|

博文

FlashVideo：生成1080p视频仅需102秒，字节联合港大推出低成本高分辨率视频生成框架

FlashVideo 是字节跳动和香港大学联合推出的高分辨率视频生成框架，通过两阶段方法显著降低计算成本，快速生成高质量视频。

292 5 5

蚝油菜花

|

9月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

JoyGen：用音频生成3D说话人脸视频，快速生成逼真的唇部同步视频

JoyGen 是京东和香港大学联合推出的音频驱动的3D说话人脸视频生成框架，支持多语言、高质量视觉效果和精确的唇部与音频同步。

385 14 14

蚝油菜花

|

10月前

|

机器学习/深度学习人工智能编解码

|

博文

StereoCrafter：腾讯开源将任意2D视频转换为立体3D视频的框架，适用于Apple Vision Pro等多种显示设备

StereoCrafter 是腾讯开源的框架，能够将单目2D视频转换为高保真度的立体3D视频，适用于多种显示设备。

543 8 8

蚝油菜花

|

11月前

|

机器学习/深度学习人工智能算法

|

博文

VE-Bench：北京大学开源首个针对视频编辑质量的评估指标，从多角度考虑审美并准确地评估视频编辑效果

北京大学开源了首个针对视频编辑质量评估的新指标 VE-Bench，旨在通过人类感知一致的度量标准，更准确地评估视频编辑效果。

457 14 14

蚝油菜花

|

11月前

|

人工智能自然语言处理计算机视觉

|

博文

StyleStudio：支持图像风格迁移的文生图模型，能将融合参考图像的风格和文本提示内容生成风格一致的图像

StyleStudio 是一种文本驱动的风格迁移模型，能够将参考图像的风格与文本提示内容融合。通过跨模态 AdaIN 机制、基于风格的分类器自由引导等技术，解决了风格过拟合、控制限制和文本错位等问题，提升了风格迁移的质量和文本对齐的准确性。

416 8 8

蚝油菜花

|

11月前

|

人工智能

|

博文

AnchorCrafter：中科院联合腾讯推出的AI虚拟主播带货视频制作技术

AnchorCrafter是由中科院和腾讯联合推出的一项AI虚拟主播带货视频制作技术。该技术基于扩散模型，能够自动生成高保真度的主播风格产品推广视频，通过整合人-物交互（HOI）技术，实现对物体外观和运动控制的高度还原。AnchorCrafter在物体外观保持、交互感知以及视频质量方面优于现有方法，为在线广告和消费者参与提供了新的可能性。

1488 31 31

蚝油菜花

|

7月前

|

人工智能测试技术定位技术

|

博文

WorldScore：斯坦福开源世界生成模型评估新标杆：3000样本+九维指标，视频/4D/3D模型一网打尽

WorldScore是斯坦福大学提出的首个统一评估世界生成模型的基准测试，通过基于相机轨迹的布局规范和3000个多样化样本，全面评测生成内容的可控性、质量与动态性。

415 46 46

蚝油菜花

|

8月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

Reve Image：设计师失业警告！AI秒出海报级神图，排版自动搞定

Reve Image 是 Reve 推出的全新 AI 图像生成模型，专注于提升美学表现、精确的提示遵循能力以及出色的排版设计，能生成高质量的视觉作品。

473 29 30

蚝油菜花

|

11月前

|

机器学习/深度学习存储人工智能

|

博文

EfficientTAM：Meta AI推出的视频对象分割和跟踪模型

EfficientTAM是Meta AI推出的轻量级视频对象分割和跟踪模型，旨在解决SAM 2模型在移动设备上部署时的高计算复杂度问题。该模型采用非层次化Vision Transformer（ViT）作为图像编码器，并引入高效记忆模块，以降低计算复杂度，同时保持高质量的分割结果。EfficientTAM在多个视频分割基准测试中表现出与SAM 2相当的性能，具有更快的处理速度和更少的参数，特别适用于移动设备上的视频对象分割应用。

318 9 9

蚝油菜花

|

7月前

|

人工智能语音技术

|

博文

ACTalker：港科大联合腾讯清华推出，多模态驱动的说话人视频生成神器

ACTalker是由香港科技大学联合腾讯、清华大学研发的端到端视频扩散框架，采用并行Mamba结构和多信号控制技术，能生成高度逼真的说话人头部视频。

271 0 0

蚝油菜花

|

7月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

这个模型让AI角色会说话还会演！MoCha：Meta联手滑铁卢大学打造对话角色视频生成黑科技

MoCha是由Meta与滑铁卢大学联合开发的端到端对话角色视频生成模型，通过创新的语音-视频窗口注意力机制实现精准的唇语同步和全身动作生成。

343 12 13

蚝油菜花

|

7月前

|

人工智能编解码自然语言处理

|

博文

DreamActor-M1：字节跳动推出AI动画黑科技，静态照片秒变生动视频

DreamActor-M1是字节跳动研发的AI图像动画框架，通过混合引导机制实现高保真人物动画生成，支持多语言语音驱动和形状自适应功能。

658 40 43

蚝油菜花

|

7月前

|

人工智能 API 计算机视觉

|

博文

AI-ClothingTryOn：服装店老板连夜下架试衣间！基于Gemini开发的AI试衣应用，一键生成10种穿搭效果

AI-ClothingTryOn是基于Google Gemini技术的虚拟试衣应用，支持人物与服装照片智能合成，可生成多达10种试穿效果版本，并提供自定义提示词优化功能。

506 18 18

蚝油菜花

|

8月前

|

存储机器学习/深度学习人工智能

|

博文

TaoAvatar：手机拍出电影级虚拟人！阿里3D高斯黑科技让动捕设备下岗

阿里巴巴最新推出的TaoAvatar技术，通过3D高斯溅射实现照片级虚拟人实时渲染，支持多信号驱动与90FPS流畅运行，将彻底改变电商直播与远程会议体验。

514 8 8

蚝油菜花

|

9月前

|

人工智能 PyTorch 算法框架/工具

|

博文

Sonic：自动对齐音频与唇部动作，一键合成配音动画！腾讯与浙大联合推出音频驱动肖像动画生成框架

Sonic 是由腾讯和浙江大学联合开发的音频驱动肖像动画框架，支持逼真的唇部同步、丰富的表情和头部动作、长时间稳定生成，并提供用户可调节性。

577 23 24

蚝油菜花

|

10月前

|

人工智能计算机视觉

|

博文

MangaNinja：开源线稿着色工具，自动匹配图像风格，一键快速上色

MangaNinja 是一款基于参考图像的线稿着色工具，通过创新的补丁重排模块和点驱动控制方案，实现精准颜色匹配和复杂场景处理，适用于漫画、插画和数字艺术创作。

369 10 10

蚝油菜花

|

11月前

|

人工智能 vr&ar

|

博文

TRELLIS：微软联合清华和中科大推出的高质量 3D 生成模型，支持局部控制和多种输出格式

TRELLIS 是由微软、清华大学和中国科学技术大学联合推出的高质量 3D 生成模型，能够根据文本或图像提示生成多样化的 3D 资产，支持多种输出格式和灵活编辑。

681 3 3

蚝油菜花

|

11月前

|

传感器人工智能数据可视化

|

博文

iDP3：斯坦福大学联合多所高校推出的改进型3D视觉运动策略

iDP3是由斯坦福大学联合多所高校推出的改进型3D视觉运动策略，旨在提升人形机器人在多样化环境中的自主操作能力。该策略基于自我中心的3D视觉表征，无需精确相机校准和点云分割，显著提高了机器人在未见过的环境中的实用性和灵活性。

198 11 11

游客2d4cqs7amspr6

|

7月前

|

编解码测试技术计算机视觉

|

问答

Magic Copy 是一款开源的 AI 抠图工具，支持 Chrome 浏览器扩展。它基于 Meta 的 Segment Anything Model 技术，能够自动识别图像中的前景对象并提取出来，简化用户从图片中提取特定元素的过程，提高工作效率。

537 7 7

蚝油菜花

|

8月前

|

人工智能物联网

|

博文

VideoPainter：开源视频修复神器！双分支架构一键修复，对象身份永久在线

VideoPainter 是由香港中文大学、腾讯ARC Lab等机构联合推出的视频修复和编辑框架，基于双分支架构和预训练扩散模型，支持任意长度视频的修复与编辑，具备背景保留、前景生成、文本指导编辑等功能，为视频处理领域带来新的突破。

344 12 12

1452750375310896

|

9月前

|

算法框架/工具 PyTorch 开发工具

|

问答

RetinaFace下载下来的模型验证失败

250 1 0

游客ub22igak5qixo

|

9月前

|

问答

请教大家，modelscope有能让图片中模糊文字变清晰的模型吗？

190 1 0

蚝油菜花

|

9月前

|

人工智能编解码 vr&ar

|

博文

Lumina-Video：上海 AI Lab 开源视频生成框架，动态程度可控，支持多分辨率

Lumina-Video 是由上海 AI Lab 和香港中文大学联合推出的高效视频生成框架，支持高质量视频生成、动态程度控制和多分辨率生成。

365 4 4

蚝油菜花

|

10月前

|

机器学习/深度学习人工智能缓存

|

博文

每个人都可以成为虚拟主播，一键创建属于你的虚拟形象，RAIN 为你实时生成逼真动画角色

RAIN 是一款创新的实时动画生成工具，支持在消费级硬件上实现无限视频流的实时动画化，适用于直播、虚拟角色生成等场景。

384 25 25

计算机视觉

最新

文章

视频

问答

推荐

精华

EchoMimicV2：阿里推出的开源数字人项目，能生成完整数字人半身动画

腾讯混元最新开源：一张图，秒变游戏大片

LatentSync：根据音频生成高分辨率、动态逼真的唇形同步视频

RealisHuman：AI 生成的人像不真实？后处理框架帮你修复生成图像中畸形人体部位

TransPixar：港中文联合 Adobe 开源透明背景视频生成模型，生成透明背景的 RGBA 视频，助力特效等视觉效果制作

AniDoc：蚂蚁集团开源 2D 动画上色 AI 模型，基于视频扩散模型自动将草图序列转换成彩色动画，保持动画的连贯性

SVDQuant：MIT 推出的扩散模型后训练的量化技术，能够将模型的权重和激活值量化至4位，减少内存占用并加速推理过程

DeepMesh：3D建模革命！清华团队让AI自动优化拓扑，1秒生成工业级网格

SeedVR：高效视频修复模型，支持任意长度和分辨率，生成真实感细节

HunyuanVideo：腾讯推出的开源视频生成模型，参数高达130亿

VidSketch：手残党逆袭！浙大AI神器草图秒变4K动画，三连提示词玩转影视级特效

Sitcom-Crafter：动画师失业警告！AI黑科技自动生成3D角色动作，剧情脚本秒变动画

DragAnything：视频PS来了！开源AI控制器让视频「指哪动哪」：拖拽任意物体轨迹，多对象独立运动一键生成

BEN2：一键快速抠图！自动移除图像和视频中的背景，支持在线使用

VideoRefer：阿里达摩院开源视频对象感知与推理框架，可集成 VLLM 提升其空间和时间理解能力

Enhance-A-Video：上海 AI Lab 推出视频生成质量增强算法，显著提升 AI 视频生成的真实度和细节表现

FlashVideo：生成1080p视频仅需102秒，字节联合港大推出低成本高分辨率视频生成框架

JoyGen：用音频生成3D说话人脸视频，快速生成逼真的唇部同步视频

StereoCrafter：腾讯开源将任意2D视频转换为立体3D视频的框架，适用于Apple Vision Pro等多种显示设备

VE-Bench：北京大学开源首个针对视频编辑质量的评估指标，从多角度考虑审美并准确地评估视频编辑效果

StyleStudio：支持图像风格迁移的文生图模型，能将融合参考图像的风格和文本提示内容生成风格一致的图像

AnchorCrafter：中科院联合腾讯推出的AI虚拟主播带货视频制作技术

WorldScore：斯坦福开源世界生成模型评估新标杆：3000样本+九维指标，视频/4D/3D模型一网打尽

Reve Image：设计师失业警告！AI秒出海报级神图，排版自动搞定

EfficientTAM：Meta AI推出的视频对象分割和跟踪模型

ACTalker：港科大联合腾讯清华推出，多模态驱动的说话人视频生成神器

这个模型让AI角色会说话还会演！MoCha：Meta联手滑铁卢大学打造对话角色视频生成黑科技

DreamActor-M1：字节跳动推出AI动画黑科技，静态照片秒变生动视频

AI-ClothingTryOn：服装店老板连夜下架试衣间！基于Gemini开发的AI试衣应用，一键生成10种穿搭效果

TaoAvatar：手机拍出电影级虚拟人！阿里3D高斯黑科技让动捕设备下岗

Sonic：自动对齐音频与唇部动作，一键合成配音动画！腾讯与浙大联合推出音频驱动肖像动画生成框架

MangaNinja：开源线稿着色工具，自动匹配图像风格，一键快速上色

TRELLIS：微软联合清华和中科大推出的高质量 3D 生成模型，支持局部控制和多种输出格式

iDP3：斯坦福大学联合多所高校推出的改进型3D视觉运动策略

如何通过对应用程序界面截图中的功能做图像识别对比缺陷

ObjectMover：港大联合Adobe打造图像编辑黑科技，移动物体光影自动匹配

TripoSG：3D生成新纪元！修正流模型秒出高保真网格，碾压传统建模

MIDI-3D：单图秒变3D场景！40秒生成360度空间，多实例扩散黑科技

MIT颠覆传统！分形生成模型效率暴涨4000倍，高分辨率图像秒级生成

VideoGrain：零样本多粒度视频编辑神器，用AI完成换装改场景，精准控制每一帧！

CogVideoX-Flash：智谱首个免费AI视频生成模型，支持文生视频、图生视频，分辨率最高可达4K

Ruyi：图森未来推出的图生视频大模型，支持多分辨率、多时长视频生成，具备运动幅度和镜头控制等功能

See3D：智源研究院开源的无标注视频学习 3D 生成模型

StableAnimator：复旦联合微软等机构推出的端到端身份一致性视频扩散框架

Magic Copy：开源的 AI 抠图工具，在浏览器中自动识别图像进行抠图

VideoPainter：开源视频修复神器！双分支架构一键修复，对象身份永久在线

RetinaFace下载下来的模型验证失败

请教大家，modelscope有能让图片中模糊文字变清晰的模型吗？

Lumina-Video：上海 AI Lab 开源视频生成框架，动态程度可控，支持多分辨率

每个人都可以成为虚拟主播，一键创建属于你的虚拟形象，RAIN 为你实时生成逼真动画角色

活跃用户

相关产品