开发者社区> ModelScope模型即服务> 计算机视觉

计算机视觉

关注

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

0
今日
3363
内容
0
活动
260
关注
|
7月前
|
机器学习/深度学习 人工智能 vr&ar
|

LHM:单图生成3D动画人!阿里开源建模核弹,高斯点云重构服装纹理

阿里巴巴通义实验室开源的LHM模型,能够从单张图像快速重建高质量可动画化的3D人体模型,支持实时渲染和姿态控制,适用于AR/VR、游戏开发等多种场景。

1584 0
|
9月前
|
人工智能 编解码 JSON
|

Qwen2.5-VL:阿里通义千问最新开源视觉语言模型,能够理解超过1小时的长视频

Qwen2.5-VL 是阿里通义千问团队开源的视觉语言模型,具有3B、7B和72B三种不同规模,能够识别常见物体、分析图像中的文本、图表等元素,并具备作为视觉Agent的能力。

3735 18
|
7月前
|
人工智能 编解码 自动驾驶
|

RF-DETR:YOLO霸主地位不保?开源 SOTA 实时目标检测模型,比眨眼还快3倍!

RF-DETR是首个在COCO数据集上突破60 mAP的实时检测模型,结合Transformer架构与DINOv2主干网络,支持多分辨率灵活切换,为安防、自动驾驶等场景提供高精度实时检测方案。

896 6
|
10月前
|
人工智能 自然语言处理 监控
|

video-analyzer:开源视频分析工具,支持提取视频关键帧、音频转录,自动生成视频详细描述

video-analyzer 是一款开源视频分析工具,结合 Llama 的 11B 视觉模型和 OpenAI 的 Whisper 模型,能够提取视频关键帧、转录音频并生成详细描述,支持本地运行和多种应用场景

1776 6
|
9月前
|
机器学习/深度学习 编解码 人工智能
|

STAR:南京大学联合字节开源视频超分辨率增强生成框架,视频清晰度一键提升,支持从低分辨率视频生成高分辨率视频

STAR 是由南京大学、字节跳动和西南大学联合推出的视频超分辨率框架,能够将低分辨率视频提升为高分辨率,同时保持细节清晰度和时间一致性。

1604 13
|
10月前
|
人工智能 搜索推荐 API
|

Cobalt:开源的流媒体下载工具,支持解析和下载全平台的视频、音频和图片,支持多种视频质量和格式,自动提取视频字幕

cobalt 是一款开源的流媒体下载工具,支持全平台视频、音频和图片下载,提供纯净、简洁无广告的体验

1472 9
|
10月前
|
机器学习/深度学习 编解码 人工智能
|

InvSR:开源图像超分辨率生成模型,提升分辨率,修复老旧照片为超清图像

InvSR 是一个创新的图像超分辨率模型,基于扩散模型的逆过程恢复高分辨率图像。它通过深度噪声预测器和灵活的采样机制,能够高效地提升图像分辨率,适用于老旧照片修复、视频监控、医疗成像等多个领域。

1715 9
|
10月前
|
机器学习/深度学习 人工智能 算法
|

X-AnyLabeling:开源的 AI 图像标注工具,支持多种标注样式,适于目标检测、图像分割等不同场景

X-AnyLabeling是一款集成了多种深度学习算法的图像标注工具,支持图像和视频的多样化标注样式,适用于多种AI训练场景。本文将详细介绍X-AnyLabeling的功能、技术原理以及如何运行该工具。

2245 2
|
9月前
|
人工智能 并行计算 搜索推荐
|

SPAR3D:一张图片就能生成3D模型,每个物体的重建时间仅需0.7秒!

SPAR3D 是由 Stability AI 和伊利诺伊大学香槟分校推出的先进单图生成3D模型方法,支持快速推理与用户交互式编辑,适用于多种3D建模场景。

1155 30
|
11月前
|
人工智能 自然语言处理 并行计算
|

EchoMimicV2:阿里推出的开源数字人项目,能生成完整数字人半身动画

EchoMimicV2是阿里蚂蚁集团推出的开源数字人项目,能够生成完整的数字人半身动画。该项目基于参考图片、音频剪辑和手部姿势序列,通过音频-姿势动态协调策略生成高质量动画视频,确保音频内容与半身动作的一致性。EchoMimicV2不仅支持中文和英文驱动,还简化了动画生成过程中的复杂条件,适用于虚拟主播、在线教育、娱乐和游戏等多个应用场景。

3418 5
|
10月前
|
机器学习/深度学习 人工智能 UED
|

OOTDiffusion:开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物

OOTDiffusion是一款开源的AI虚拟试衣工具,能够智能适配不同性别和体型,自动调整衣物尺寸和形状,生成自然贴合的试穿效果。该工具支持半身和全身试穿模式,操作简单,适合服装电商、时尚行业从业者及AI试穿技术爱好者使用。

867 27
|
9月前
|
人工智能 自然语言处理 API
|

UI-TARS:字节跳动开源专注于多平台 GUI 自动化交互的视觉语言模型

UI-TARS 是字节跳动推出的新一代原生图形用户界面(GUI)代理模型,支持跨平台自动化交互,具备强大的感知、推理、行动和记忆能力,能够通过自然语言指令完成复杂任务。

2345 16
|
10月前
|
机器学习/深度学习 编解码 物联网
|

极致的显存管理!6G显存运行混元Video模型

混元 Video 模型自发布以来,已成为目前效果最好的开源文生视频模型,然而,这个模型极为高昂的硬件需求让大多数玩家望而却步。魔搭社区的开源项目 DiffSynth-Studio 近期为混元 Video 模型提供了更高效的显存管理的支持,目前已支持使用24G显存进行无任何质量损失的视频生成,并在极致情况下,用低至 6G 的显存运行混元 Video 模型!

784 12
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Manga Image Translator:开源的漫画文字翻译工具,支持多语言翻译并嵌入原图,保持漫画的原始风格和布局

Manga Image Translator 是一款开源的漫画图片文字翻译工具,支持多语言翻译并能将翻译后的文本无缝嵌入原图,保持漫画的原始风格和布局。该工具基于OCR技术和深度学习模型,提供批量处理和在线/离线翻译功能。

594 15
|
7月前
|
机器学习/深度学习 人工智能 文字识别
|

Umi-OCR:31K Star!离线OCR终结者!公式+二维码+多语种,开源免费吊打付费

Umi-OCR 是一款免费开源的离线 OCR 文字识别工具,支持截图、批量图片、PDF 扫描件的文字识别,内置多语言识别库,提供命令行和 HTTP 接口调用功能。

602 0
|
8月前
|
机器学习/深度学习 人工智能 前端开发
|

FacePoke:开源AI实时面部编辑神器!拖拽调整表情/头部朝向,4K画质一键生成

FacePoke是一款基于AI技术的开源实时面部编辑工具,支持通过拖拽操作调整头部朝向和面部表情,适用于多种场景。

477 0
|
7月前
|
机器学习/深度学习 人工智能 算法
|

Stable Virtual Camera:2D秒变3D电影!Stability AI黑科技解锁无限运镜,自定义轨迹一键生成

Stable Virtual Camera 是 Stability AI 推出的 AI 模型,能够将 2D 图像转换为具有真实深度和透视感的 3D 视频,支持自定义相机轨迹和多种动态路径,生成高质量且时间平滑的视频。

340 0
|
8月前
|
存储 人工智能 自然语言处理
|

ACE++:输入想法就能完成图像创作和编辑!阿里通义推出新版自然语言驱动的图像生成与编辑工具

ACE++ 是阿里巴巴通义实验室推出的升级版图像生成与编辑工具,支持多种任务,如高质量人物肖像生成、主题一致性保持和局部图像编辑。

462 8
|
9月前
|
人工智能 搜索推荐 定位技术
|

AddressCLIP:一张照片就能准确定位!中科院联合阿里云推出街道级图像地理定位模型

AddressCLIP 是由中科院和阿里云联合开发的端到端图像地理定位模型,通过图像-文本对齐和地理匹配技术,实现街道级精度的定位,适用于城市管理、社交媒体、旅游导航等场景。

1189 30
|
8月前
|
人工智能 自然语言处理 PyTorch
|

Sa2VA:别再用PS抠图了!字节跳动开源Sa2VA:一句话自动分割视频,连头发丝都精准

Sa2VA 是由字节跳动等机构联合推出的多模态大语言模型,结合 SAM2 和 LLaVA 实现对图像和视频的精确分割和对话功能。

470 15
|
9月前
|
人工智能 Python
|

JoyCaption:开源的图像转提示词生成工具,支持多种风格和场景,性能与 GPT4o 相当

JoyCaption 是一款开源的图像提示词生成工具,支持多种生成模式和灵活的提示选项,适用于社交媒体、图像标注、内容创作等场景,帮助用户快速生成高质量图像描述。

1192 21
|
10月前
|
机器学习/深度学习 人工智能
|

SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能

SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。

219 10
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Sketch2Lineart:AI绘画工具,自动将手绘草图转换成清晰的线条画

Sketch2Lineart是一款基于人工智能的绘画工具,能够自动将手绘草图转换成清晰的线条画。该工具支持多种功能,如草图转线稿、自动描述生成、细节调整和风格定制等,适用于艺术创作、产品设计、教育培训等多个领域。

814 60
|
6月前
|
人工智能 计算机视觉
|

漫画师福音!开源AI神器让线稿着色快如闪电!MagicColor:港科大开源多实例线稿着色框架,一键生成动画级彩图

MagicColor是香港科技大学推出的多实例线稿着色框架,基于扩散模型和自监督训练策略,实现单次前向传播完成多实例精准着色,大幅提升动画制作和数字艺术创作效率。

488 20
|
6月前
|
人工智能 算法
|

Runway Gen-4:AI视频生成新纪元!高保真特效一键生成影视级内容

Runway Gen-4是新一代AI视频生成模型,通过参考图和文字指令即可生成具有物理真实感、叙事连贯性的高质量视频内容,支持与实拍素材无缝融合。

410 9
|
9月前
|
人工智能 数据处理
|

LatentSync:根据音频生成高分辨率、动态逼真的唇形同步视频

LatentSync 是由字节跳动与北京交通大学联合推出的端到端唇形同步框架,基于音频条件的潜在扩散模型,能够生成高分辨率、动态逼真的唇同步视频,适用于影视、教育、广告等多个领域。

743 19
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Genesis:卡内基梅隆大学联合 20 多所研究机构开源生成式物理引擎,能够模拟各种材料、物体和物理运动现象

Genesis是由卡内基梅隆大学联合20多所研究机构开源的生成式物理引擎,能够模拟世界万物,具有高度的物理准确性和快速的模拟速度,适用于机器人仿真、游戏开发、电影特效制作等多个领域。

456 21
|
7月前
|
人工智能 图形学
|

PhysGen3D:清华等高校联合推出,单图秒变交互式3D场景

PhysGen3D是清华等高校联合开发的创新框架,通过单张图像重建3D场景并模拟物理行为,实现从静态图像到动态交互的突破性转换。

138 15
|
7月前
|
人工智能 编解码 测试技术
|

TripoSG:3D生成新纪元!修正流模型秒出高保真网格,碾压传统建模

TripoSG 是 VAST AI 推出的基于大规模修正流模型的高保真 3D 形状合成技术,能够从单张图像生成细节丰富的 3D 网格模型,在工业设计、游戏开发等领域具有广泛应用前景。

271 15
|
8月前
|
机器学习/深度学习 人工智能 编解码
|

Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像

Lumina-Image 2.0 是上海 AI Lab 开源的高效统一图像生成模型,参数量为26亿,基于扩散模型和Transformer架构,支持多种推理求解器,能生成高质量、多风格的图像。

474 17
|
9月前
|
人工智能 测试技术 定位技术
|

Tarsier2:字节跳动开源专注于图像和视频内容理解的视觉语言大模型

Tarsier2 是字节跳动推出的大规模视觉语言模型,支持高质量视频描述、问答与定位,在多个视频理解任务中表现优异。

496 16
|
9月前
|
人工智能 知识图谱
|

SVFR:全能视频人脸修复框架,支持提升清晰度、色彩填充和缺失补全等图像修复任务

SVFR 是一个通用视频人脸修复框架,支持人脸修复、着色和修复任务,基于 Stable Video Diffusion 技术,提供高质量的视频修复效果。

566 23
|
10月前
|
人工智能
|

HunyuanVideo:腾讯推出的开源视频生成模型,参数高达130亿

腾讯推出的开源视频生成模型HunyuanVideo,拥有130亿参数,是目前参数量最大的开源视频模型之一。该模型具备物理模拟、高文本语义还原度、动作一致性和电影级画质等特性,能生成带有背景音乐的视频,推动了视频生成技术的发展和应用。

415 16
|
2月前
|
机器人 图形学 开发者
|

腾讯混元最新开源:一张图,秒变游戏大片

有没有想过,随手拍的一张风景照,下一秒就能变成可操控的游戏开放世界?

228 3
|
6月前
|
机器学习/深度学习 人工智能 编解码
|

EasyControl Ghibli:在线体验一键生成宫崎骏动画风,开源AI模型让你的照片秒变吉卜力

EasyControl Ghibli是基于扩散模型的AI工具,通过条件注入技术将普通照片转化为吉卜力动画风格,仅需100张训练样本即可精准还原标志性光影与色调特征。

918 11
|
8月前
|
存储 人工智能 编解码
|

Pippo:Meta放出AI大招!单张照片秒转3D人像多视角视频,AI自动补全身体细节

Pippo 是 Meta 推出的图像到视频生成模型,能够从单张照片生成 1K 分辨率的多视角高清人像视频,支持全身、面部或头部的生成。

525 9
|
9月前
|
机器学习/深度学习 人工智能 监控
|

DiffuEraser:阿里通义实验室推出的视频修复模型,支持高清修复、时间一致性优化

DiffuEraser 是阿里通义实验室推出的基于稳定扩散模型的视频修复工具,能够生成丰富的细节并保持时间一致性,适用于电影修复、监控增强等场景。

541 27
|
10月前
|
编解码 人工智能 自然语言处理
|

Ruyi:图森未来推出的图生视频大模型,支持多分辨率、多时长视频生成,具备运动幅度和镜头控制等功能

Ruyi是图森未来推出的图生视频大模型,专为消费级显卡设计,支持多分辨率、多时长视频生成,具备首帧、首尾帧控制、运动幅度控制和镜头控制等特性。Ruyi基于DiT架构,能够降低动漫和游戏内容的开发周期和成本,是ACG爱好者和创作者的理想工具。

566 33
|
10月前
|
人工智能 自然语言处理 前端开发
|

Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务

Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。

454 9
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

LTX Video:Lightricks推出的开源AI视频生成模型

LTX Video是由Lightricks推出的开源AI视频生成模型,能够在4秒内生成5秒的高质量视频。该模型基于2亿参数的DiT架构,确保帧间平滑运动和结构一致性,支持长视频制作,适用于多种场景,如游戏图形升级和电子商务广告变体制作。

618 1
|
7月前
|
人工智能 编解码 数据建模
|

MIT颠覆传统!分形生成模型效率暴涨4000倍,高分辨率图像秒级生成

Fractal Generative Models 是麻省理工学院与 Google DeepMind 团队推出的新型图像生成方法,基于分形思想,通过递归调用模块构建自相似架构,显著提升计算效率,适用于高分辨率图像生成、医学图像模拟等领域。

242 0
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
|

VideoGrain:零样本多粒度视频编辑神器,用AI完成换装改场景,精准控制每一帧!

VideoGrain 是悉尼科技大学和浙江大学推出的零样本多粒度视频编辑框架,基于调节时空交叉注意力和自注意力机制,实现类别级、实例级和部件级的精细视频修改,保持时间一致性,显著优于现有方法。

226 0
|
9月前
|
人工智能 vr&ar
|

PSHuman:开源单图像3D人像重建技术,一张照片就能生成3D人像模型

PSHuman 是一种先进的单图像3D人像重建技术,仅需一张照片即可生成高度逼真的3D模型,支持面部细节、全身姿态和纹理恢复,适用于影视、游戏、虚拟现实等多个领域。

828 4
|
6月前
|
人工智能 编解码 自然语言处理
|

DreamActor-M1:字节跳动推出AI动画黑科技,静态照片秒变生动视频

DreamActor-M1是字节跳动研发的AI图像动画框架,通过混合引导机制实现高保真人物动画生成,支持多语言语音驱动和形状自适应功能。

628 40
|
6月前
|
人工智能
|

Hi3DGen:2D照片秒变高精度模型,毛孔级细节完爆Blender!港中文×字节×清华联手打造3D生成黑科技

Hi3DGen是由香港中文大学、字节跳动和清华大学联合研发的高保真3D几何生成框架,通过法线图中间表示实现细节丰富的3D模型生成,其双阶段生成流程显著提升了几何保真度。

618 32
|
8月前
|
数据采集 机器学习/深度学习 人工智能
|

SkyReels-V1:短剧AI革命来了!昆仑开源视频生成AI秒出影视级短剧,比Sora更懂表演!

SkyReels-V1是昆仑万维开源的首个面向AI短剧创作的视频生成模型,支持高质量影视级视频生成、33种细腻表情和400多种自然动作组合。

1043 92
|
8月前
|
人工智能 数据可视化 UED
|

DragAnything:视频PS来了!开源AI控制器让视频「指哪动哪」:拖拽任意物体轨迹,多对象独立运动一键生成

DragAnything 是快手联合浙江大学和新加坡国立大学推出的基于实体表示的可控视频生成方法,支持多实体独立运动控制、高质量视频生成,并在 FID、FVD 和用户研究等评估指标上达到最佳性能。

305 10
|
8月前
|
机器学习/深度学习 人工智能 编解码
|

FlashVideo:生成1080p视频仅需102秒,字节联合港大推出低成本高分辨率视频生成框架

FlashVideo 是字节跳动和香港大学联合推出的高分辨率视频生成框架,通过两阶段方法显著降低计算成本,快速生成高质量视频。

262 5
|
9月前
|
敏捷开发 人工智能 JavaScript
|

Figma-Low-Code:快速将Figma设计转换为Vue.js应用,支持低代码渲染、数据绑定

Figma-Low-Code 是一个开源项目,能够直接将 Figma 设计转换为 Vue.js 应用程序,减少设计师与开发者之间的交接时间,支持低代码渲染和数据绑定。

539 3
|
9月前
|
人工智能 数据库
|

Poetry2Image:专为中文古诗词设计的图像生成校正框架,增强了诗歌内容与模型生成图像之间的一致性

Poetry2Image 是一个专为中文古诗词图像生成设计的迭代校正框架,通过自动化反馈和校正循环,提升诗歌与图像之间的一致性,有效捕捉诗歌的语义和艺术精髓。

233 11
我要发布