开发者社区> ModelScope模型即服务> 计算机视觉

计算机视觉

关注

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

0
今日
3367
内容
0
活动
267
关注
|
11月前
|
人工智能 编解码 JSON
|

Qwen2.5-VL:阿里通义千问最新开源视觉语言模型,能够理解超过1小时的长视频

Qwen2.5-VL 是阿里通义千问团队开源的视觉语言模型,具有3B、7B和72B三种不同规模,能够识别常见物体、分析图像中的文本、图表等元素,并具备作为视觉Agent的能力。

5392 18
|
9月前
|
人工智能 编解码 自动驾驶
|

RF-DETR:YOLO霸主地位不保?开源 SOTA 实时目标检测模型,比眨眼还快3倍!

RF-DETR是首个在COCO数据集上突破60 mAP的实时检测模型,结合Transformer架构与DINOv2主干网络,支持多分辨率灵活切换,为安防、自动驾驶等场景提供高精度实时检测方案。

1825 6
|
12月前
|
人工智能 自然语言处理 监控
|

video-analyzer:开源视频分析工具,支持提取视频关键帧、音频转录,自动生成视频详细描述

video-analyzer 是一款开源视频分析工具,结合 Llama 的 11B 视觉模型和 OpenAI 的 Whisper 模型,能够提取视频关键帧、转录音频并生成详细描述,支持本地运行和多种应用场景

2807 6
|
9月前
|
机器学习/深度学习 人工智能 vr&ar
|

LHM:单图生成3D动画人!阿里开源建模核弹,高斯点云重构服装纹理

阿里巴巴通义实验室开源的LHM模型,能够从单张图像快速重建高质量可动画化的3D人体模型,支持实时渲染和姿态控制,适用于AR/VR、游戏开发等多种场景。

2312 0
|
11月前
|
人工智能 vr&ar
|

PSHuman:开源单图像3D人像重建技术,一张照片就能生成3D人像模型

PSHuman 是一种先进的单图像3D人像重建技术,仅需一张照片即可生成高度逼真的3D模型,支持面部细节、全身姿态和纹理恢复,适用于影视、游戏、虚拟现实等多个领域。

1488 4
|
机器学习/深度学习 人工智能 算法
|

X-AnyLabeling:开源的 AI 图像标注工具,支持多种标注样式,适于目标检测、图像分割等不同场景

X-AnyLabeling是一款集成了多种深度学习算法的图像标注工具,支持图像和视频的多样化标注样式,适用于多种AI训练场景。本文将详细介绍X-AnyLabeling的功能、技术原理以及如何运行该工具。

3130 2
|
11月前
|
机器学习/深度学习 编解码 人工智能
|

STAR:南京大学联合字节开源视频超分辨率增强生成框架,视频清晰度一键提升,支持从低分辨率视频生成高分辨率视频

STAR 是由南京大学、字节跳动和西南大学联合推出的视频超分辨率框架,能够将低分辨率视频提升为高分辨率,同时保持细节清晰度和时间一致性。

2299 13
|
机器学习/深度学习 编解码 人工智能
|

InvSR:开源图像超分辨率生成模型,提升分辨率,修复老旧照片为超清图像

InvSR 是一个创新的图像超分辨率模型,基于扩散模型的逆过程恢复高分辨率图像。它通过深度噪声预测器和灵活的采样机制,能够高效地提升图像分辨率,适用于老旧照片修复、视频监控、医疗成像等多个领域。

2465 9
|
11月前
|
人工智能 自然语言处理 API
|

UI-TARS:字节跳动开源专注于多平台 GUI 自动化交互的视觉语言模型

UI-TARS 是字节跳动推出的新一代原生图形用户界面(GUI)代理模型,支持跨平台自动化交互,具备强大的感知、推理、行动和记忆能力,能够通过自然语言指令完成复杂任务。

2910 16
|
机器学习/深度学习 人工智能 自然语言处理
|

Sketch2Lineart:AI绘画工具,自动将手绘草图转换成清晰的线条画

Sketch2Lineart是一款基于人工智能的绘画工具,能够自动将手绘草图转换成清晰的线条画。该工具支持多种功能,如草图转线稿、自动描述生成、细节调整和风格定制等,适用于艺术创作、产品设计、教育培训等多个领域。

1210 60
|
11月前
|
人工智能 搜索推荐 定位技术
|

AddressCLIP:一张照片就能准确定位!中科院联合阿里云推出街道级图像地理定位模型

AddressCLIP 是由中科院和阿里云联合开发的端到端图像地理定位模型,通过图像-文本对齐和地理匹配技术,实现街道级精度的定位,适用于城市管理、社交媒体、旅游导航等场景。

1739 30
|
11月前
|
人工智能 计算机视觉 开发者
|

SmartEraser:中科大推出图像对象移除技术,轻松移除照片中的不想要元素,保留完美瞬间

SmartEraser 是由中科大与微软亚洲研究院联合开发的图像编辑技术,能够精准移除图像中的指定对象,同时保留周围环境的细节和结构,适用于复杂场景的图像处理。

359 8
|
11月前
|
人工智能 Python
|

JoyCaption:开源的图像转提示词生成工具,支持多种风格和场景,性能与 GPT4o 相当

JoyCaption 是一款开源的图像提示词生成工具,支持多种生成模式和灵活的提示选项,适用于社交媒体、图像标注、内容创作等场景,帮助用户快速生成高质量图像描述。

1696 21
|
10月前
|
数据采集 机器学习/深度学习 人工智能
|

SkyReels-V1:短剧AI革命来了!昆仑开源视频生成AI秒出影视级短剧,比Sora更懂表演!

SkyReels-V1是昆仑万维开源的首个面向AI短剧创作的视频生成模型,支持高质量影视级视频生成、33种细腻表情和400多种自然动作组合。

1444 92
|
11月前
|
人工智能 并行计算 搜索推荐
|

SPAR3D:一张图片就能生成3D模型,每个物体的重建时间仅需0.7秒!

SPAR3D 是由 Stability AI 和伊利诺伊大学香槟分校推出的先进单图生成3D模型方法,支持快速推理与用户交互式编辑,适用于多种3D建模场景。

1848 30
|
机器学习/深度学习 人工智能 UED
|

OOTDiffusion:开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物

OOTDiffusion是一款开源的AI虚拟试衣工具,能够智能适配不同性别和体型,自动调整衣物尺寸和形状,生成自然贴合的试穿效果。该工具支持半身和全身试穿模式,操作简单,适合服装电商、时尚行业从业者及AI试穿技术爱好者使用。

1333 27
|
12月前
|
人工智能 搜索推荐 API
|

Cobalt:开源的流媒体下载工具,支持解析和下载全平台的视频、音频和图片,支持多种视频质量和格式,自动提取视频字幕

cobalt 是一款开源的流媒体下载工具,支持全平台视频、音频和图片下载,提供纯净、简洁无广告的体验

1957 9
|
机器学习/深度学习 人工智能 编解码
|

关键点检测从入门到进阶

关键点检测,也被称作关键点定位或关键点对齐(keypoint alignment),在不同的任务中名字可能略有差异。比如,在人脸关键点定位中会被称作facemark alignment,在人体关键点检测中称作pose alignment。

2274 1
|
10月前
|
机器学习/深度学习 人工智能 异构计算
|

SkyReels-A1:解放动画师!昆仑开源「数字人制造机」:一张照片生成逼真虚拟主播,表情连眉毛颤动都可控

SkyReels-A1 是昆仑万维开源的首个 SOTA 级别表情动作可控的数字人生成模型,支持高保真肖像动画生成和精确的表情动作控制。

1086 23
|
10月前
|
存储 人工智能 编解码
|

Pippo:Meta放出AI大招!单张照片秒转3D人像多视角视频,AI自动补全身体细节

Pippo 是 Meta 推出的图像到视频生成模型,能够从单张照片生成 1K 分辨率的多视角高清人像视频,支持全身、面部或头部的生成。

995 9
|
机器学习/深度学习 人工智能 自然语言处理
|

Manga Image Translator:开源的漫画文字翻译工具,支持多语言翻译并嵌入原图,保持漫画的原始风格和布局

Manga Image Translator 是一款开源的漫画图片文字翻译工具,支持多语言翻译并能将翻译后的文本无缝嵌入原图,保持漫画的原始风格和布局。该工具基于OCR技术和深度学习模型,提供批量处理和在线/离线翻译功能。

2625 16
|
8月前
|
人工智能 算法
|

Runway Gen-4:AI视频生成新纪元!高保真特效一键生成影视级内容

Runway Gen-4是新一代AI视频生成模型,通过参考图和文字指令即可生成具有物理真实感、叙事连贯性的高质量视频内容,支持与实拍素材无缝融合。

682 9
|
人工智能
|

HunyuanVideo:腾讯推出的开源视频生成模型,参数高达130亿

腾讯推出的开源视频生成模型HunyuanVideo,拥有130亿参数,是目前参数量最大的开源视频模型之一。该模型具备物理模拟、高文本语义还原度、动作一致性和电影级画质等特性,能生成带有背景音乐的视频,推动了视频生成技术的发展和应用。

655 16
|
机器学习/深度学习 人工智能 Linux
|

SAM 2.1:Meta 开源的图像和视频分割,支持实时视频处理

SAM 2.1是由Meta(Facebook的母公司)推出的先进视觉分割模型,专为图像和视频处理设计。该模型基于Transformer架构和流式记忆设计,实现了实时视频处理,并引入了数据增强技术,提升了对视觉相似物体和小物体的识别能力。SAM 2.1的主要功能包括图像和视频分割、实时视频处理、用户交互式分割、多对象跟踪以及改进的遮挡处理能力。

1002 6
|
9月前
|
机器学习/深度学习 人工智能 算法
|

Stable Virtual Camera:2D秒变3D电影!Stability AI黑科技解锁无限运镜,自定义轨迹一键生成

Stable Virtual Camera 是 Stability AI 推出的 AI 模型,能够将 2D 图像转换为具有真实深度和透视感的 3D 视频,支持自定义相机轨迹和多种动态路径,生成高质量且时间平滑的视频。

624 0
|
10月前
|
存储 人工智能 自然语言处理
|

ACE++:输入想法就能完成图像创作和编辑!阿里通义推出新版自然语言驱动的图像生成与编辑工具

ACE++ 是阿里巴巴通义实验室推出的升级版图像生成与编辑工具,支持多种任务,如高质量人物肖像生成、主题一致性保持和局部图像编辑。

782 8
|
8月前
|
人工智能 API 计算机视觉
|

AI-ClothingTryOn:服装店老板连夜下架试衣间!基于Gemini开发的AI试衣应用,一键生成10种穿搭效果

AI-ClothingTryOn是基于Google Gemini技术的虚拟试衣应用,支持人物与服装照片智能合成,可生成多达10种试穿效果版本,并提供自定义提示词优化功能。

711 18
|
10月前
|
机器学习/深度学习 人工智能 前端开发
|

FacePoke:开源AI实时面部编辑神器!拖拽调整表情/头部朝向,4K画质一键生成

FacePoke是一款基于AI技术的开源实时面部编辑工具,支持通过拖拽操作调整头部朝向和面部表情,适用于多种场景。

790 0
|
12月前
|
机器学习/深度学习 编解码 物联网
|

极致的显存管理!6G显存运行混元Video模型

混元 Video 模型自发布以来,已成为目前效果最好的开源文生视频模型,然而,这个模型极为高昂的硬件需求让大多数玩家望而却步。魔搭社区的开源项目 DiffSynth-Studio 近期为混元 Video 模型提供了更高效的显存管理的支持,目前已支持使用24G显存进行无任何质量损失的视频生成,并在极致情况下,用低至 6G 的显存运行混元 Video 模型!

1109 13
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
|

DeepMesh:3D建模革命!清华团队让AI自动优化拓扑,1秒生成工业级网格

DeepMesh 是由清华大学和南洋理工大学联合开发的 3D 网格生成框架,基于强化学习和自回归变换器,能够生成高质量的 3D 网格,适用于虚拟环境构建、动态内容生成、角色动画等多种场景。

777 4
|
9月前
|
机器学习/深度学习 人工智能 文字识别
|

Umi-OCR:31K Star!离线OCR终结者!公式+二维码+多语种,开源免费吊打付费

Umi-OCR 是一款免费开源的离线 OCR 文字识别工具,支持截图、批量图片、PDF 扫描件的文字识别,内置多语言识别库,提供命令行和 HTTP 接口调用功能。

923 0
|
11月前
|
敏捷开发 人工智能 JavaScript
|

Figma-Low-Code:快速将Figma设计转换为Vue.js应用,支持低代码渲染、数据绑定

Figma-Low-Code 是一个开源项目,能够直接将 Figma 设计转换为 Vue.js 应用程序,减少设计师与开发者之间的交接时间,支持低代码渲染和数据绑定。

808 3
|
1月前
|
编解码 人工智能 文字识别
|

【Github热门项目】DeepSeek-OCR项目上线即突破7k+星!突破10倍无损压缩,重新定义文本-视觉信息处理

DeepSeek-OCR开源即获7k+星,首创“上下文光学压缩”技术,仅用100视觉token超越传统OCR模型256token性能,压缩比达10-20倍,精度仍超97%。30亿参数实现单卡日处理20万页,显著降低大模型长文本输入成本,重新定义高效文档理解新范式。

329 2
|
9月前
|
人工智能 编解码
|

ReCamMaster:视频运镜AI革命!单镜头秒变多机位,AI重渲染颠覆创作

ReCamMaster 是由浙江大学与快手科技联合推出的视频重渲染框架,能够根据用户指定的相机轨迹重新生成视频内容,广泛应用于视频创作、后期制作、教育等领域,提升创作自由度和质量。

732 0
|
10月前
|
人工智能 Python
|

Light-A-Video:好莱坞级打光自由!上海AI Lab开源视频打光AI,无需训练秒改画面氛围,3步让阴天变夕阳

Light-A-Video 是由上海AI Lab联合交大等高校推出的无需训练的视频重照明方法,支持高质量、时间一致的光照控制,零样本生成和前景背景分离处理。

501 9
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
|

JoyGen:用音频生成3D说话人脸视频,快速生成逼真的唇部同步视频

JoyGen 是京东和香港大学联合推出的音频驱动的3D说话人脸视频生成框架,支持多语言、高质量视觉效果和精确的唇部与音频同步。

722 14
|
9月前
|
人工智能 并行计算 PyTorch
|

TripoSR:开源3D生成闪电战!单图0.5秒建模,Stability AI颠覆设计流程

TripoSR是由Stability AI和VAST联合推出的开源3D生成模型,能在0.5秒内从单张2D图像快速生成高质量3D模型,支持游戏开发、影视制作等多领域应用。

567 13
|
10月前
|
机器学习/深度学习 人工智能 编解码
|

Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像

Lumina-Image 2.0 是上海 AI Lab 开源的高效统一图像生成模型,参数量为26亿,基于扩散模型和Transformer架构,支持多种推理求解器,能生成高质量、多风格的图像。

896 17
|
11月前
|
机器学习/深度学习 编解码 人工智能
|

SeedVR:高效视频修复模型,支持任意长度和分辨率,生成真实感细节

SeedVR 是南洋理工大学和字节跳动联合推出的扩散变换器模型,能够高效修复低质量视频,支持任意长度和分辨率,生成真实感细节。

713 16
|
11月前
|
人工智能
|

RealisHuman:AI 生成的人像不真实?后处理框架帮你修复生成图像中畸形人体部位

RealisHuman 是一个创新的后处理框架,专注于修复生成图像中畸形的人体部位,如手和脸,通过两阶段方法提升图像的真实性。

507 11
|
12月前
|
机器学习/深度学习 人工智能 算法
|

VE-Bench:北京大学开源首个针对视频编辑质量的评估指标,从多角度考虑审美并准确地评估视频编辑效果

北京大学开源了首个针对视频编辑质量评估的新指标 VE-Bench,旨在通过人类感知一致的度量标准,更准确地评估视频编辑效果。

709 14
|
机器学习/深度学习 存储 人工智能
|

AI人像动漫

学术界自2000年左右开始对图像生成进行研究。日常采集到的图像数量非常有限,而且采集成本相对较高。因此,我们希望计算机能够自动化生成新的图像。但是,如果图像内容随机生成,无法控制生成结果,则图像依然不可用。

2151 1
|
10月前
|
数据采集 机器学习/深度学习 人工智能
|

Sitcom-Crafter:动画师失业警告!AI黑科技自动生成3D角色动作,剧情脚本秒变动画

Sitcom-Crafter 是一款基于剧情驱动的 3D 动作生成系统,通过多模块协同工作,支持人类行走、场景交互和多人交互,适用于动画、游戏及虚拟现实等领域。

692 4
|
11月前
|
机器学习/深度学习 人工智能 监控
|

DiffuEraser:阿里通义实验室推出的视频修复模型,支持高清修复、时间一致性优化

DiffuEraser 是阿里通义实验室推出的基于稳定扩散模型的视频修复工具,能够生成丰富的细节并保持时间一致性,适用于电影修复、监控增强等场景。

823 27
|
11月前
|
人工智能 知识图谱
|

SVFR:全能视频人脸修复框架,支持提升清晰度、色彩填充和缺失补全等图像修复任务

SVFR 是一个通用视频人脸修复框架,支持人脸修复、着色和修复任务,基于 Stable Video Diffusion 技术,提供高质量的视频修复效果。

758 23
|
人工智能
|

AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性

AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。

588 16
|
人工智能 自然语言处理 并行计算
|

EchoMimicV2:阿里推出的开源数字人项目,能生成完整数字人半身动画

EchoMimicV2是阿里蚂蚁集团推出的开源数字人项目,能够生成完整的数字人半身动画。该项目基于参考图片、音频剪辑和手部姿势序列,通过音频-姿势动态协调策略生成高质量动画视频,确保音频内容与半身动作的一致性。EchoMimicV2不仅支持中文和英文驱动,还简化了动画生成过程中的复杂条件,适用于虚拟主播、在线教育、娱乐和游戏等多个应用场景。

3734 5
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

VideoWorld:字节开源自回归视频生成模型,支持输入视频指导AI生成视频!弥补文本生成视频的短板

VideoWorld 是由字节跳动、北京交通大学和中国科学技术大学联合推出的自回归视频生成模型,能够从未标注的视频数据中学习复杂知识,支持长期推理和规划任务。

1143 8
|
机器学习/深度学习 人工智能 文字识别
|

一种基于YOLOv8改进的高精度红外小目标检测算法 (原创自研)

【7月更文挑战第2天】 💡💡💡创新点: 1)SPD-Conv特别是在处理低分辨率图像和小物体等更困难的任务时优势明显; 2)引入Wasserstein Distance Loss提升小目标检测能力; 3)YOLOv8中的Conv用cvpr2024中的DynamicConv代替;

1430 4
|
10月前
|
人工智能 编解码 vr&ar
|

Lumina-Video:上海 AI Lab 开源视频生成框架,动态程度可控,支持多分辨率

Lumina-Video 是由上海 AI Lab 和香港中文大学联合推出的高效视频生成框架,支持高质量视频生成、动态程度控制和多分辨率生成。

505 4
我要发布