计算机视觉-推荐-阿里云开发者社区-阿里云

zfhvx64ydb4r6

|

7天前

|

人工智能并行计算算法

|

博文

video-subtitle-remover（VSR）--开源AI去字幕方案深度解析

VSR（video-subtitle-remover）是一款开源AI视频去字幕工具，支持本地运行，无需上传数据。它融合STTN、LaMa、ProPainter三大前沿修复模型，可智能检测并擦除硬字幕/水印，保持原分辨率与画质。兼容CUDA/DirectML，适配NVIDIA/AMD/Intel显卡，兼顾隐私性、可控性与高性能。

250 6 6

AI小怪兽

|

2天前

|

机器学习/深度学习编解码运维

|

博文

红外小目标检测新突破！异常感知检测头AA-YOLO：节俭又鲁棒，小样本也能精准识别

本文提出AA-YOLO：首个将统计异常检验嵌入YOLO检测头的方法，通过指数分布建模背景，显式识别小目标为统计异常，显著降低误报率；仅需10%数据即达90%全量性能，参数比EFLNet少6倍，轻量高效；在噪声、跨域、跨模态下鲁棒性强，且可无缝适配各类YOLO及实例分割网络。

123 4 4

AI小怪兽

|

2天前

|

机器学习/深度学习人工智能数据可视化

|

博文

基于YOLO11的交通违规检测系统（Python源码+数据集+Pyside6界面）

本文基于YOLO11构建交通违规检测系统，涵盖23类目标（车辆、信号灯、标志等），详解数据制作（ROI裁剪优化尺度）、模型改进（C3k2、C2PSA、轻量Detect头）及训练可视化全过程，并集成PySide6实现GUI应用，助力工业落地。

123 12 12

蚝油菜花

|

12月前

|

人工智能编解码自动驾驶

|

博文

RF-DETR：YOLO霸主地位不保？开源 SOTA 实时目标检测模型，比眨眼还快3倍！

RF-DETR是首个在COCO数据集上突破60 mAP的实时检测模型，结合Transformer架构与DINOv2主干网络，支持多分辨率灵活切换，为安防、自动驾驶等场景提供高精度实时检测方案。

2584 6 6

蚝油菜花

|

12月前

|

机器学习/深度学习人工智能 vr&ar

|

博文

LHM：单图生成3D动画人！阿里开源建模核弹，高斯点云重构服装纹理

阿里巴巴通义实验室开源的LHM模型，能够从单张图像快速重建高质量可动画化的3D人体模型，支持实时渲染和姿态控制，适用于AR/VR、游戏开发等多种场景。

2953 0 0

蚝油菜花

|

11月前

|

人工智能计算机视觉

|

博文

漫画师福音！开源AI神器让线稿着色快如闪电！MagicColor：港科大开源多实例线稿着色框架，一键生成动画级彩图

MagicColor是香港科技大学推出的多实例线稿着色框架，基于扩散模型和自监督训练策略，实现单次前向传播完成多实例精准着色，大幅提升动画制作和数字艺术创作效率。

890 20 21

蚝油菜花

|

12月前

|

机器学习/深度学习人工智能编解码

|

博文

Step-Video-TI2V：开源视频生成核弹！300亿参数+102帧电影运镜

Step-Video-TI2V 是阶跃星辰推出的开源图生视频模型，支持根据文本和图像生成高质量视频，具备动态性调节和多种镜头运动控制功能，适用于动画制作、短视频创作等场景。

826 0 0

蚝油菜花

|

12月前

|

人工智能编解码测试技术

|

博文

TripoSG：3D生成新纪元！修正流模型秒出高保真网格，碾压传统建模

TripoSG 是 VAST AI 推出的基于大规模修正流模型的高保真 3D 形状合成技术，能够从单张图像生成细节丰富的 3D 网格模型，在工业设计、游戏开发等领域具有广泛应用前景。

535 15 20

蚝油菜花

|

12月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

DeepMesh：3D建模革命！清华团队让AI自动优化拓扑，1秒生成工业级网格

DeepMesh 是由清华大学和南洋理工大学联合开发的 3D 网格生成框架，基于强化学习和自回归变换器，能够生成高质量的 3D 网格，适用于虚拟环境构建、动态内容生成、角色动画等多种场景。

1071 4 4

蚝油菜花

|

11月前

|

机器学习/深度学习人工智能编解码

|

博文

EasyControl Ghibli：在线体验一键生成宫崎骏动画风，开源AI模型让你的照片秒变吉卜力

EasyControl Ghibli是基于扩散模型的AI工具，通过条件注入技术将普通照片转化为吉卜力动画风格，仅需100张训练样本即可精准还原标志性光影与色调特征。

1366 11 11

蚝油菜花

|

11月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

这个模型让AI角色会说话还会演！MoCha：Meta联手滑铁卢大学打造对话角色视频生成黑科技

MoCha是由Meta与滑铁卢大学联合开发的端到端对话角色视频生成模型，通过创新的语音-视频窗口注意力机制实现精准的唇语同步和全身动作生成。

694 12 13

蚝油菜花

|

11月前

|

人工智能

|

博文

Hi3DGen：2D照片秒变高精度模型，毛孔级细节完爆Blender！港中文×字节×清华联手打造3D生成黑科技

Hi3DGen是由香港中文大学、字节跳动和清华大学联合研发的高保真3D几何生成框架，通过法线图中间表示实现细节丰富的3D模型生成，其双阶段生成流程显著提升了几何保真度。

1066 32 33

蚝油菜花

|

12月前

|

机器学习/深度学习人工智能算法

|

博文

MIDI-3D：单图秒变3D场景！40秒生成360度空间，多实例扩散黑科技

MIDI-3D 是一种先进的 AI 3D 场景生成技术，能够将单张图像快速转化为高保真度的 360 度 3D 场景，具有强大的全局感知能力和细节表现力，适用于游戏开发、虚拟现实、室内设计等多个领域。

503 18 18

w1268888

|

20天前

|

算法计算机视觉人工智能

|

问答

在工业流水线上，员工的工艺工序sop操作，视觉识别动作识别，寻找国内这个算法和模型

119 0 0

蚝油菜花

|

12月前

|

人工智能前端开发算法

|

博文

Vibe Draw：涂鸦秒变3D模型！开源AI建模神器解放创意生产力

Vibe Draw 是一款基于AI技术的开源3D建模工具，通过Next.js和FastAPI构建，能将用户绘制的2D草图智能转化为3D模型，并支持文本提示优化和场景构建。

797 35 35

蚝油菜花

|

12月前

|

存储人工智能编解码

|

博文

TripoSF：3D建模内存暴降80%！VAST AI新一代模型细节狂飙82%

TripoSF 是 VAST AI 推出的新一代 3D 基础模型，采用创新的 SparseFlex 表示方法，支持 1024³ 高分辨率建模，内存占用降低 82%，在细节捕捉和复杂结构处理上表现优异。

387 10 11

蚝油菜花

|

12月前

|

人工智能物联网

|

博文

VideoPainter：开源视频修复神器！双分支架构一键修复，对象身份永久在线

VideoPainter 是由香港中文大学、腾讯ARC Lab等机构联合推出的视频修复和编辑框架，基于双分支架构和预训练扩散模型，支持任意长度视频的修复与编辑，具备背景保留、前景生成、文本指导编辑等功能，为视频处理领域带来新的突破。

636 12 12

蚝油菜花

|

12月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

TrajectoryCrafter：腾讯黑科技！单目视频运镜自由重构，4D生成效果媲美实拍

TrajectoryCrafter 是腾讯与香港中文大学联合推出的单目视频相机轨迹重定向技术，支持后期自由调整视频的相机位置和角度，生成高质量的新型轨迹视频，广泛应用于沉浸式娱乐、创意视频制作等领域。

364 12 12

蚝油菜花

|

12月前

|

机器学习/深度学习人工智能文字识别

|

博文

Umi-OCR：31K Star！离线OCR终结者！公式+二维码+多语种，开源免费吊打付费

Umi-OCR 是一款免费开源的离线 OCR 文字识别工具，支持截图、批量图片、PDF 扫描件的文字识别，内置多语言识别库，提供命令行和 HTTP 接口调用功能。

1167 0 0

蚝油菜花

|

12月前

|

机器学习/深度学习人工智能算法

|

博文

Stable Virtual Camera：2D秒变3D电影！Stability AI黑科技解锁无限运镜，自定义轨迹一键生成

Stable Virtual Camera 是 Stability AI 推出的 AI 模型，能够将 2D 图像转换为具有真实深度和透视感的 3D 视频，支持自定义相机轨迹和多种动态路径，生成高质量且时间平滑的视频。

828 0 0

蚝油菜花

|

11月前

|

人工智能 API 计算机视觉

|

博文

AI-ClothingTryOn：服装店老板连夜下架试衣间！基于Gemini开发的AI试衣应用，一键生成10种穿搭效果

AI-ClothingTryOn是基于Google Gemini技术的虚拟试衣应用，支持人物与服装照片智能合成，可生成多达10种试穿效果版本，并提供自定义提示词优化功能。

913 18 18

蚝油菜花

|

11月前

|

人工智能算法

|

博文

Runway Gen-4：AI视频生成新纪元！高保真特效一键生成影视级内容

Runway Gen-4是新一代AI视频生成模型，通过参考图和文字指令即可生成具有物理真实感、叙事连贯性的高质量视频内容，支持与实拍素材无缝融合。

865 9 9

蚝油菜花

|

12月前

|

人工智能并行计算 PyTorch

|

博文

TripoSR：开源3D生成闪电战！单图0.5秒建模，Stability AI颠覆设计流程

TripoSR是由Stability AI和VAST联合推出的开源3D生成模型，能在0.5秒内从单张2D图像快速生成高质量3D模型，支持游戏开发、影视制作等多领域应用。

769 13 13

蚝油菜花

|

12月前

|

存储机器学习/深度学习人工智能

|

博文

TaoAvatar：手机拍出电影级虚拟人！阿里3D高斯黑科技让动捕设备下岗

阿里巴巴最新推出的TaoAvatar技术，通过3D高斯溅射实现照片级虚拟人实时渲染，支持多信号驱动与90FPS流畅运行，将彻底改变电商直播与远程会议体验。

747 8 8

蚝油菜花

|

11月前

|

人工智能测试技术定位技术

|

博文

WorldScore：斯坦福开源世界生成模型评估新标杆：3000样本+九维指标，视频/4D/3D模型一网打尽

WorldScore是斯坦福大学提出的首个统一评估世界生成模型的基准测试，通过基于相机轨迹的布局规范和3000个多样化样本，全面评测生成内容的可控性、质量与动态性。

696 46 46

游客2d4cqs7amspr6

|

11月前

|

编解码测试技术计算机视觉

|

问答

如何通过对应用程序界面截图中的功能做图像识别对比缺陷

233 0 0

蚝油菜花

|

12月前

|

机器学习/深度学习人工智能图形学

|

博文

I2V3D：微软+港城大黑科技！单图秒变3D动态视频，相机轨迹自由操控

I2V3D 是由香港城市大学和微软联合开发的图像到视频生成框架，支持将静态图像转换为动态视频，基于3D几何引导实现精确的动画控制，适用于动画制作、视频编辑和内容创作等领域。

391 3 3

nick6507384252

|

4月前

|

编解码人工智能文字识别

|

博文

【Github热门项目】DeepSeek-OCR项目上线即突破7k+星！突破10倍无损压缩，重新定义文本-视觉信息处理

DeepSeek-OCR开源即获7k+星，首创“上下文光学压缩”技术，仅用100视觉token超越传统OCR模型256token性能，压缩比达10-20倍，精度仍超97%。30亿参数实现单卡日处理20万页，显著降低大模型长文本输入成本，重新定义高效文档理解新范式。

484 2 2

蚝油菜花

|

11月前

|

机器学习/深度学习人工智能监控

|

博文

Amodal3R：3D重建领域新突破！这个模型让残破文物完美还原，3D重建结果助力文物修复

Amodal3R是一种创新的条件式3D生成模型，通过掩码加权多头交叉注意力机制和遮挡感知层，能够从部分可见的2D图像中重建完整3D形态，仅用合成数据训练即可实现真实场景的高精度重建。

504 13 13

蚝油菜花

|

12月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

Reve Image：设计师失业警告！AI秒出海报级神图，排版自动搞定

Reve Image 是 Reve 推出的全新 AI 图像生成模型，专注于提升美学表现、精确的提示遵循能力以及出色的排版设计，能生成高质量的视觉作品。

662 29 30

蚝油菜花

|

12月前

|

人工智能编解码

|

博文

ReCamMaster：视频运镜AI革命！单镜头秒变多机位，AI重渲染颠覆创作

ReCamMaster 是由浙江大学与快手科技联合推出的视频重渲染框架，能够根据用户指定的相机轨迹重新生成视频内容，广泛应用于视频创作、后期制作、教育等领域，提升创作自由度和质量。

860 0 0

nick6507384252

|

4月前

|

人工智能测试技术

|

博文

NeurlPS 2025！多伦多大学TIRE助力3D/4D 生成精准保留主体身份

TIRE提出“追踪-补全-重投影”三阶段方法，实现主体驱动的3D/4D生成。通过视频跟踪识别缺失区域，定制2D模型补全纹理，并重投影至3D空间，提升生成一致性与质量，推动动态场景生成新进展。

200 8 8

蚝油菜花

|

12月前

|

机器学习/深度学习人工智能测试技术

|

博文

IMAGPose：南理工突破性人体生成框架！多姿态适配+细节语义融合，刷新图像生成范式

IMAGPose 是南京理工大学推出的用于人体姿态引导图像生成的统一条件框架，解决了传统方法在姿态引导的人物图像生成中的局限性，支持多场景适应、细节与语义融合、灵活的图像与姿态对齐以及全局与局部一致性。

301 0 0

蚝油菜花

|

11月前

|

人工智能编解码自然语言处理

|

博文

DreamActor-M1：字节跳动推出AI动画黑科技，静态照片秒变生动视频

DreamActor-M1是字节跳动研发的AI图像动画框架，通过混合引导机制实现高保真人物动画生成，支持多语言语音驱动和形状自适应功能。

929 40 43

蚝油菜花

|

12月前

|

人工智能图形学

|

博文

PhysGen3D：清华等高校联合推出，单图秒变交互式3D场景

PhysGen3D是清华等高校联合开发的创新框架，通过单张图像重建3D场景并模拟物理行为，实现从静态图像到动态交互的突破性转换。

376 15 15

蚝油菜花

|

12月前

|

人工智能算法语音技术

|

博文

Video-T1：视频生成实时手术刀！清华腾讯「帧树算法」终结闪烁抖动

清华大学与腾讯联合推出的Video-T1技术，通过测试时扩展（TTS）和Tree-of-Frames方法，显著提升视频生成的连贯性与文本匹配度，为影视制作、游戏开发等领域带来突破性解决方案。

395 4 4

游客qw5nyup6bl6vc

|

3月前

|

人工智能

|

问答

创业项目：AI 拟人化中层解决方案

254 0 0

蚝油菜花

|

12月前

|

人工智能 vr&ar 图形学

|

博文

谷歌DeepMind联手牛津推出Bolt3D：AI秒速3D建模革命！单GPU仅需6秒生成3D场景

牛津大学与谷歌联合推出的Bolt3D技术，能在单个GPU上仅用6.25秒从单张或多张图像生成高质量3D场景，基于高斯溅射和几何多视角扩散模型，为游戏、VR/AR等领域带来革命性突破。

585 2 2

蚝油菜花

|

12月前

|

人工智能搜索推荐图形学

|

博文

ChatAnyone：阿里通义黑科技！实时风格化肖像视频生成框架震撼发布

阿里巴巴通义实验室推出的ChatAnyone框架，通过高效分层运动扩散模型和混合控制融合技术，实现高保真度、自然度的实时肖像视频生成。

444 13 13

游客umldh5c6n2vvg

|

5月前

|

问答

AIGC的训练器无法上传素材

162 1 0

蚝油菜花

|

11月前

|

人工智能语音技术

|

博文

ACTalker：港科大联合腾讯清华推出，多模态驱动的说话人视频生成神器

ACTalker是由香港科技大学联合腾讯、清华大学研发的端到端视频扩散框架，采用并行Mamba结构和多信号控制技术，能生成高度逼真的说话人头部视频。

434 0 0

ykanyezdnax7a

|

4月前

|

问答

请教使用百度在线标注后的多数据集用llamafactory训练qwen2.5或3-vl系列的模型问题

115 0 0

blanklog

|

4月前

|

数据处理

|

问答

魔塔社区AIGC 模型训练可以上传本地的打标文件么？

183 0 0

modelscope

|

7月前

|

机器人图形学开发者

|

博文

腾讯混元最新开源：一张图，秒变游戏大片

有没有想过，随手拍的一张风景照，下一秒就能变成可操控的游戏开放世界？

549 3 3

游客5dbqqnkbzrtgi

|

9月前

|

SQL

|

问答

在部署 SQL Server Express MCP 远程连接不通，求解

138 0 0

蚝油菜花

|

12月前

|

机器学习/深度学习人工智能

|

博文

ObjectMover：港大联合Adobe打造图像编辑黑科技，移动物体光影自动匹配

香港大学与Adobe联合研发的ObjectMover模型，通过视频生成先验迁移技术，实现图像中物体的自然移动、删除和插入，自动保持光影一致性。

336 21 21

JoeyLin

|

7月前

|

Python 数据格式 JSON

|

问答

上传数据集后，在 commit 阶段报错 `requests.exceptions.JSONDec`

119 0 0

游客wwcr5vyhxncgw

|

11月前

|

问答

凹多边形的三角细分模型有什么呢

152 0 0

计算机视觉

最新

文章

视频

问答

推荐

精华

video-subtitle-remover（VSR）--开源AI去字幕方案深度解析

红外小目标检测新突破！异常感知检测头AA-YOLO：节俭又鲁棒，小样本也能精准识别

基于YOLO11的交通违规检测系统（Python源码+数据集+Pyside6界面）

RF-DETR：YOLO霸主地位不保？开源 SOTA 实时目标检测模型，比眨眼还快3倍！

LHM：单图生成3D动画人！阿里开源建模核弹，高斯点云重构服装纹理

漫画师福音！开源AI神器让线稿着色快如闪电！MagicColor：港科大开源多实例线稿着色框架，一键生成动画级彩图

Step-Video-TI2V：开源视频生成核弹！300亿参数+102帧电影运镜

TripoSG：3D生成新纪元！修正流模型秒出高保真网格，碾压传统建模

DeepMesh：3D建模革命！清华团队让AI自动优化拓扑，1秒生成工业级网格

EasyControl Ghibli：在线体验一键生成宫崎骏动画风，开源AI模型让你的照片秒变吉卜力

这个模型让AI角色会说话还会演！MoCha：Meta联手滑铁卢大学打造对话角色视频生成黑科技

Hi3DGen：2D照片秒变高精度模型，毛孔级细节完爆Blender！港中文×字节×清华联手打造3D生成黑科技

MIDI-3D：单图秒变3D场景！40秒生成360度空间，多实例扩散黑科技

在工业流水线上，员工的工艺工序sop操作，视觉识别 动作识别，寻找国内这个算法和模型

Vibe Draw：涂鸦秒变3D模型！开源AI建模神器解放创意生产力

TripoSF：3D建模内存暴降80%！VAST AI新一代模型细节狂飙82%

VideoPainter：开源视频修复神器！双分支架构一键修复，对象身份永久在线

TrajectoryCrafter：腾讯黑科技！单目视频运镜自由重构，4D生成效果媲美实拍

Umi-OCR：31K Star！离线OCR终结者！公式+二维码+多语种，开源免费吊打付费

Stable Virtual Camera：2D秒变3D电影！Stability AI黑科技解锁无限运镜，自定义轨迹一键生成

AI-ClothingTryOn：服装店老板连夜下架试衣间！基于Gemini开发的AI试衣应用，一键生成10种穿搭效果

Runway Gen-4：AI视频生成新纪元！高保真特效一键生成影视级内容

TripoSR：开源3D生成闪电战！单图0.5秒建模，Stability AI颠覆设计流程

TaoAvatar：手机拍出电影级虚拟人！阿里3D高斯黑科技让动捕设备下岗

WorldScore：斯坦福开源世界生成模型评估新标杆：3000样本+九维指标，视频/4D/3D模型一网打尽

如何通过对应用程序界面截图中的功能做图像识别对比缺陷

I2V3D：微软+港城大黑科技！单图秒变3D动态视频，相机轨迹自由操控

【Github热门项目】DeepSeek-OCR项目上线即突破7k+星！突破10倍无损压缩，重新定义文本-视觉信息处理

Amodal3R：3D重建领域新突破！这个模型让残破文物完美还原，3D重建结果助力文物修复

Reve Image：设计师失业警告！AI秒出海报级神图，排版自动搞定

ReCamMaster：视频运镜AI革命！单镜头秒变多机位，AI重渲染颠覆创作

NeurlPS 2025！多伦多大学TIRE助力3D/4D 生成精准保留主体身份

IMAGPose：南理工突破性人体生成框架！多姿态适配+细节语义融合，刷新图像生成范式

DreamActor-M1：字节跳动推出AI动画黑科技，静态照片秒变生动视频

PhysGen3D：清华等高校联合推出，单图秒变交互式3D场景

Video-T1：视频生成实时手术刀！清华腾讯「帧树算法」终结闪烁抖动

创业项目：AI 拟人化中层解决方案

谷歌DeepMind联手牛津推出Bolt3D：AI秒速3D建模革命！单GPU仅需6秒生成3D场景

ChatAnyone：阿里通义黑科技！实时风格化肖像视频生成框架震撼发布

AIGC的训练器无法上传素材

ACTalker：港科大联合腾讯清华推出，多模态驱动的说话人视频生成神器

请教使用百度在线标注后的多数据集用llamafactory训练qwen2.5或3-vl系列的模型问题

魔塔社区AIGC 模型训练可以上传本地的打标文件么？

腾讯混元最新开源：一张图，秒变游戏大片

在部署 SQL Server Express MCP 远程连接不通，求解

ObjectMover：港大联合Adobe打造图像编辑黑科技，移动物体光影自动匹配

上传数据集后，在 commit 阶段报错 `requests.exceptions.JSONDec`

凹多边形的三角细分模型有什么呢

活跃用户

相关产品

在工业流水线上，员工的工艺工序sop操作，视觉识别动作识别，寻找国内这个算法和模型