备案控制台

视觉智能开放平台

# 视觉智能开放平台 #

1 关注

15795内容

相关问产品

视觉智能开放平台

6794问题 99%回答率

相关子社区

12878内容 3活动 792关注

最新热门文章问答视频训练营活动

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

Light-A-Video：好莱坞级打光自由！上海AI Lab开源视频打光AI，无需训练秒改画面氛围，3步让阴天变夕阳

Light-A-Video 是由上海AI Lab联合交大等高校推出的无需训练的视频重照明方法，支持高质量、时间一致的光照控制，零样本生成和前景背景分离处理。

# 视觉智能开放平台 # 人工智能 # Python

深圳快瞳科技有限公司

|

9月前

|

博文

|

来自：视觉智能

分析对比大模型OCR、传统OCR和深度学习OCR

OCR技术近年来迅速普及，广泛应用于文件扫描、快递单号识别、车牌识别及日常翻译等场景，极大提升了便利性。其发展历程从传统方法（基于模板匹配和手工特征设计）到深度学习（采用CNN、LSTM等自动学习高级语义特征），再到大模型OCR（基于Transformer架构，支持跨场景泛化和少样本学习）。每种技术在特定场景下各有优劣：传统OCR适合实时场景，深度学习OCR精度高但依赖大量数据，大模型OCR泛化能力强但训练成本高。未来，大模型OCR将结合多模态预训练，向通用文字理解方向发展，与深度学习OCR形成互补生态，最大化平衡成本与性能。

# 视觉智能开放平台 # 机器学习/深度学习 # 文字识别 # 自然语言处理 # 异构计算

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

DragAnything：视频PS来了！开源AI控制器让视频「指哪动哪」：拖拽任意物体轨迹，多对象独立运动一键生成

DragAnything 是快手联合浙江大学和新加坡国立大学推出的基于实体表示的可控视频生成方法，支持多实体独立运动控制、高质量视频生成，并在 FID、FVD 和用户研究等评估指标上达到最佳性能。

# 视觉智能开放平台 # 人工智能 # 数据可视化 # UED

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

ENEL：3D建模革命！上海AI Lab黑科技砍掉编码器，7B模型性能吊打13B巨头

ENEL是由上海AI Lab推出的无编码器3D大型多模态模型，能够在多个3D任务中实现高效语义编码和几何结构理解，如3D对象分类、字幕生成和视觉问答。

# 视觉智能开放平台 # 人工智能 # 编解码 # 算法 # 图形学 # Python

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

Sa2VA：别再用PS抠图了！字节跳动开源Sa2VA：一句话自动分割视频，连头发丝都精准

Sa2VA 是由字节跳动等机构联合推出的多模态大语言模型，结合 SAM2 和 LLaVA 实现对图像和视频的精确分割和对话功能。

# 视觉智能开放平台 # 人工智能 # 自然语言处理 # PyTorch # 算法框架/工具 # 计算机视觉

游客a2tkezwu5ocxk

|

9月前

|

问答

|

来自： ModelScope模型即服务

多实例化pipeline，高并发调用引发脏读问题

# 视觉智能开放平台

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

Pippo：Meta放出AI大招！单张照片秒转3D人像多视角视频，AI自动补全身体细节

Pippo 是 Meta 推出的图像到视频生成模型，能够从单张照片生成 1K 分辨率的多视角高清人像视频，支持全身、面部或头部的生成。

# 视觉智能开放平台 # 存储 # 人工智能 # 编解码 # 自然语言处理 # Perl

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

Lumina-Video：上海 AI Lab 开源视频生成框架，动态程度可控，支持多分辨率

Lumina-Video 是由上海 AI Lab 和香港中文大学联合推出的高效视频生成框架，支持高质量视频生成、动态程度控制和多分辨率生成。

# 视觉智能开放平台 # 人工智能 # 编解码 # vr&ar

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

FlashVideo：生成1080p视频仅需102秒，字节联合港大推出低成本高分辨率视频生成框架

FlashVideo 是字节跳动和香港大学联合推出的高分辨率视频生成框架，通过两阶段方法显著降低计算成本，快速生成高质量视频。

# 视觉智能开放平台 # 机器学习/深度学习 # 人工智能 # 编解码 # 物联网 # 异构计算

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

ACE++：输入想法就能完成图像创作和编辑！阿里通义推出新版自然语言驱动的图像生成与编辑工具

ACE++ 是阿里巴巴通义实验室推出的升级版图像生成与编辑工具，支持多种任务，如高质量人物肖像生成、主题一致性保持和局部图像编辑。

# 自然语言处理 # 视觉智能开放平台 # 存储 # 人工智能 # 自然语言处理 # 物联网 # 计算机视觉

1

...

8

9

10

...

20

免费试用