视觉智能开放平台的搜索结果_文章_第11页-阿里云开发者社区

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

SkyReels-V1：短剧AI革命来了！昆仑开源视频生成AI秒出影视级短剧，比Sora更懂表演！

SkyReels-V1是昆仑万维开源的首个面向AI短剧创作的视频生成模型，支持高质量影视级视频生成、33种细腻表情和400多种自然动作组合。

# GPU云服务器 # 视觉智能开放平台 # 数据采集 # 机器学习/深度学习 # 人工智能 # 分布式计算 # 异构计算

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

SkyReels-A1：解放动画师！昆仑开源「数字人制造机」：一张照片生成逼真虚拟主播，表情连眉毛颤动都可控

SkyReels-A1 是昆仑万维开源的首个 SOTA 级别表情动作可控的数字人生成模型，支持高保真肖像动画生成和精确的表情动作控制。

# 虚拟数字人 # 视觉智能开放平台 # 机器学习/深度学习 # 人工智能 # 异构计算

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

Light-A-Video：好莱坞级打光自由！上海AI Lab开源视频打光AI，无需训练秒改画面氛围，3步让阴天变夕阳

Light-A-Video 是由上海AI Lab联合交大等高校推出的无需训练的视频重照明方法，支持高质量、时间一致的光照控制，零样本生成和前景背景分离处理。

# 视觉智能开放平台 # 人工智能 # Python

kuaitongai

|

博文

|

来自：视觉智能

分析对比大模型OCR、传统OCR和深度学习OCR

OCR技术近年来迅速普及，广泛应用于文件扫描、快递单号识别、车牌识别及日常翻译等场景，极大提升了便利性。其发展历程从传统方法（基于模板匹配和手工特征设计）到深度学习（采用CNN、LSTM等自动学习高级语义特征），再到大模型OCR（基于Transformer架构，支持跨场景泛化和少样本学习）。每种技术在特定场景下各有优劣：传统OCR适合实时场景，深度学习OCR精度高但依赖大量数据，大模型OCR泛化能力强但训练成本高。未来，大模型OCR将结合多模态预训练，向通用文字理解方向发展，与深度学习OCR形成互补生态，最大化平衡成本与性能。

# 视觉智能开放平台 # 机器学习/深度学习 # 文字识别 # 自然语言处理 # 异构计算

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

DragAnything：视频PS来了！开源AI控制器让视频「指哪动哪」：拖拽任意物体轨迹，多对象独立运动一键生成

DragAnything 是快手联合浙江大学和新加坡国立大学推出的基于实体表示的可控视频生成方法，支持多实体独立运动控制、高质量视频生成，并在 FID、FVD 和用户研究等评估指标上达到最佳性能。

# 视觉智能开放平台 # 人工智能 # 数据可视化 # UED

蚝油菜花

|

博文