视觉智能开放平台的搜索结果_文章_第7页-阿里云开发者社区

老乡别走

|

9月前

|

博文

|

【PDF提取全自动改名】如何批量提取PDF指定区域的文字内容，用内容批量给PDF命名或者导出表格，学会全自动解放双手

在生活和工作中，我们常需处理大量PDF文件，如银行单据、税收单据等。手动处理效率低下，而使用“咕嘎批量PDF多区域内容提取重命名导表格系统”可快速完成数千份文档的处理，大幅提高效率。该工具通过获取PDF各区域内容坐标，导入并处理文件，最终将信息提取至表格，并根据关键信息对PDF进行重命名，方便管理和查找。

# 视觉智能开放平台 # 文字识别

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

Sitcom-Crafter：动画师失业警告！AI黑科技自动生成3D角色动作，剧情脚本秒变动画

Sitcom-Crafter 是一款基于剧情驱动的 3D 动作生成系统，通过多模块协同工作，支持人类行走、场景交互和多人交互，适用于动画、游戏及虚拟现实等领域。

# 视觉智能开放平台 # 数据采集 # 机器学习/深度学习 # 人工智能 # vr&ar # 异构计算

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

Migician：清北华科联手放大招！多图像定位大模型问世：3秒锁定跨画面目标，安防监控迎来AI革命！

Migician 是北交大联合清华、华中科大推出的多模态视觉定位模型，支持自由形式的跨图像精确定位、灵活输入形式和多种复杂任务。

# 视觉智能开放平台 # 人工智能 # 监控 # 自动驾驶

深圳快瞳科技有限公司

|

9月前

|

博文

|

来自：视觉智能

保单AI识别技术及代码示例解析

车险保单包含基础信息、车辆信息、人员信息、保险条款及特别约定等关键内容。AI识别技术通过OCR、文档结构化解析和数据校验，实现对保单信息的精准提取。然而，版式多样性、信息复杂性、图像质量和法律术语解析是主要挑战。Python代码示例展示了如何使用PaddleOCR进行保单信息抽取，并提出了定制化训练、版式分析等优化方向。典型应用场景包括智能录入、快速核保、理赔自动化等。未来将向多模态融合、自适应学习和跨区域兼容性发展。

# 云解析DNS # 视觉智能开放平台 # 人工智能 # 文字识别 # 自然语言处理 # 数据库 # Python

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

DynamicCity：上海AI Lab开源4D场景神器助力自动驾驶场景！128帧动态LiDAR生成，1:1还原城市早晚高峰

DynamicCity 是上海 AI Lab 推出的 4D 动态场景生成框架，专注于生成具有语义信息的大规模动态 LiDAR 场景，适用于自动驾驶、机器人导航和交通流量分析等多种应用场景。

# 视觉智能开放平台 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 自动驾驶 # 机器人

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

SkyReels-V1：短剧AI革命来了！昆仑开源视频生成AI秒出影视级短剧，比Sora更懂表演！

SkyReels-V1是昆仑万维开源的首个面向AI短剧创作的视频生成模型，支持高质量影视级视频生成、33种细腻表情和400多种自然动作组合。

# GPU云服务器 # 视觉智能开放平台 # 数据采集 # 机器学习/深度学习 # 人工智能 # 分布式计算 # 异构计算

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

Light-A-Video：好莱坞级打光自由！上海AI Lab开源视频打光AI，无需训练秒改画面氛围，3步让阴天变夕阳

Light-A-Video 是由上海AI Lab联合交大等高校推出的无需训练的视频重照明方法，支持高质量、时间一致的光照控制，零样本生成和前景背景分离处理。

# 视觉智能开放平台 # 人工智能 # Python

深圳快瞳科技有限公司

|

9月前

|

博文

|

来自：视觉智能

分析对比大模型OCR、传统OCR和深度学习OCR

OCR技术近年来迅速普及，广泛应用于文件扫描、快递单号识别、车牌识别及日常翻译等场景，极大提升了便利性。其发展历程从传统方法（基于模板匹配和手工特征设计）到深度学习（采用CNN、LSTM等自动学习高级语义特征），再到大模型OCR（基于Transformer架构，支持跨场景泛化和少样本学习）。每种技术在特定场景下各有优劣：传统OCR适合实时场景，深度学习OCR精度高但依赖大量数据，大模型OCR泛化能力强但训练成本高。未来，大模型OCR将结合多模态预训练，向通用文字理解方向发展，与深度学习OCR形成互补生态，最大化平衡成本与性能。

# 视觉智能开放平台 # 机器学习/深度学习 # 文字识别 # 自然语言处理 # 异构计算

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

DragAnything：视频PS来了！开源AI控制器让视频「指哪动哪」：拖拽任意物体轨迹，多对象独立运动一键生成

DragAnything 是快手联合浙江大学和新加坡国立大学推出的基于实体表示的可控视频生成方法，支持多实体独立运动控制、高质量视频生成，并在 FID、FVD 和用户研究等评估指标上达到最佳性能。

# 视觉智能开放平台 # 人工智能 # 数据可视化 # UED

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

ENEL：3D建模革命！上海AI Lab黑科技砍掉编码器，7B模型性能吊打13B巨头

ENEL是由上海AI Lab推出的无编码器3D大型多模态模型，能够在多个3D任务中实现高效语义编码和几何结构理解，如3D对象分类、字幕生成和视觉问答。

# 视觉智能开放平台 # 人工智能 # 编解码 # 算法 # 图形学 # Python

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

视觉智能开放平台