视觉智能开放平台的搜索结果_文章_第10页-阿里云开发者社区

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

MIT颠覆传统！分形生成模型效率暴涨4000倍，高分辨率图像秒级生成

Fractal Generative Models 是麻省理工学院与 Google DeepMind 团队推出的新型图像生成方法，基于分形思想，通过递归调用模块构建自相似架构，显著提升计算效率，适用于高分辨率图像生成、医学图像模拟等领域。

# 视觉智能开放平台 # 人工智能 # 编解码 # 数据建模 # 计算机视觉

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

VidSketch：手残党逆袭！浙大AI神器草图秒变4K动画，三连提示词玩转影视级特效

VidSketch 是浙江大学推出的创新视频生成框架，通过手绘草图和简单文本提示生成高质量视频动画，降低视频创作的技术门槛，满足多样化的艺术需求。

# 视觉智能开放平台 # 机器学习/深度学习 # 人工智能 # 自然语言处理

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

VideoGrain：零样本多粒度视频编辑神器，用AI完成换装改场景，精准控制每一帧！

VideoGrain 是悉尼科技大学和浙江大学推出的零样本多粒度视频编辑框架，基于调节时空交叉注意力和自注意力机制，实现类别级、实例级和部件级的精细视频修改，保持时间一致性，显著优于现有方法。

# 视觉智能开放平台 # 机器学习/深度学习 # 人工智能 # 自然语言处理

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

FacePoke：开源AI实时面部编辑神器！拖拽调整表情/头部朝向，4K画质一键生成

FacePoke是一款基于AI技术的开源实时面部编辑工具，支持通过拖拽操作调整头部朝向和面部表情，适用于多种场景。

# 视觉智能开放平台 # 机器学习/深度学习 # 人工智能 # 前端开发 # Python # 容器

老乡别走

|

博文

|

来自：视觉智能

【全自动改PDF名】批量OCR识别提取PDF自定义指定区域内容保存到 Excel 以及根据PDF文件内容的标题来批量重命名

学校和教育机构常需处理成绩单、报名表等PDF文件。通过OCR技术，可自动提取学生信息并录入Excel，便于统计分析和存档管理。本文介绍使用阿里云服务实现批量OCR识别、内容提取、重命名及导出表格的完整步骤，包括开通相关服务、编写代码、部署函数计算和设置自动化触发器等。提供Python示例代码和详细操作指南，帮助用户高效处理PDF文件。链接： - 百度网盘：[链接](https://pan.baidu.com/s/1mWsg7mDZq2pZ8xdKzdn5Hg?pwd=8866) - 腾讯网盘：[链接](https://share.weiyun.com/a77jklXK)

# 视觉智能开放平台 # 文字识别 # Serverless # 开发工具 # 对象存储 # Python

老乡别走

|

博文

|

来自：视觉智能

【PDF提取全自动改名】如何批量提取PDF指定区域的文字内容，用内容批量给PDF命名或者导出表格，学会全自动解放双手

在生活和工作中，我们常需处理大量PDF文件，如银行单据、税收单据等。手动处理效率低下，而使用“咕嘎批量PDF多区域内容提取重命名导表格系统”可快速完成数千份文档的处理，大幅提高效率。该工具通过获取PDF各区域内容坐标，导入并处理文件，最终将信息提取至表格，并根据关键信息对PDF进行重命名，方便管理和查找。

# 视觉智能开放平台 # 文字识别

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

Sitcom-Crafter：动画师失业警告！AI黑科技自动生成3D角色动作，剧情脚本秒变动画

Sitcom-Crafter 是一款基于剧情驱动的 3D 动作生成系统，通过多模块协同工作，支持人类行走、场景交互和多人交互，适用于动画、游戏及虚拟现实等领域。

# 视觉智能开放平台 # 数据采集 # 机器学习/深度学习 # 人工智能 # vr&ar # 异构计算

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

Migician：清北华科联手放大招！多图像定位大模型问世：3秒锁定跨画面目标，安防监控迎来AI革命！

Migician 是北交大联合清华、华中科大推出的多模态视觉定位模型，支持自由形式的跨图像精确定位、灵活输入形式和多种复杂任务。

# 视觉智能开放平台 # 人工智能 # 监控 # 自动驾驶

kuaitongai

|

博文

|

来自：视觉智能

保单AI识别技术及代码示例解析

车险保单包含基础信息、车辆信息、人员信息、保险条款及特别约定等关键内容。AI识别技术通过OCR、文档结构化解析和数据校验，实现对保单信息的精准提取。然而，版式多样性、信息复杂性、图像质量和法律术语解析是主要挑战。Python代码示例展示了如何使用PaddleOCR进行保单信息抽取，并提出了定制化训练、版式分析等优化方向。典型应用场景包括智能录入、快速核保、理赔自动化等。未来将向多模态融合、自适应学习和跨区域兼容性发展。

# 云解析DNS # 视觉智能开放平台 # 人工智能 # 文字识别 # 自然语言处理 # 数据库 # Python

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

DynamicCity：上海AI Lab开源4D场景神器助力自动驾驶场景！128帧动态LiDAR生成，1:1还原城市早晚高峰

DynamicCity 是上海 AI Lab 推出的 4D 动态场景生成框架，专注于生成具有语义信息的大规模动态 LiDAR 场景，适用于自动驾驶、机器人导航和交通流量分析等多种应用场景。

# 视觉智能开放平台 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 自动驾驶 # 机器人

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

视觉智能开放平台