备案控制台

视觉智能开放平台

# 视觉智能开放平台 #

1 关注

15795内容

相关问产品

视觉智能开放平台

6794问题 99%回答率

相关子社区

12876内容 3活动 792关注

最新热门文章问答视频训练营活动

老乡别走

|

10月前

|

博文

|

来自：视觉智能

如何使用OCR技术批量识别图片中的文字并重命名文件，OCR 技术批量识别图片中的文字可能出现的错误

### 简介【批量识别图片内容重命名】工具可批量识别图片中的文字并重命名文件，方便高效处理大量图片。然而，OCR 技术面临字符识别错误（如形近字混淆、生僻字识别不佳）、格式错误（段落错乱、换行问题）和语义理解错误等挑战。为提高准确性，建议提升图片质量、选择合适的 OCR 软件及参数，并结合自动校对与人工审核，确保最终文本的正确性和完整性。

# 视觉智能开放平台 # 编解码 # 文字识别 # 自然语言处理 # 数据安全/隐私保护

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

Inf-DiT：清华联合智谱AI推出超高分辨率图像生成模型，生成的空间复杂度从 O(N^2) 降低到 O(N)

Inf-DiT 是清华大学与智谱AI联合推出的基于扩散模型的图像上采样方法，能够生成超高分辨率图像，突破传统扩散模型的内存限制，适用于多种实际应用场景。

# 视觉智能开放平台 # 机器学习/深度学习 # 人工智能 # 编解码 # vr&ar # 计算机视觉

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

RLCM：康奈尔大学推出文本到图像一致性模型优化框架，支持快速生成与任务特定奖励优化

RLCM 是康奈尔大学推出的基于强化学习的文本到图像生成模型优化框架，支持快速训练与推理，能够根据任务特定奖励函数生成高质量图像。

# 视觉智能开放平台 # 机器学习/深度学习 # 人工智能 # 算法 # 搜索推荐 # 决策智能

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

VMix：即插即用！字节联合中科大推出增强模型生成美学质量的开源适配器，支持多源输入、高质量视频处理

VMix 是一款创新的即插即用美学适配器，通过解耦文本提示和交叉注意力混合控制，显著提升图像生成的美学质量，支持多源输入和高质量视频处理。

# 视觉智能开放平台 # 人工智能 # 物联网 # Python

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

VITRON：开源像素级视觉大模型，同时满足图像与视频理解、生成、分割和编辑等视觉任务

VITRON 是由 Skywork AI、新加坡国立大学和南洋理工大学联合推出的像素级视觉大模型，支持图像与视频的理解、生成、分割和编辑，适用于多种视觉任务。

# 视觉智能开放平台 # 人工智能 # 自然语言处理 # 并行计算 # 前端开发 # PyTorch

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

TryOffAnyone：快速将模特服装图还原为平铺商品图，生成标准化的服装展示效果

TryOffAnyone 是一款基于 AI 技术的工具，能够将模特穿着服装的图像快速还原为平铺商品图，支持智能识别、自动优化等功能，适用于电商平台和虚拟试衣场景。

# 视觉智能开放平台 # 人工智能 # 搜索推荐 # 网络架构 # UED

阿里云开发者

|

10月前

|

博文

10分钟轻松实现人脸精准识别

本文将具体介绍如何利用云服务部署深度学习模型，快速接入人脸比对服务。

# 对象存储 # 视觉智能开放平台 # 机器学习/深度学习 # 监控 # 安全 # Serverless # 对象存储

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

Figma-Low-Code：快速将Figma设计转换为Vue.js应用，支持低代码渲染、数据绑定

Figma-Low-Code 是一个开源项目，能够直接将 Figma 设计转换为 Vue.js 应用程序，减少设计师与开发者之间的交接时间，支持低代码渲染和数据绑定。

# 视觉智能开放平台 # 敏捷开发 # 人工智能 # JavaScript # API # 开发者

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

StoryWeaver：故事可视化生成模型，快速生成故事绘本，支持处理单角色和多角色的故事可视化任务

StoryWeaver 是厦门大学与网易伏羲联合推出的 AI 模型，通过知识图谱和角色定制技术，实现高质量的故事可视化。

# 视觉智能开放平台 # 人工智能 # 资源调度 # 数据可视化 # Shell # 知识图谱

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

StereoCrafter：腾讯开源将任意2D视频转换为立体3D视频的框架，适用于Apple Vision Pro等多种显示设备

StereoCrafter 是腾讯开源的框架，能够将单目2D视频转换为高保真度的立体3D视频，适用于多种显示设备。

# 视觉智能开放平台 # 机器学习/深度学习 # 人工智能 # 编解码 # 并行计算 # 数据处理

1

...

13

14

15

...

20

免费试用