视觉智能开放平台的搜索结果_文章_第6页-阿里云开发者社区

蚝油菜花

|

1月前

|

博文

|

来自： ModelScope模型即服务

AddressCLIP：一张照片就能准确定位！中科院联合阿里云推出街道级图像地理定位模型

AddressCLIP 是由中科院和阿里云联合开发的端到端图像地理定位模型，通过图像-文本对齐和地理匹配技术，实现街道级精度的定位，适用于城市管理、社交媒体、旅游导航等场景。

# 视觉智能开放平台 # 人工智能 # 搜索推荐 # 定位技术 # 计算机视觉

蚝油菜花

|

1月前

|

博文

|

来自： ModelScope模型即服务

CreatiLayout：复旦与字节联合推出布局到图像生成技术，支持高质量图像生成与布局优化

CreatiLayout 是复旦大学与字节跳动联合推出的创新布局到图像生成技术，通过大规模数据集和孪生多模态扩散变换器，实现高质量图像生成与布局优化。

# 视觉智能开放平台 # 人工智能

蚝油菜花

|

1月前

|

博文

|

来自： ModelScope模型即服务

PersonaMagic：人像与风格融合！快速生成个性化的头像

PersonaMagic 是一种创新的高保真人脸定制技术，通过阶段调节的文本条件策略和动态嵌入学习，能够根据单张图像生成个性化角色，广泛应用于娱乐、游戏、影视等领域。

# 视觉智能开放平台 # 人工智能 # 搜索推荐

蚝油菜花

|

1月前

|

博文

|

来自： ModelScope模型即服务

LatentSync：根据音频生成高分辨率、动态逼真的唇形同步视频

LatentSync 是由字节跳动与北京交通大学联合推出的端到端唇形同步框架，基于音频条件的潜在扩散模型，能够生成高分辨率、动态逼真的唇同步视频，适用于影视、教育、广告等多个领域。

# 视觉智能开放平台 # 人工智能 # 数据处理

老乡别走

|

1月前

|

博文

|

来自：视觉智能

如何使用OCR技术批量识别图片中的文字并重命名文件，OCR 技术批量识别图片中的文字可能出现的错误

### 简介【批量识别图片内容重命名】工具可批量识别图片中的文字并重命名文件，方便高效处理大量图片。然而，OCR 技术面临字符识别错误（如形近字混淆、生僻字识别不佳）、格式错误（段落错乱、换行问题）和语义理解错误等挑战。为提高准确性，建议提升图片质量、选择合适的 OCR 软件及参数，并结合自动校对与人工审核，确保最终文本的正确性和完整性。

# 视觉智能开放平台 # 编解码 # 文字识别 # 自然语言处理 # 数据安全/隐私保护

蚝油菜花

|

1月前

|

博文

|

来自： ModelScope模型即服务

Inf-DiT：清华联合智谱AI推出超高分辨率图像生成模型，生成的空间复杂度从 O(N^2) 降低到 O(N)

Inf-DiT 是清华大学与智谱AI联合推出的基于扩散模型的图像上采样方法，能够生成超高分辨率图像，突破传统扩散模型的内存限制，适用于多种实际应用场景。

# 视觉智能开放平台 # 机器学习/深度学习 # 人工智能 # 编解码 # vr&ar # 计算机视觉

蚝油菜花

|

1月前

|

博文

|

来自： ModelScope模型即服务

RLCM：康奈尔大学推出文本到图像一致性模型优化框架，支持快速生成与任务特定奖励优化

RLCM 是康奈尔大学推出的基于强化学习的文本到图像生成模型优化框架，支持快速训练与推理，能够根据任务特定奖励函数生成高质量图像。

# 视觉智能开放平台 # 机器学习/深度学习 # 人工智能 # 算法 # 搜索推荐 # 决策智能

蚝油菜花

|

1月前

|

博文

|

来自： ModelScope模型即服务

VMix：即插即用！字节联合中科大推出增强模型生成美学质量的开源适配器，支持多源输入、高质量视频处理

VMix 是一款创新的即插即用美学适配器，通过解耦文本提示和交叉注意力混合控制，显著提升图像生成的美学质量，支持多源输入和高质量视频处理。

# 视觉智能开放平台 # 人工智能 # 物联网 # Python

蚝油菜花

|

1月前

|

博文

|

来自： ModelScope模型即服务

VITRON：开源像素级视觉大模型，同时满足图像与视频理解、生成、分割和编辑等视觉任务

VITRON 是由 Skywork AI、新加坡国立大学和南洋理工大学联合推出的像素级视觉大模型，支持图像与视频的理解、生成、分割和编辑，适用于多种视觉任务。

# 视觉智能开放平台 # 人工智能 # 自然语言处理 # 并行计算 # 前端开发 # PyTorch

蚝油菜花

|

1月前

|

博文

|

来自： ModelScope模型即服务

TryOffAnyone：快速将模特服装图还原为平铺商品图，生成标准化的服装展示效果

TryOffAnyone 是一款基于 AI 技术的工具，能够将模特穿着服装的图像快速还原为平铺商品图，支持智能识别、自动优化等功能，适用于电商平台和虚拟试衣场景。

# 视觉智能开放平台 # 人工智能 # 搜索推荐 # 网络架构 # UED

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

视觉智能开放平台