视觉智能开放平台的搜索结果_热门_第10页-阿里云开发者社区

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

Sitcom-Crafter：动画师失业警告！AI黑科技自动生成3D角色动作，剧情脚本秒变动画

Sitcom-Crafter 是一款基于剧情驱动的 3D 动作生成系统，通过多模块协同工作，支持人类行走、场景交互和多人交互，适用于动画、游戏及虚拟现实等领域。

# 视觉智能开放平台 # 数据采集 # 机器学习/深度学习 # 人工智能 # vr&ar # 异构计算

三分钟热度的鱼

|

问答

|

来自：视觉智能

OCR发票识别不到？

# 文字识别 # 视觉智能开放平台 # 文字识别

老乡别走

|

博文

|

来自：视觉智能

分享：如何ocr识别身份证复印件并导出至excel表格 ? 图片批量识别导出excel表格应用，图片批量识别转excel表格的方法

该软件是一款OCR身份证识别工具，能批量处理图片，自动提取身份证信息并导出为Excel。支持百度网盘和腾讯云盘下载。用户界面直观，操作简单，适合新手。识别过程包括：打开图片、一键识别、导出结果。特别注意，此程序仅适用于身份证识别，不适用于其他类型的图片识别。

# 视觉智能开放平台 # 文字识别

aqi00

|

博文

|

来自：视觉智能

FFmpeg开发笔记（二十三）使用OBS Studio开启RTMP直播推流

OBS（Open Broadcaster Software）是一款开源、跨平台的直播和和Linux。官网为<https://obsproject.com/>。要使用OBS进行直播，需执行四步：1) 下载并安装OBS Studio（<https://obsproject.com/download>），2) 启动流媒体服务器如MediaMTX，生成RTMP推流地址，3) 打开OBS Studio，设置直播服务为自定义RTMP服务器（127.0.0.1:1935/stream），调整视频分辨率，4) 添加视频来源并开始直播。同时，通过FFmpeg的拉流程序验证直播功能正常。

# 视觉智能开放平台 # 编解码 # Linux # iOS开发 # MacOS # Windows

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

SeedVR：高效视频修复模型，支持任意长度和分辨率，生成真实感细节

SeedVR 是南洋理工大学和字节跳动联合推出的扩散变换器模型，能够高效修复低质量视频，支持任意长度和分辨率，生成真实感细节。

# 视觉智能开放平台 # 机器学习/深度学习 # 编解码 # 人工智能 # 测试技术 # Python

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

JoyCaption：开源的图像转提示词生成工具，支持多种风格和场景，性能与 GPT4o 相当

JoyCaption 是一款开源的图像提示词生成工具，支持多种生成模式和灵活的提示选项，适用于社交媒体、图像标注、内容创作等场景，帮助用户快速生成高质量图像描述。

# 视觉智能开放平台 # 人工智能 # Python

AI小怪兽

|

博文

|

来自： ModelScope模型即服务

YOLOv10实战：红外小目标实战 | 多头检测器提升小目标检测精度

本文改进：在进行目标检测时，小目标会出现漏检或检测效果不佳等问题。YOLOv10有3个检测头，能够多尺度对目标进行检测，但对微小目标检测可能存在检测能力不佳的现象，因此添加一个微小物体的检测头，能够大量涨点，map提升明显；多头检测器提升小目标检测精度，1）mAP50从0.666提升至0.677

# 视觉智能开放平台 # 机器学习/深度学习 # 计算机视觉

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

Lumina-Image 2.0：上海 AI Lab 开源的统一图像生成模型，支持生成多分辨率、多风格的图像

Lumina-Image 2.0 是上海 AI Lab 开源的高效统一图像生成模型，参数量为26亿，基于扩散模型和Transformer架构，支持多种推理求解器，能生成高质量、多风格的图像。

# 视觉智能开放平台 # 机器学习/深度学习 # 人工智能 # 编解码 # 自然语言处理 # 算法框架/工具

老乡别走

|

5月前

|

博文

|

来自：视觉智能

【繁体图片文字识别】竖排的繁体图片文字识别翻译，竖排的繁体图片文字如何识别，竖排繁体图片识别后转横排，竖排的繁体识别比较友好的方法

竖排繁体文字识别系统适用于古籍数字化、港澳台文档、书法作品、历史档案及学术研究等场景，支持图像预处理、自动旋转、OCR识别、竖转横与繁转简。通过咕嘎OCR与OpenCC技术，实现高效精准的文字转换与编辑。

# 视觉智能开放平台 # 机器学习/深度学习 # 缓存 # 文字识别 # 算法 # Python

真的很搞笑

|

问答

|

来自： ModelScope模型即服务

连接不上Modelscope，可以怎么解决？就在国外…昨天晚上用不了的，HTTPConnection

# 视觉智能开放平台

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

视觉智能开放平台