文档备案控制台

开发者社区 ModelScope模型即服务多模态正文

用OFA进行ocr训练任务

请问用OFA进行ocr训练任务时，如何安排图片、标签文件的层次结构，以及如何使用MsDataset.load语句将图片和对应的标签传递到train_dataset中呢？

展开

收起

OFA文字识别-中文-日常场景-base

游客tbkcs4rdokllm 2023-03-01 08:16:41 847 版权

2 条回答

写回答

取消提交回答

7q53djewhjqbu

import os
import pandas as pd
import chardet
from PIL import Image
from datasets import Dataset
import tempfile
from modelscope.msdatasets import MsDataset
from modelscope.metainfo import Trainers
from modelscope.trainers import build_trainer
from modelscope.utils.constant import DownloadMode

with open('./ocr_labels_modelscope.csv', 'rb') as f:
result = chardet.detect(f.read())
data = pd.read_csv('./ocr_labels_modelscope.csv', encoding=result['encoding'])
ds = Dataset.from_pandas(data)
ds = MsDataset(ds)
print(next(iter(ds)))
文件格式：
image_id,text,image
000000000,硖,/mnt/workspace/images/000000000.jpg
000000001,饰,/mnt/workspace/images/000000001.jpg
000000002,晟,/mnt/workspace/images/000000002.jpg

2024-01-30 14:31:27

赞同展开评论
游客vnqjw55ntakdm

同问，请问在文本行识别中如何使用MsDataset.load语句将图片和对应的标签传递到train_dataset中呢？

2023-03-23 18:57:51

赞同展开评论

相关问答

文字识别OCR中，有办法训练将两行的内容合并成一块区域内容吗?

264

1

0

请问文字识别OCR模型训练失败在哪查看原因？

386

1

0

文字识别OCR的标注任务导入支持其它标注平台的数据转换格式以后导入么？

315

1

0

文字识别OCR如果上传做训练的标注集里面有图片有问题，想不做标注，废弃处理。该怎么操作？

270

1

0

在文字识别OCR中，读光OCR的iTag的标注任务能发布到类似于市场这样的地方吗？

165

0

0

文字识别OCR模型ID:24711训练报错，怎么解决？

183

0

0

我在训练身份证反面的文字识别OCR模型，训练出来的模型为什么只能识别横向拍的照片？竖着拍的识别不出来

277

1

0

文字识别OCR在训练身份证反面的OCR识别模型，标注时如果只标注kv区域，帮忙分析下是哪里的问题？

163

0

0

文字识别OCR同一个文档，有7种格式，这种训练7种还是1种？

177

0

0

文字识别OCR模型训练环节，所使用的训练机，是否存在数据泄露的风险？

308

2

0

ModelScope模型即服务

多模态

包含图像描述、文本生成图片、版面分析、多模态表征、视觉问答、文档理解等多个领域

我要提问

相关文章

内网环境跑通RPA自动化：企业级私有化部署实战

AI办公高频问题汇总梳理清单

Deepseek大语言模型在多语种手稿数字化中的工程实践与策略

阿里云Qwen 3.7 Plus与Max实测对比：2026年多模态能力与性价比深度解析

热门讨论

热门文章

通过ollama 编写modelfile的形式创建翻译模型，输出全是思考，老是超限，翻译不出来。

怎么修改model scope的默认存储位置

下载youku-mplug的Video Captioning数据集时报错。

生成式 AI 无敌了: 大神微调 Stable Diffusion，打造神奇宝贝新世界

中文CLIP模型卷土重来，这次加量不加价！

StableDiffusion 报错，prompt_embeds

开源AI绘画工具Stable Diffusion代码分析论文介绍-好文转载

当下载大模型时，出现过慢的情况，有什么更好的方式解决

用OFA进行ocr训练任务

!pip install open_clip_torch !pip install pytorch-

展开全部

MNN-LLM App：在手机上离线运行大模型，阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

GLM-4V-Flash：智谱 AI 免费开放的图像理解大模型 API 接口

阿里开源AI视频生成大模型 Wan2.1：14B性能超越Sora、Luma等模型，一键生成复杂运动视频

AgentScope：阿里开源多智能体低代码开发平台，支持一键导出源码、多种模型API和本地模型部署

AstrBot：轻松将大模型接入QQ、微信等消息平台，打造多功能AI聊天机器人的开发框架，附详细教程

MoneyPrinterTurbo：23.9K Star！这个AI把写文案+找素材+剪视频全包了，日更10条不是梦

用自然语言控制电脑，字节跳动开源 UI-TARS 的桌面版应用！内附详细的安装和配置教程

AnythingLLM：34K Star！一键上传文件轻松打造个人知识库，构建只属于你的AI助手，附详细部署教程

Mobile-Agent：通过视觉感知实现自动化手机操作，支持多应用跨平台

音乐人必看！OpenUtau：开源AI歌声合成神器，快速打造专业级虚拟歌手，中文日文无缝切换

展开全部

还有其他疑问?