备案控制台

开发者社区 ModelScope模型即服务多模态正文

用OFA进行ocr训练任务

请问用OFA进行ocr训练任务时，如何安排图片、标签文件的层次结构，以及如何使用MsDataset.load语句将图片和对应的标签传递到train_dataset中呢？

展开

收起

OFA文字识别-中文-日常场景-base

游客tbkcs4rdokllm 2023-03-01 08:16:41 778 版权

2 条回答

写回答

取消提交回答

7q53djewhjqbu

import os
import pandas as pd
import chardet
from PIL import Image
from datasets import Dataset
import tempfile
from modelscope.msdatasets import MsDataset
from modelscope.metainfo import Trainers
from modelscope.trainers import build_trainer
from modelscope.utils.constant import DownloadMode

with open('./ocr_labels_modelscope.csv', 'rb') as f:
result = chardet.detect(f.read())
data = pd.read_csv('./ocr_labels_modelscope.csv', encoding=result['encoding'])
ds = Dataset.from_pandas(data)
ds = MsDataset(ds)
print(next(iter(ds)))
文件格式：
image_id,text,image
000000000,硖,/mnt/workspace/images/000000000.jpg
000000001,饰,/mnt/workspace/images/000000001.jpg
000000002,晟,/mnt/workspace/images/000000002.jpg

2024-01-30 14:31:27

赞同展开评论
游客vnqjw55ntakdm

同问，请问在文本行识别中如何使用MsDataset.load语句将图片和对应的标签传递到train_dataset中呢？

2023-03-23 18:57:51

赞同展开评论

相关问答

文字识别OCR中，有办法训练将两行的内容合并成一块区域内容吗?

184

1

0

请问文字识别OCR模型训练失败在哪查看原因？

254

1

0

文字识别OCR的标注任务导入支持其它标注平台的数据转换格式以后导入么？

110

1

0

文字识别OCR如果上传做训练的标注集里面有图片有问题，想不做标注，废弃处理。该怎么操作？

169

1

0

在文字识别OCR中，读光OCR的iTag的标注任务能发布到类似于市场这样的地方吗？

94

0

0

文字识别OCR模型ID:24711训练报错，怎么解决？

100

0

0

我在训练身份证反面的文字识别OCR模型，训练出来的模型为什么只能识别横向拍的照片？竖着拍的识别不出来

160

1

0

文字识别OCR在训练身份证反面的OCR识别模型，标注时如果只标注kv区域，帮忙分析下是哪里的问题？

80

0

0

文字识别OCR同一个文档，有7种格式，这种训练7种还是1种？

64

0

0

文字识别OCR模型训练环节，所使用的训练机，是否存在数据泄露的风险？

208

2

0

ModelScope模型即服务

多模态

包含图像描述、文本生成图片、版面分析、多模态表征、视觉问答、文档理解等多个领域

我要提问

相关文章

PPO最强，DPO一般？一文带你了解常见三种强化学习方法，文末推荐大模型微调神器！

一键搞定人脸识别、语音识别、车牌识别本地化！离线跑模型不装框架！！！

为什么别人用 DevPod 秒启 DeepSeek-OCR，你还在装环境？

面向openEuler操作系统：OCR软件应用部署流程、性能评测

基于文本检测的 Python 爬虫弹窗图片定位与拖动实现

热门讨论

热门文章

怎么修改model scope的默认存储位置

请帮我看看以下模型评估的文档说明

【求助】关于使用Qwen2-7B-VL多模型模型识别图片某个元素的坐标的问题

当下载大模型时，出现过慢的情况，有什么更好的方式解决

如何本地化（局域网内）部署Qwen的多模态大模型，用作推理并自有程序调用

为什么用vllm部署qwen2-2b-vl，传输2张照片却，只回答一张照片的问题？

!pip install open_clip_torch !pip install pytorch-

通过ollama 编写modelfile的形式创建翻译模型，输出全是思考，老是超限，翻译不出来。

mPLUG图像描述模型是什么？

开源AI绘画工具Stable Diffusion代码分析论文介绍-好文转载

展开全部

MNN-LLM App：在手机上离线运行大模型，阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

AgentScope：阿里开源多智能体低代码开发平台，支持一键导出源码、多种模型API和本地模型部署

Mobile-Agent：通过视觉感知实现自动化手机操作，支持多应用跨平台

AnythingLLM：34K Star！一键上传文件轻松打造个人知识库，构建只属于你的AI助手，附详细部署教程

AstrBot：轻松将大模型接入QQ、微信等消息平台，打造多功能AI聊天机器人的开发框架，附详细教程

VideoCaptioner：北大推出视频字幕处理神器，AI自动生成+断句+翻译，1小时工作量5分钟搞定

GLM-4V-Flash：智谱 AI 免费开放的图像理解大模型 API 接口

Agno：18.7K Star！快速构建多模态智能体的轻量级框架，运行速度比LangGraph快5000倍！

PPO最强，DPO一般？一文带你了解常见三种强化学习方法，文末推荐大模型微调神器！

moonshot-v1-vision-preview：月之暗面Kimi推出多模态视觉理解模型，支持图像识别、OCR文字识别、数据提取

展开全部

还有其他疑问?