开发者社区 > ModelScope模型即服务 > 多模态 > 正文

用OFA进行ocr训练任务

请问用OFA进行ocr训练任务时,如何安排图片、标签文件的层次结构,以及如何使用MsDataset.load语句将图片和对应的标签传递到train_dataset中呢?

展开
收起
游客tbkcs4rdokllm 2023-03-01 08:16:41 687 0
2 条回答
写回答
取消 提交回答
  • import os
    import pandas as pd
    import chardet
    from PIL import Image
    from datasets import Dataset
    import tempfile
    from modelscope.msdatasets import MsDataset
    from modelscope.metainfo import Trainers
    from modelscope.trainers import build_trainer
    from modelscope.utils.constant import DownloadMode

    with open('./ocr_labels_modelscope.csv', 'rb') as f:
    result = chardet.detect(f.read())
    data = pd.read_csv('./ocr_labels_modelscope.csv', encoding=result['encoding'])
    ds = Dataset.from_pandas(data)
    ds = MsDataset(ds)
    print(next(iter(ds)))
    文件格式:
    image_id,text,image
    000000000,硖,/mnt/workspace/images/000000000.jpg
    000000001,饰,/mnt/workspace/images/000000001.jpg
    000000002,晟,/mnt/workspace/images/000000002.jpg

    2024-01-30 14:31:27
    赞同 展开评论 打赏
  • 同问,请问在文本行识别中如何使用MsDataset.load语句将图片和对应的标签传递到train_dataset中呢?

    2023-03-23 18:57:51
    赞同 展开评论 打赏

包含图像描述、文本生成图片、版面分析、多模态表征、视觉问答、文档理解等多个领域

相关电子书

更多
阿里云智能-印刷文字识别OCR-产品介绍 立即下载
阿里巴巴读光OCR 立即下载
印刷文字识别算法设计与在线服务 立即下载