开发者社区 > 视觉智能 > 文字识别 > 正文

在OCR我应该如何训练,训练好了如何解析不同各类的数据?

我们想识别北京这边的医疗票据,现在有四类票据,他们的格式不同:公立医院门诊发票1张,公立医院住院发票+小票详单, 私立医院门诊发票+小票详单,私立医院门诊发票 + 小票详单,在OCR我应该如何训练,训练好了如何解析不同各类的数据?

展开
收起
三分钟热度的鱼 2023-06-24 11:12:48 122 0
5 条回答
写回答
取消 提交回答
  • 发表文章、提出问题、分享经验、结交志同道合的朋友

    同学你好,根据你的需求,如果想识别北京地区的医疗票据,并且不同的票据格式存在差异,可以使用阿里云的字识别API进行训练和分类。

    首先,需要对不同的票据格式进行分类,并将其中的每种类型的票据进行特征提取。例如,如果想要训练一个模型来识别公立医院门诊发票,可以使用阿里云的字识别API对公立医院门诊发票的特征进行提取,并将其训练成一个分类器。

    对于不同类型的票据,可以使用不同的特征提取方法和模型进行训练。例如,如果想要训练一个模型来识别公立医院住院发票+小票详单,可以使用阿里云的字识别API对公立医院住院发票和小票详单的特征进行提取,并将其训练成一个分类器。

    在训练好了模型之后,可以使用阿里云的字识别API对不同类型的票据进行识别,并将其分类到相应的字段或类别中。

    需要注意的是,对于不同类型的医疗票据,需要对其进行特征提取和分类,并使用相应的模型进行训练和预测,可以快速有效地对不同类型的医疗票据进行识别和分类。

    2023-06-25 12:01:35
    赞同 展开评论 打赏
  • 公众号:网络技术联盟站,InfoQ签约作者,阿里云社区签约作者,华为云 云享专家,BOSS直聘 创作王者,腾讯课堂创作领航员,博客+论坛:https://www.wljslmz.cn,工程师导航:https://www.wljslmz.com

    对于不同格式的医疗票据,你可以使用阿里云OCR服务的自定义模板功能进行训练和识别。以下是一般的步骤:

    1. 收集数据:收集包含各类医疗票据的样本数据,并将其转换为图片格式(如JPEG、PNG等)。

    2. 创建自定义模板:登录阿里云控制台,导航至OCR服务,选择自定义模板管理,然后点击新建自定义模板。根据不同的票据类型,创建对应的自定义模板,并根据需要指定相应的字段和识别规则。

    3. 上传训练样本:对于每种票据类型,分别上传一些样本图片,并手动标注和指定字段的位置和名称。确保训练样本覆盖了不同的布局和变体。

    4. 开始训练:选择已创建的模板,点击开始训练。根据样本图片的数量和复杂度,训练过程可能需要一些时间。

    5. 测试和优化:一旦训练完成,你可以使用测试图片进行识别,检查结果的准确性和完整性。如有必要,可以调整模板配置、上传更多样本并重新训练,以进一步提高识别效果。

    6. 解析数据:通过调用OCR接口,传递待识别的医疗票据图片,使用相应的自定义模板进行识别。接口返回的结果将包含你预先指定的字段和其对应的识别结果。

    训练自定义模板需要一些样本数据以及手动标注的工作量,并且可能需要多次迭代和优化才能达到较好的识别效果。同时,医疗票据的格式和布局变化较大,因此建议根据实际情况选择合适的训练样本和调整模板配置,以获得最佳的识别结果。

    另外,阿里云OCR服务还提供了其他功能和接口,如表格识别、身份证识别等,你可以根据具体需求选择相应的功能和接口进行开发和集成。

    2023-06-25 08:05:14
    赞同 展开评论 打赏
  • 值得去的地方都没有捷径

    对于OCR识别不同类型的医疗票据,您可以采取以下步骤进行训练和解析:

    数据收集:收集足够数量和多样性的医疗票据样本,包括各类票据的不同格式和布局。确保覆盖各种可能的变化和差异。

    标注数据:对收集到的医疗票据样本进行标注,标注出感兴趣的字段和区域,如发票号码、患者信息、项目明细等。可以使用标注工具(如LabelImg)来辅助标注。

    训练模型:使用OCR框架(如Tesseract、EasyOCR等)或深度学习框架(如TensorFlow、PyTorch等)来训练OCR模型。您可以参考相关文档和教程,根据您的需求和技术选择适合的模型和训练方法。

    调优和验证:在训练过程中,根据验证集的结果进行模型的调优和优化,以提高准确性和鲁棒性。可以尝试不同的参数配置、数据增强技术和模型结构来改善识别效果。

    解析数据:在模型训练好后,使用训练好的模型对新的医疗票据进行OCR识别。根据您标注的字段和区域,提取和解析感兴趣的信息。您可以编写解析逻辑和规则来处理不同类型的票据,根据布局和内容的特征进行相应的处理。

    请注意,医疗票据的格式和布局可能会有很大的差异,需要进行充分的数据收集和标注,并根据实际情况进行模型训练和解析逻辑的设计。这是一个相对复杂的任务,需要一定的技术和专业知识。建议在实施过程中寻求专业人士的帮助和指导。

    2023-06-24 14:16:12
    赞同 展开评论 打赏
  • 十年摸盘键,代码未曾试。 今日码示君,谁有上云事。

    你可以在阿里云开发者社区关注一下截图中的博主,他有介绍。

    2023-06-24 13:55:32
    赞同 1 展开评论 打赏
  • 跟进,模板+分类器,或者票据单证信息抽取模型。此回答整理自钉群“【官方】阿里云OCR文档自学习用户答疑群”

    2023-06-24 11:19:34
    赞同 展开评论 打赏

文字识别技术可以灵活应用于证件文字识别、发票文字识别、文档识别与整理等行业场景,满足认证、鉴权、票据流转审核等业务需求。

相关电子书

更多
神龙云服务器产品及技术深度解析 立即下载
弹性创造价值:基于ECS的最佳性价比实践解析 立即下载
又快又稳:阿里云下一代虚拟交换机解析 立即下载

相关镜像