为了从图片中智能提取特定位置(如红色截图所示)的数据,您可以按照以下步骤操作:
1. 数据准备
- 上传图片:首先,将包含目标数据的图片上传至阿里云的“数据中心-数据集”中。确保图片格式为jpg、jpeg或png,且文件大小不超过10M,单边长度不超过8192像素,长宽比不超过50:1。
- 创建数据集:在数据集中编辑名称并上传图片,至少准备50-60份同类任务的数据以优化模型训练效果。
2. 数据标注
- 创建标注任务:进入“数据中心-标注任务”,点击“创建标注任务”。命名任务后,选择或上传需要标注的数据集。
- 使用框选工具:针对红色截图区域,利用标注工具中的“框选”功能精确框选出待识别字段。对于文字倾斜的情况,可尝试使用“五角框”进行更贴合的框选。
- 配置字段信息:在题目设置中,为框选出的字段填写正确的字段名称和类型,这有助于提高识别精度。
- 跨行标注处理:如果数据跨行,需分别框选对应部分,并通过按住“shift键”合并这些框选,确保所有相关数据被正确标注为一个整体。
3. OCR预标注与核对
- 开启OCR预标注功能,系统会自动识别框内文字内容,但务必仔细核对检查,尤其是手写体不被支持的情况下。
4. 质检与提交
- 完成标注后,进入质检环节,仔细检查标注的准确性,必要时进行修改或驳回重新标注。
- 确认无误后,提交标注任务,以便后续用于模型训练。
注意事项
- 图像质量:确保图片清晰,无遮挡,字迹端正,以提升识别准确率。
- 模型训练:若文档样式复杂或有特殊需求,可能需要更多样本和定制化训练来优化模型效果。
- 表格数据:若红色截图位置属于表格的一部分,应根据表格结构选择合适的标注方式(KV型或列表型),并正确创建表格模板。
通过上述流程,您可以有效地从图片中提取指定位置的数据,并通过不断优化标注和模型训练,提升数据抽取的准确性和效率。