开发者社区视觉智能文字识别正文

文字识别OCR中这个图片如何能识别啊?

文字识别OCR中这个图片如何能识别啊? 图片.png
这个识别出来的内容我的系统没法直接用啊

展开

收起

wenti 2024-04-23 16:42:36 86 版权

阿里云 AI 助理回答

1. 图片识别的基本流程

文字识别OCR（Optical Character Recognition）通过分析图片中的文字内容，将其转换为可编辑的文本数据。以下是图片识别的基本步骤：

1.1 开通服务并准备图片

开通服务：首先需要在阿里云控制台开通文字识别服务。开通后会赠送免费额度，可用于测试。
图片要求：
- 支持的格式包括：PNG、JPG、JPEG、BMP、GIF、TIFF、WebP等，暂不支持PDF格式。
- 图片尺寸需满足：长宽大于15像素，小于8192像素，且长宽比小于50。
- 建议：为了获得更好的识别效果，图片长宽应大于500像素，文件大小不超过10MB，推荐使用小于1.5MB的图片以提高响应速度。

1.2 调用API接口

选择合适的接口：根据图片类型和需求，选择适合的OCR接口。例如：
- 通用文字识别：适用于普通场景的文字提取。
- 电商图片文字识别：针对电商商品宣传图片、社区贴吧图片等网络场景。
- 表格识别：专门用于提取表格中的文字信息。
- 全文识别高精版：适用于对精度要求较高的场景。
调用方式：可以通过OpenAPI Explorer直接运行接口，无需手动计算签名。成功运行后，系统会自动生成SDK代码示例，便于集成到您的系统中。

1.3 获取识别结果

返回参数：识别结果通常包括以下内容：
- 文字块汇总（content字段）。
- 文字块详细信息（prism_wordsInfo字段），如位置坐标、角度、文字内容等。
- 表格信息（prism_tablesInfo字段，仅当图片包含表格时返回）。
- 图片矫正后的尺寸信息（如height、width等）。
注意事项：
- 如果图片中文字数量较多，接口响应时间可能会延长。
- 接口会自动处理反光、扭曲等干扰信息，但可能会影响识别精度。建议使用清晰度高、无反光、无扭曲的图片。

2. 识别内容无法直接使用的原因及解决方案

2.1 原因分析

格式问题：OCR返回的结果通常是结构化的JSON数据，可能与您的系统预期的格式不一致。
内容冗余：返回的数据可能包含额外的信息（如位置坐标、角度等），而您的系统只需要纯文本内容。
编码或语言问题：如果图片中包含多语言文字或特殊字符，可能导致解析困难。

2.2 解决方案

2.2.1 数据格式转换

提取关键字段：从返回的JSON数据中提取您需要的字段。例如：
- 如果只需要纯文本内容，可以提取content字段。
- 如果需要表格信息，可以提取prism_tablesInfo字段。

示例代码（Python）：

import json

# 假设这是OCR返回的JSON数据
ocr_result = {
  "content": "识别出的文字内容",
  "prism_wordsInfo": [
      {"word": "文字块1"},
      {"word": "文字块2"}
  ],
  "prism_tablesInfo": [
      {"tableId": 1, "cellContent": "单元格内容"}
  ]
}

# 提取纯文本内容
pure_text = ocr_result.get("content", "")

# 提取表格内容
table_content = [cell["cellContent"] for cell in ocr_result.get("prism_tablesInfo", [])]

print("纯文本内容:", pure_text)
print("表格内容:", table_content)