开发者社区 问答 正文

在文档智能中如图所示问题应该怎么解决?

e1347fc547ccab281fae90175b312e0d.jpg
在文档智能中如图所示问题应该怎么解决?

展开
收起
花开富贵111 2024-01-22 22:28:25 84 分享 版权
阿里云 AI 助理回答

在文档智能中遇到问题时,可以根据具体问题类型采取以下解决方法。以下是针对常见问题的详细解决方案:


1. 接口调用返回 NoPermission 错误

当接口调用返回 NoPermission 错误时,可能的原因及解决方法如下:

原因 1:子账号调用权限不足

  • 解决方法:登录阿里云 RAM 控制台,为子账号添加 AliyunOCRFullAccess 权限策略。
    • 操作步骤:
    • 登录 RAM 控制台。
    • 找到对应的子账号。
    • 在权限管理中,添加 AliyunOCRFullAccess 策略。

原因 2:账号信息不匹配

  • 解决方法:确保调用接口和查询接口使用的是同一账号。
    • 检查点:
    • 调用接口时使用的 AccessKey ID 和 Secret 是否与查询操作一致。
    • 如果使用了 STS 临时授权,请确保临时凭证的有效性和一致性。

2. 数据传输安全性问题

文档智能服务通过阿里云标准网关进行数据传输,所有数据均经过加密处理,确保全链路安全。
- 重要提醒:如果需要进一步保护 AccessKey 安全,建议使用 RAM 角色并通过 STS 临时授权调用服务。


3. 模型识别效果不佳

如果模型识别准确率较低,可以通过以下方式优化:

3.1 数据类型和质量

  • 确保上传的数据符合项目功能范围,并且图片清晰、端正。

3.2 数据标注

  • 标注完整性:将识别字段逐一标注完整,标注框尽量贴合字段文字。
  • 调整字段类型或高级选项:根据实际需求调整字段类型(如数字、字母等)或配置高级选项以提高精准度。

3.3 数据量

  • 数据量越大,模型训练效果越好。一般情况下,模型数据量达到 200 份 时,可能会得到较高的精准度。

3.4 数据分布

  • 确保训练数据覆盖完整的版式和类型,只有训练过的数据类型和版式才能有较好的识别效果。

4. 模板调优问题

4.1 图片无法匹配模板

  • 解决方法
    1. 确认测试图片与模板图片是否为同一版式。
    2. 调整参照字段框选范围或更换参照字段,以提升模板匹配准确率。

4.2 识别结果不完整

  • 解决方法
    1. 调整识别区框选范围,确保框覆盖字段文字可能出现的最大范围。
    2. 检查字段类型的选择(如数字识别成字母时,可调整为数字类型)。
    3. 检查字段的高级配置。

4.3 识别字段错误

  • 解决方法
    1. 检查字段类型的选择(如常规调整为数字类型)。
    2. 检查字段的高级配置。

4.4 选框偏移

  • 解决方法
    1. 检查参照字段或识别字段框选是否符合要求。
    2. 确保模板图片符合要求。

5. 长文档信息抽取换行标注

对于长文档信息抽取中的换行标注,可以按照以下步骤操作: 1. 分别标注跨行对应的部分,并给予它们正确的题目。 2. 按住「Shift 键」,点击此前的两个标注框的边。 3. 松开「Shift 键」,系统会自动合并跨行数据并选择对应的题目。 4. 点击确定,右侧会显示一个“组合”,无需删除单独的小框。


6. 正则表达式编写

文档智能支持通过正则表达式对识别字段进行自定义配置。以下是一些常见场景的示例:

6.1 替换字符串

  • 输入:abcdef
  • 原内容:abc
  • 替换内容:hello
  • 结果:hellodef

6.2 去掉多余空格

  • 输入:ab de f
  • 原内容:\s+
  • 替换内容:(留空)
  • 结果:ab de f

6.3 倒数第二位数字前加小数点

  • 输入:12345
  • 原内容:(\d+)(\d{2})$
  • 替换内容:\1.\2
  • 结果:123.45

6.4 去除冒号前内容

  • 输入:Mobile:12345678
  • 原内容:.+:(\d+)
  • 替换内容:\1
  • 结果:12345678

6.5 日期格式转换

  • 输入:2023-2-3
  • 原内容:^(\d+)-(\d+)-(\d+)$
  • 替换内容:\1年\2月\3日
  • 结果:2023年2月3日

7. 接口调用返回结果说明

接口调用返回结果分为三种情况:处理中处理成功处理失败

7.1 处理中

  • 返回示例:
    {
    "RequestId": "2AABD2C2-D24F-12F7-875D-683A27C3****",
    "Completed": false,
    "Code": "DocProcessing",
    "Message": "Document processing"
    }
    
  • 解决方法:继续轮询接口,直到返回 Completedtrue 或超过最大轮询时间。

7.2 处理失败

  • 返回示例:
    {
    "RequestId": "A8EF3A36-1380-1116-A39E-B377BE27****",
    "Completed": true,
    "Status": "Fail",
    "Code": "UrlNotLegal",
    "Message": "Failed to process the document. The document url you provided is not legal."
    }
    
  • 解决方法:根据返回的 CodeMessage 信息排查问题,例如检查文档 URL 是否合法。

8. IP 白名单设置

文档智能服务暂不支持直接设置 IP 白名单,但可以通过以下方式间接实现: - 在服务器上使用 RAM 角色和 STS 临时授权调用服务,避免 AccessKey 泄露。 - 如果需要对域名 docmind-api.cn-hangzhou.aliyuncs.com 的出口 IP 添加白名单,可添加以下 IP 段: - 218.244.137.0/24 - 116.62.228.0/24


以上是针对文档智能中常见问题的详细解决方案。如有其他疑问,请提供更具体的描述以便进一步解答。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答
问答标签:
问答地址: