文档备案控制台

开发者社区问答正文

文档智能这两个标题的字体和数字明显不一样，怎么返回的数据还是一个层级的？

展开

收起

嘟嘟嘟嘟嘟嘟 2024-03-19 17:27:08 220 版权

阿里云 AI 助理回答

在使用文档智能解析服务时，如果遇到标题的字体和数字明显不同但返回的数据仍被归为同一层级的情况，这通常与解析逻辑和版面分析策略有关。以下是详细的原因分析及解决建议：

1. 解析逻辑基于内容语义而非样式

文档智能解析服务（如文档解析-大模型版或文档智能解析）主要依据文档的逻辑层级结构进行解析，而不是单纯依赖字体、字号等样式信息。
- 原因：解析算法会优先识别文档中的语义信息（如标题、段落、表格等），并根据这些语义信息构建层级树。即使标题的字体或数字样式不同，只要它们在语义上被识别为同一类（如“标题”），就会被归为同一层级。 - 示例：如果两个标题都被识别为para_title（段落标题），即使它们的字体大小或样式不同，也会被视为同一层级。

2. 样式信息未完全纳入层级划分

虽然文档智能解析支持提取样式信息（如字体、字号、加粗等），但这些样式信息可能并未直接用于层级划分。
- 原因：解析服务的核心目标是提取文档的逻辑结构，而非完全复刻视觉样式。因此，样式差异可能仅作为辅助信息，而不会直接影响层级划分。 - 解决方法：如果需要更精细的样式区分，可以结合markdownContent字段或styles数组中的样式信息，手动对结果进行后处理。

3. 版面分析可能存在误差

版面分析的准确性可能受到以下因素的影响： - 数据质量：如果文档扫描件质量较差（如模糊、倾斜等），可能导致解析误差。 - 标注不完整：如果训练数据中未充分覆盖类似样式的标题，模型可能无法准确区分不同样式的标题。 - 模板匹配问题：对于扫描文档，模板匹配可能未能正确识别标题的样式差异。

4. 解决建议

针对上述问题，您可以尝试以下方法优化解析结果：

4.1 检查输入文档的质量

确保文档清晰、无倾斜、无遮挡，尤其是扫描件的质量需达到较高标准。
如果文档包含复杂样式，建议使用高分辨率的PDF或图片格式上传。

4.2 调整解析参数

在调用SubmitDocStructureJob接口时，设置StructureType参数为default，以获取完整的结构化信息（包括样式、版面、层级等）。

示例代码：

response = client.submit_doc_structure_job(
  fileUrl="your_file_url",
  structureType="default"
)

4.3 后处理解析结果

结合markdownContent字段和styles数组，手动对解析结果进行后处理。例如，根据字体大小或加粗属性进一步细分层级。

示例代码：

for layout in doc_json["layouts"]:
  if layout["type"] == "para_title":
      font_size = layout.get("styles", {}).get("fontSize", 0)
      if font_size > 16:  # 假设大于16为一级标题
          layout["level"] = 1
      else:
          layout["level"] = 2

4.4 使用自定义模板

如果文档样式固定，可以通过OCR&文档自学习平台创建自定义模板，明确标注不同样式的标题字段。
步骤：
1. 创建模板并标注标题字段。
2. 调整字段类型或高级选项，提升识别精度。
3. 测试模板并优化匹配效果。

5. 注意事项

置信度检查：解析结果中包含layoutConf字段，表示解析的置信度。如果置信度较低（如小于0.8），建议重新检查输入文档或调整解析参数。
版本选择：不同版本的解析服务（如文档解析-大模型版、电子文档解析、文档智能解析）在功能和速度上有所差异。如果需要更详细的样式信息，建议使用文档智能解析版本。

通过以上方法，您可以有效解决标题字体和数字样式不同但返回数据仍为同一层级的问题。如果问题仍未解决，建议联系技术支持团队，提供具体文档样本以便进一步分析。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答标签：

文档智能层级文档智能数据文档智能字体

问答地址：

开发者社区 > 人工智能 > 问答

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料