转发文章-阿里云开发者社区

转发文章

2024-11-04 283

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 通过文档智能（Document Mind）解析文档支撑检索增强生成RAG通过文档智能（Document Mind）将文档解析为结构化数据，结合语义理解，提取出文档层级树、样式信息以及版面信息，下游将解析的结果数据处理成文档切片，生成切块（Chunk）数据。如图所示，文档智能支持将非结构化文档内容提取的信息输出为Markdown和Json格式，更方便构建语义分块策略。解决问题：文档内容解析错误，相较于传统单页以电子解析文本或者OCR解析文本的方式，IDP则针对不同的文档类型，实现电子解析+OCR/NLP的细粒度混合版融合方案，通过电子解析+OCR/NLP中互相的优缺点弥补，提升解析的

通过文档智能（Document Mind）解析文档支撑检索增强生成RAG
通过文档智能（Document Mind）将文档解析为结构化数据，结合语义理解，提取出文档层级树、样式信息以及版面信息，下游将解析的结果数据处理成文档切片，生成切块（Chunk）数据。

如图所示，文档智能支持将非结构化文档内容提取的信息输出为Markdown和Json格式，更方便构建语义分块策略。

解决问题：文档内容解析错误，相较于传统单页以电子解析文本或者OCR解析文本的方式，IDP则针对不同的文档类型，实现电子解析+OCR/NLP的细粒度混合版融合方案，通过电子解析+OCR/NLP中互相的优缺点弥补，提升解析的效果和性能。

解决问题：切块丢失语义信息，基于最新自研的技术GeoLayoutLM 来研发层级树模型，可以面向各种长度和类型的文档，高效地提取其内部版面的层级关系，经过文档解析切分的文档内容保证了语义的不丢失，可直接输入至RAG的下游链路。

解决问题：处理输出LLM友好的Markdown信息，相比于传统文本内容解析，Document Mind提供含层级的段落信息、表格及表格单元信息、图片信息，并包含丰富的标题、段落、页码、注解等版面类型信息。

转发文章

ModelScope模型即服务

热门文章

最新文章

相关电子书