开发者社区问答正文

文档智能是否可以支持上市公司监管问询公告pdf中的问询和回复的提取吗？

展开

收起

嘟嘟嘟嘟嘟嘟 2024-04-10 08:32:34 91 版权

阿里云 AI 助理回答

文档智能技术可以支持从上市公司监管问询公告PDF中提取问询和回复内容，但其效果取决于文档的具体版式、内容结构以及训练数据的质量。以下是详细解答：

1. 技术能力分析

文档智能技术基于多模态文档预训练模型，能够对PDF等非结构化文档进行结构化信息提取。其核心技术包括： - 层次化版面分析：识别文档中的标题、段落、表格等内容区域。 - 多模态文档识别：结合自然语言处理（NLP）和图像处理技术，解析文字和版式信息。 - 多版式异构表格理解：针对复杂表格内容进行结构化解析。

这些技术使得文档智能能够处理非固定版式的文档，并适用于多种场景，如金融风险管理、司法卷宗处理等。因此，对于上市公司监管问询公告PDF中的问询和回复内容，文档智能具备一定的提取能力。

2. 适用场景与限制

适用场景

如果问询和回复内容以段落形式呈现，文档智能可以通过文本抽取功能提取关键信息。
如果问询和回复内容包含表格或表单，文档智能的表格智能解析功能可以从表格中提取出样式、内容及KV（键值对）信息。

限制条件

版式复杂性：如果PDF文件包含扫描页或复杂的排版（如嵌套表格、图片嵌入文字等），可能需要额外的预处理或自定义模型优化。
数据标注需求：为了获得高精度的提取效果，建议准备至少50-60份同类任务的数据进行模型训练与评测。
字迹清晰度：对于扫描件或图片格式的PDF，图像质量直接影响识别准确率。建议单字大小保持在10-50像素内，以获得较好的识别效果。

3. 解决方案建议

步骤一：数据准备

准备上市公司监管问询公告PDF样本，确保样本覆盖不同版式和内容类型。
数据要求：
- PDF文件不超过20MB，建议单文件不超过5页。
- 图片格式支持JPG、JPEG、PNG，单张图片最长边不超过8192像素，最短边不小于15像素。

步骤二：模型选择与训练

使用长文档信息抽取功能，通过平台可视化引导完成数据标注和模型训练。
如果文档版式较为简单（如仅包含标题和段落），可选择高性能模型；如果版式复杂（如包含表格、表单等），建议使用混合版面模型。

步骤三：效果评估

上传样本至轻应用进行试用，评估提取效果是否满足需求。
如果效果满意，可通过API接口调用或继续使用轻应用的可视化界面接入产品。

4. 推荐搭配功能

文档智能解析（大模型版）：提取文档的逻辑层级结构、文本内容和版面样式信息，输出Markdown格式，便于后续语义分块和处理。
表格智能解析：针对表格内容进行结构化解析，提取表格样式、内容及KV信息。
PDF转Word：将不可编辑的PDF转换为可编辑的Word格式，方便进一步处理。

5. 注意事项

免费额度：开通服务后可享受千页免费试用额度，超出部分按量付费。
数据安全：服务利用阿里云标准网关，确保数据传输全程加密。建议通过RAM角色和STS临时授权保障AccessKey安全。
退费政策：文档智能产品暂不支持自助退订，需通过人工服务申请退订。

结论

文档智能技术可以支持上市公司监管问询公告PDF中问询和回复内容的提取，但需要根据具体版式和内容特点选择合适的模型和功能模块。建议先上传样本进行试用，确认效果后再决定是否正式接入。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答标签：

PDF文档智能

问答地址：

开发者社区 > 人工智能 > 问答

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料