开发者社区 问答 正文

文档智能是否可以支持上市公司监管问询公告pdf中的问询和回复的提取吗?

文档智能是否可以支持上市公司监管问询公告pdf中的问询和回复的提取吗?

展开
收起
嘟嘟嘟嘟嘟嘟 2024-04-10 08:32:34 65 分享 版权
阿里云 AI 助理回答

文档智能技术可以支持从上市公司监管问询公告PDF中提取问询和回复内容,但其效果取决于文档的具体版式、内容结构以及训练数据的质量。以下是详细解答:


1. 技术能力分析

文档智能技术基于多模态文档预训练模型,能够对PDF等非结构化文档进行结构化信息提取。其核心技术包括: - 层次化版面分析:识别文档中的标题、段落、表格等内容区域。 - 多模态文档识别:结合自然语言处理(NLP)和图像处理技术,解析文字和版式信息。 - 多版式异构表格理解:针对复杂表格内容进行结构化解析。

这些技术使得文档智能能够处理非固定版式的文档,并适用于多种场景,如金融风险管理、司法卷宗处理等。因此,对于上市公司监管问询公告PDF中的问询和回复内容,文档智能具备一定的提取能力。


2. 适用场景与限制

适用场景

  • 如果问询和回复内容以段落形式呈现,文档智能可以通过文本抽取功能提取关键信息。
  • 如果问询和回复内容包含表格或表单,文档智能的表格智能解析功能可以从表格中提取出样式、内容及KV(键值对)信息。

限制条件

  • 版式复杂性:如果PDF文件包含扫描页或复杂的排版(如嵌套表格、图片嵌入文字等),可能需要额外的预处理或自定义模型优化。
  • 数据标注需求:为了获得高精度的提取效果,建议准备至少50-60份同类任务的数据进行模型训练与评测。
  • 字迹清晰度:对于扫描件或图片格式的PDF,图像质量直接影响识别准确率。建议单字大小保持在10-50像素内,以获得较好的识别效果。

3. 解决方案建议

步骤一:数据准备

  • 准备上市公司监管问询公告PDF样本,确保样本覆盖不同版式和内容类型。
  • 数据要求:
    • PDF文件不超过20MB,建议单文件不超过5页。
    • 图片格式支持JPG、JPEG、PNG,单张图片最长边不超过8192像素,最短边不小于15像素。

步骤二:模型选择与训练

  • 使用长文档信息抽取功能,通过平台可视化引导完成数据标注和模型训练。
  • 如果文档版式较为简单(如仅包含标题和段落),可选择高性能模型;如果版式复杂(如包含表格、表单等),建议使用混合版面模型。

步骤三:效果评估

  • 上传样本至轻应用进行试用,评估提取效果是否满足需求。
  • 如果效果满意,可通过API接口调用或继续使用轻应用的可视化界面接入产品。

4. 推荐搭配功能

  • 文档智能解析(大模型版):提取文档的逻辑层级结构、文本内容和版面样式信息,输出Markdown格式,便于后续语义分块和处理。
  • 表格智能解析:针对表格内容进行结构化解析,提取表格样式、内容及KV信息。
  • PDF转Word:将不可编辑的PDF转换为可编辑的Word格式,方便进一步处理。

5. 注意事项

  • 免费额度:开通服务后可享受千页免费试用额度,超出部分按量付费。
  • 数据安全:服务利用阿里云标准网关,确保数据传输全程加密。建议通过RAM角色和STS临时授权保障AccessKey安全。
  • 退费政策:文档智能产品暂不支持自助退订,需通过人工服务申请退订。

结论

文档智能技术可以支持上市公司监管问询公告PDF中问询和回复内容的提取,但需要根据具体版式和内容特点选择合适的模型和功能模块。建议先上传样本进行试用,确认效果后再决定是否正式接入。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答
问答标签:
问答地址: