开发者社区> 问答> 正文

在智能媒体管理上,刚试用了ExtractDocumentText,ppt转文本存在段落不清晰怎么办?

在智能媒体管理上,刚试用了ExtractDocumentText,ppt转文本存在段落不清晰,一些格式无法转换的问题。想咨询是否有计划支持获取结构化文档,我们是课堂场景,讲课的ppt想提取文本,意向接入文档提取文本的能力。比如这个,我把返回的文本字符串中的换行符split处理,里面还有一些异常字符转换结果,可以帮忙看下这些是什么情况吗?还有ppt文本支持分页的问题,我看现在提取的文本无法分页处理。cf9d4ddc2e82a4d18fc175a771659f6a.png6cecc4b979761b2bb475fb82b688e69e.png

展开
收起
小小鹿鹿鹿 2023-10-30 20:38:34 52 0
1 条回答
写回答
取消 提交回答
  • 如果是一些数学公式的话 是会出现异常字符的情况, 中文文本段落不清晰这个是预期内的么。主要是两点1、ppt格式文件文字提取支持分页。比如增加入参是ppt的页码,返回这一页的提取内容2、文本段落结构化返回。e6e76760087de1c5e2dfe1e3e002c02d.png像这样返回的段落顺序就有误,ppt特效内容没有跟题目对应。此回答来自钉群智能媒体管理官网客户二群。

    2023-10-31 22:43:04
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载