阿里云OCR支持多种格式的文档识别,包括PDF、JPG、PNG、BMP、GIF等。其中,PDF格式的文档识别需要使用通用文字识别(高精度版)的API接口,该接口可以识别PDF文件中的文字,并返回JSON格式的数据。如果您想将PDF转换为Word或HTML,您可以使用第三方工具或自己编写代码来实现。
阿里云OCR也支持HTML格式的文档识别,需要使用表格识别的API接口,该接口可以识别HTML文件中的表格内容,并返回HTML、JSON或XLSX格式的数据。如果您想将HTML转换为Word,您也可以使用第三方工具或自己编写代码来实现。
调用PDF转Word接口_文档智能-阿里云帮助中心https://help.aliyun.com/document_detail/450843.html,可以调用上面的API此回答整理自钉群“【官方】阿里云OCR公共云客户交流群”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。