我想能结构化的读取pdf文件里的内容,比如书签, 标注,文本内容。请问这个用什么语言,什么技术能实现。最好是VBA或者javascript之类的脚本语言,谢了!
任何能读二进制的语言都可######我知道大概所有语言都可以进行IO操作,可是如果自己写IO不觉得很麻烦吗。我意思是有没有什么技术可以进行结构化的读取, 谢谢!######
我听说过PDF.js
http://blog.163.com/hongshaoguoguo@126/blog/static/1804698120135300348446/
######感谢!######这个问题真是问出了水平。。######回复 @keepgoing_ : github里面应该有现成的源码。我可能搞错了,你说的是结构化读取,我看成了io读取了,没有其他的意思######看来这位朋友大牛,不过你冷嘲热讽我可不服你,不如拿出点干货。我问的是结构化读取,拿出个方案来,让我崇拜下。######只要有文件解析器就可以,一个自己写,一个用别人完成开源的。 Github 搜索 pdf 即可版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。