最近项目中有个读取word文档的需求,需要把word文档中的目录结构及目录下的内容读取出来存到数据库中,poi需要能实现相关功能,但是需要自己解析文档结构,而且对2003的支持也不是很好,想问下有没有现成的类库,可以直接拿到word的文档目录结构,及每个标题的内容,收费的也可以,请大家帮帮忙,谢谢……
-**--*-
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
POI好像实现不了,如果是Word XML可式的文件格式,用Java自己解析就可以了。二进制的DOC目前无解。
######@勤奋的码农 jacob试过吗,不过MS很久没有更新过了。######POI到是可以自己通过解析实现,但是想找个现成的,不知道有没有,收费的也可以######
POI不可以么?好吧,POI没用过,不是十分清楚。
不过doc不是无解的,有解析doc的库,不过是C#的,java的还没有看到。
那就只好用大招了,一个是自己解析(微软有doc格式说明),一个是用libreoffice的sdk或源码
######这有个帖子是关于read Word document 目录结构的,你可以看一下
http://bbs.csdn.net/topics/360073389
http://social.msdn.microsoft.com/Forums/vstudio/zh-CN/6cdc3ab0-1018-4f4c-9793-84b89128d838/cwordtxt?forum=visualcshartzhchs
######
https://my.oschina.net/u/3410302/blog/3048377