java使用poi读取doc和docx文件-阿里云开发者社区

java使用poi读取doc和docx文件

2016-07-22 4510

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 这几天在学习java io流的东西，有一个网友看到博客后问了一个问题，就是说他的doc文档为什么用我所说的方法死活就是乱码。我一开始以为是他方法问题，结果自己试了之后发现和他的结果一样也是乱码。于是在网上搜寻了一阵之后才发现原来doc文档和excel一样不能用普通的io流的方法来读取，而是也需要用poi，于是进行了一番尝试后，终于以正确的编码格式

这几天在学习java io流的东西，有一个网友看到博客后问了一个问题，就是说他的doc文档为什么用我所说的方法死活就是乱码。

我一开始以为是他方法问题，结果自己试了之后发现和他的结果一样也是乱码。

于是在网上搜寻了一阵之后才发现原来doc文档和excel一样不能用普通的io流的方法来读取，而是也需要用poi，于是进行了一番尝试后，终于以正确的编码格式读取了这个doc文件。

在网上搜索的过程中发现doc和docx的读取方法是不一样的，于是顺带也学了一下docx文件的简单读取。

一、导包：
doc文件的读取，需要导入poi-scratchpad的jar包和相关依赖包：
这里写图片描述

docx文件读取，需要导入poi-ooxml的jar包和相关依赖包：
这里写图片描述

我用的是maven构建项目，相关的依赖包会自动导入，maven导包配置如下：

 <dependency>
        <groupId>org.apache.poi</groupId>
        <artifactId>poi-ooxml</artifactId>
        <version>3.8</version>
    </dependency>
    <dependency>
        <groupId>org.apache.poi</groupId>
        <artifactId>poi-scratchpad</artifactId>
        <version>3.8</version>
    </dependency>

二、读取文件的代码：
1、doc文件读取简单示例：

public static void readAndWriterTest3() throws IOException {
        File file = new File("C:\\Users\\tuzongxun123\\Desktop\\aa.doc");
        String str = "";
        try {
            FileInputStream fis = new FileInputStream(file);
            HWPFDocument doc = new HWPFDocument(fis);
            String doc1 = doc.getDocumentText();
            System.out.println(doc1);
            StringBuilder doc2 = doc.getText();
            System.out.println(doc2);
            Range rang = doc.getRange();
            String doc3 = rang.text();
            System.out.println(doc3);
            fis.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

2、docx文件读取简单示例：

public static void readAndWriterTest4() throws IOException {
        File file = new File("C:\\Users\\tuzongxun123\\Desktop\\aa.docx");
        String str = "";
        try {
            FileInputStream fis = new FileInputStream(file);
            XWPFDocument xdoc = new XWPFDocument(fis);
            XWPFWordExtractor extractor = new XWPFWordExtractor(xdoc);
            String doc1 = extractor.getText();
            System.out.println(doc1);
            fis.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

java使用poi读取doc和docx文件

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

java使用poi读取doc和docx文件

热门文章

最新文章

相关课程

相关电子书