关于RTF格式解析和doc格式解析的问题-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

关于RTF格式解析和doc格式解析的问题

最近在做文件解析的工作,目前用的开源的POI解决doc和docx来解析,但是遇到rtf格式的会报错,请问java通过什么来判断后缀名为.doc的文件到底是word文件还是rtf格式文件呢?

展开
收起
蛮大人123 2016-03-06 15:48:45 2645 0
1 条回答
写回答
取消 提交回答
  • 蛮大人123
    我说我不帅他们就打我,还说我虚伪

    检查文件头,即文件的头几个字节。常见的 MIME Type 解析也是这个原理。因为阁下的需求非常简单,所以这里我也就不推荐用于 MIME 类型判断的第三方封装了。
    RTF 定义类型的头几个字节经搜索查询得出是(十六进制):7B 5C 72 74 66
    所以只需要读取文件的头五个字节,然后转换成 16 进制形式表现的字符串,再与“7b5c727466”比较即可判断是否为 RTF 类型。

    FileInputStream fis = new FileInputStream(file);
    byte[] bytes = new byte[5];
    fis.read(bytes, 0, bytes.length);
    fis.close();
    StringBuffer header=new StringBuffer();
    for (byte b : bytes) {
        String hex=Integer.toHexString(b);
        if(hex.length()<2){// 两位以下补〇
            header.append('0');
        }
        header.append(hex);
    }
    boolean isRTF="7b5c727466".contentEquals(header);
    2019-07-17 18:54:46
    赞同 展开评论 打赏
问答排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载