最近在做文件解析的工作,目前用的开源的POI解决doc和docx来解析,但是遇到rtf格式的会报错,请问java通过什么来判断后缀名为.doc的文件到底是word文件还是rtf格式文件呢?
检查文件头,即文件的头几个字节。常见的 MIME Type 解析也是这个原理。因为阁下的需求非常简单,所以这里我也就不推荐用于 MIME 类型判断的第三方封装了。
RTF 定义类型的头几个字节经搜索查询得出是(十六进制):7B 5C 72 74 66
所以只需要读取文件的头五个字节,然后转换成 16 进制形式表现的字符串,再与“7b5c727466”比较即可判断是否为 RTF 类型。
FileInputStream fis = new FileInputStream(file);
byte[] bytes = new byte[5];
fis.read(bytes, 0, bytes.length);
fis.close();
StringBuffer header=new StringBuffer();
for (byte b : bytes) {
String hex=Integer.toHexString(b);
if(hex.length()<2){// 两位以下补〇
header.append('0');
}
header.append(hex);
}
boolean isRTF="7b5c727466".contentEquals(header);
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。