一、场景
文件上传,用户极有可能上传重复文件,内容完全一致。如果对上传的文件未做任何处理,对于文件存储系统来说将是灾难,大量重复的数据,如果允许上传大文件,那么对于存储资源将是巨大的浪费。对于重复的文件,只需要复制相应的访问地址即可,源文件可无需上传,既减轻了网络带宽压力,也减少了存储容量的压力。
二、应对:
1、通过文件名判重。非特殊情况下,不会采用这种方案,理由跟人同名一样,文件名很容易重复,随着用户上升,概率会变大。采用此方案极易导致不能达到判重的目的。
2、读取文件头加部分内容。这种方案可以解决百分之五十的问题,缺点是随着量的上升,重复的概率依然存在。
3、读取文件内容,进行hash计算,通常情况下,这种方案比较可靠,出现误判的概率低。一些分布式文件系统,如fastdfs等也是采取hash的方式进行文件判重。
三、方案
开发语言:java JDK 1.8 IDE:eclipse
机器配置:i5双核 内存4G 64位
四、代码实现
1、org.apache.commons.codec.digest.DigestUtils
publicvoidtest1() Stringpath="your file path"; try { longbegin=System.currentTimeMillis(); Stringmd5=DigestUtils.md5Hex(newFileInputStream(path)); longend=System.currentTimeMillis(); System.out.println(md5); System.out.println("time:"+ ((end-begin) /1000) +"s"); } catch (FileNotFoundExceptione) { e.printStackTrace(); } catch (IOExceptione) { e.printStackTrace(); } }
2、自定义缓冲区实现
publicvoidtest2() { Stringpath="file path"; longbegin=System.currentTimeMillis(); BigIntegerbi=null; try { byte[] buffer=newbyte[8192*10]; intlen=0; MessageDigestmd=MessageDigest.getInstance("MD5"); Filef=newFile(path); FileInputStreamfis=newFileInputStream(f); while ((len=fis.read(buffer)) !=-1) { md.update(buffer, 0, len); } fis.close(); byte[] b=md.digest(); bi=newBigInteger(1, b); } catch (NoSuchAlgorithmExceptione) { e.printStackTrace(); } catch (IOExceptione) { e.printStackTrace(); } Stringmd5=bi.toString(16); longend=System.currentTimeMillis(); System.out.println(md5); System.out.println("time:"+ ((end-begin) /1000) +"s"); }
3、com.twmacinta.util.MD5定义
publicvoidtest3() { Stringpath="file path"; longbegin=System.currentTimeMillis(); try { Stringmd5=MD5.asHex(MD5.getHash(newFile(path))); longend=System.currentTimeMillis(); System.out.println(md5); System.out.println("time:"+ ((end-begin) /1000) +"s"); } catch (IOExceptione) { e.printStackTrace(); } }
4、NIO读取
publicclassMD5FileUtil { /*** 默认的密码字符串组合,用来将字节转换成 16 进制表示的字符,apache校 验下载的文件的正确性用的就是默认的这个组合*/protectedstaticcharhexDigits[] = { '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f' }; protectedstaticMessageDigestmessagedigest=null; static { try { messagedigest=MessageDigest.getInstance("MD5"); } catch (NoSuchAlgorithmExceptione) { e.printStackTrace(); } } /*** 生成文件的md5校验值* @param file 文件路径* @return MD5码返回* @throws IOException*/publicstaticStringgetFileMD5(Filefile) throwsIOException { StringencrStr=""; // 读取文件FileInputStreamfis=newFileInputStream(file); // 当文件<2G可以直接读取if (file.length() <=Integer.MAX_VALUE) { encrStr=getMD5Lt2G(file, fis); } else { // 当文件>2G需要切割读取encrStr=getMD5Gt2G(fis); } fis.close(); returnencrStr; } /*** 小于2G文件* * @param fis 文件输入流* @return* @throws IOException*/publicstaticStringgetMD5Lt2G(Filefile, FileInputStreamfis) throwsIOException { // 加密码StringencrStr=""; FileChannelch=fis.getChannel(); MappedByteBufferbyteBuffer=ch.map(FileChannel.MapMode.READ_ONLY, 0, file.length()); messagedigest.update(byteBuffer); encrStr=bufferToHex(messagedigest.digest()); returnencrStr; } /*** 超过2G文件的md5算法* * @param fileName* @param InputStream* @return* @throws Exception*/publicstaticStringgetMD5Gt2G(InputStreamfis) throwsIOException { // 自定义文件块读写大小,一般为4M,对于小文件多的情况可以降低byte[] buffer=newbyte[1024*1024*4]; intnumRead=0; while ((numRead=fis.read(buffer)) >0) { messagedigest.update(buffer, 0, numRead); } returnbufferToHex(messagedigest.digest()); } /*** * @param bt 文件字节流* @param stringbuffer 文件缓存*/privatestaticvoidappendHexPair(bytebt, StringBufferstringbuffer) { // 取字节中高 4 位的数字转换, >>> 为逻辑右移,将符号位一起右移,此处未发现两种符号有何不同charc0=hexDigits[(bt&0xf0) >>4]; // 取字节中低 4 位的数字转换charc1=hexDigits[bt&0xf]; stringbuffer.append(c0); stringbuffer.append(c1); } privatestaticStringbufferToHex(bytebytes[], intm, intn) { StringBufferstringbuffer=newStringBuffer(2*n); intk=m+n; for (intl=m; l<k; l++) { appendHexPair(bytes[l], stringbuffer); } returnstringbuffer.toString(); } privatestaticStringbufferToHex(bytebytes[]) { returnbufferToHex(bytes, 0, bytes.length); } /*** 判断字符串的md5校验码是否与一个已知的md5码相匹配* @param password 要校验的字符串* @param md5PwdStr 已知的md5校验码* @return*/publicstaticbooleancheckPassword(Stringpassword, Stringmd5PwdStr) { Strings=getMD5String(password); returns.equals(md5PwdStr); } /*** 生成字符串的md5校验值* @param s* @return*/publicstaticStringgetMD5String(Strings) { returngetMD5String(s.getBytes()); } /*** 生成字节流的md5校验值* @param s* @return*/publicstaticStringgetMD5String(byte[] bytes) { messagedigest.update(bytes); returnbufferToHex(messagedigest.digest()); } publicstaticvoidmain(String[] args) throwsIOException { Stringpath="path"; Filebig=newFile(path); longbegin=System.currentTimeMillis(); Stringmd5=getFileMD5(big); longend=System.currentTimeMillis(); System.out.println("md5:"+md5); System.out.println("time "+ (end-begin)); System.out.println("time:"+ ((end-begin) /1000) +"s"); } }
五、测试结果
600M以下:缓冲区 > NIO > MD5 > Apache
600M以上:Apache>缓冲区>NIO>MD5
六、总结
以上数据取样比较分散,可以采用均匀分布样本测试的结果可能更加特近真实效果,也可能得出一个转折点,可根据不同的数据量采用不同的生成模式,其效率有一定差别:
有兴趣的朋友私下可以进行多次测试,可得出更真实的结果
数据以小文件为主的,使用缓冲区生成MD5的方式效率更高,而到了G级别的文件,采用apache的生成方式更高效。上述结果仅供参考,实际情况下请各位根据需要采用不同的生成方式。如有更高效的生成方式,欢迎交流。