论__HashCode和内容Length做快速去重有多不靠谱
本文由 Luzhuo 编写,请尊重个人劳动成果,转发请保留该信息.
原文: http://blog.csdn.net/Rozol/article/details/50640258
微博: http://weibo.com/u/2524456400
最近拿到大量的文本文件,文件的大小少个几十M,多则几十G,这么多且大的文本想必有很多的文本是重复的,于是想对它进行去重.
于是想出两种方案,见 Blog:http://blog.csdn.net/Rozol/article/details/50640179
例子
- !@#$%allen = zzzzbanana
- .llllllll = 00000000.
- 000000000p = 0000000022
- 004tttttt = 158520520
- 004water = 00年9月10日
- 0099887722 = canelaheng
- 012345pian = 1996-11-15
- 03/08/1992 = mishkaming
- 1234567yjo = 1234567zLP
- ballo = ban01
- bianzuo = archiepeng
- 更多请看Github上的The hashcode and length is equal, but different contents.txt文件
结论
- 504,2424条数据中有19,2509对数据的HashCode和Length是相同的(不重复),这么高的几率(7.64%),这有多不靠谱.
- 提取的文件已经寄存在Github上,感兴趣可以去看看.
- Github:The hashcode and length is equal, but different contents.txt