论__大量文本内容去重的方式

简介:

论__大量文本内容去重的方式


本文由 Luzhuo 编写,请尊重个人劳动成果,转发请保留该信息.
原文: http://blog.csdn.net/Rozol/article/details/50640179
微博: http://weibo.com/u/2524456400


最近拿到大量的文本文件,文件的大小少个几十M,多则几十G,这么多且大的文本想必有很多的文本是重复的,于是相对它进行去重.
想出了第一种方案,没想到内存很快就被撑爆了,于是想出了第二种方案,不过那个效率,不好意思说了.
网上说的根据哈希码和文本长度对文本进行快速去重的方案一点都不靠谱,因为哈希码和长度一样的文本内容实在是太多了.

结论

  • 第一种方案速度比第一种方案快,但是对内存要求高,而且顺序可能会乱掉.
  • 第二种方案速度非常慢,不过对内存要求不高,可以放在云端处理^-^.

方案一

  • 使用这种方案的结果将会是这样的(完全就是拼内存),于是就想出了方案二

方案二

GitHub Code

代码寄托在Github上,有兴趣的可以去看看.
代码: https://github.com/LZLuzhuo/QuickClearRepeat
另外我想告诉你用 哈希码和长度 有多不靠谱.文件也存在Github上.

目录
相关文章
|
16天前
|
Java API Apache
Java编程如何读取Word文档里的Excel表格,并在保存文本内容时保留表格的样式?
【10月更文挑战第29天】Java编程如何读取Word文档里的Excel表格,并在保存文本内容时保留表格的样式?
71 5
|
6月前
|
API Python
可以将文本按照每一批5000个字符进行分割,然后依次调用批量翻译接口进行翻译
可以将文本按照每一批5000个字符进行分割,然后依次调用批量翻译接口进行翻译
43 1
|
6月前
|
存储 自然语言处理
QT案例词典 -- 存储内容及遍历
QT案例词典 -- 存储内容及遍历
48 1
|
SQL JavaScript 关系型数据库
API接口获得数据后处理JS数组(包含字符串对象)分组、过滤和筛选的解决方案
API接口获得数据后处理JS数组(包含字符串对象)分组、过滤和筛选的解决方案
161 0
|
存储 C++
QTextStream文本流用法(一)
QTextStream文本流用法(一)
|
移动开发 Python
批量查找文本中的内容
@echo off findstr /ims "查找内容" *.*>list.txtps:把含有相关文字内容的文档输出到list.txt文本中,适用于能用notepad打开的各种文档.   是一个修改升级的版本,原程序是这个《批量查找替换文本文件内容》。
1054 0
|
Python
python编程:合并文本_利用列表或字典将两个通讯录文本合并-7
python编程:合并文本_利用列表或字典将两个通讯录文本合并-7
184 0
对乱序的文本内容进行排序
对文本内容进行排序 /* 1.创建一个HashMap集合对象,可以:存储每行文本的序号(1,2,3,..);value:存储每行的文本 2.创建字符缓冲输入流对象,构造方法中绑定字符输入流 3.创建字符缓冲输出流对象,构造方法中绑定字符输出流 4.使用字符缓冲输入流中的方法readLine(),逐行
|
Linux BI Shell
文本排序与搜索命令 | 学习笔记
快速学习文本排序与搜索命令。
111 0
|
Python
python编程:合并文本_利用列表或字典将两个通讯录文本合并
python编程:合并文本_利用列表或字典将两个通讯录文本合并
254 0