论__大量文本内容去重的方式

简介:

论__大量文本内容去重的方式


本文由 Luzhuo 编写,请尊重个人劳动成果,转发请保留该信息.
原文: http://blog.csdn.net/Rozol/article/details/50640179
微博: http://weibo.com/u/2524456400


最近拿到大量的文本文件,文件的大小少个几十M,多则几十G,这么多且大的文本想必有很多的文本是重复的,于是相对它进行去重.
想出了第一种方案,没想到内存很快就被撑爆了,于是想出了第二种方案,不过那个效率,不好意思说了.
网上说的根据哈希码和文本长度对文本进行快速去重的方案一点都不靠谱,因为哈希码和长度一样的文本内容实在是太多了.

结论

  • 第一种方案速度比第一种方案快,但是对内存要求高,而且顺序可能会乱掉.
  • 第二种方案速度非常慢,不过对内存要求不高,可以放在云端处理^-^.

方案一

  • 使用这种方案的结果将会是这样的(完全就是拼内存),于是就想出了方案二

方案二

GitHub Code

代码寄托在Github上,有兴趣的可以去看看.
代码: https://github.com/LZLuzhuo/QuickClearRepeat
另外我想告诉你用 哈希码和长度 有多不靠谱.文件也存在Github上.

目录
相关文章
|
10月前
|
人工智能 测试技术 异构计算
TangoFlux:高速生成高质量音频,仅用3.7秒生成长达30秒的音频,支持文本到音频转换
TangoFlux 是由英伟达与新加坡科技设计大学联合开发的文本到音频生成模型,能够在3.7秒内生成30秒的高质量音频,支持文本到音频的直接转换和用户偏好优化。
336 6
TangoFlux:高速生成高质量音频,仅用3.7秒生成长达30秒的音频,支持文本到音频转换
|
7月前
|
机器学习/深度学习 自然语言处理 人机交互
重磅发布|支持东方40语种+中国22方言的新SOTA语音大模型Dolphin开源啦!
在当今数字化时代,语音识别技术已成为人机交互的关键桥梁,广泛应用于智能客服、语音助手、会议转录等众多领域。
512 0
|
Kubernetes 容器
探究kubernetes 探针参数periodSeconds和timeoutSeconds
探究kubernetes 探针参数periodSeconds和timeoutSeconds
208 1
|
监控 固态存储 算法
如何进行硬盘碎片整理?
【10月更文挑战第1天】如何进行硬盘碎片整理?
748 2
|
存储 Java 索引
Java 中 ArrayList 和 LinkedList 之间的区别
【8月更文挑战第22天】
321 1
|
机器学习/深度学习 人工智能 弹性计算
智能化运维:AI在故障预测与自我修复系统中的应用
随着技术的不断进步,传统的运维模式已逐渐不能满足现代企业的需求。本文将探讨如何通过人工智能技术,特别是机器学习和深度学习算法,实现对IT系统的实时监控、故障预测以及自动化修复。我们将分析AI技术在智能运维中的具体应用案例,并讨论其带来的效率提升和成本节约效果。文章旨在为读者提供一种全新的运维视角,展示AI技术在提高系统稳定性和减少人工干预方面的潜力。
|
传感器 自动驾驶 安全
无人驾驶汽车对人民的出行方式和生活方式产生了深远的影响
无人驾驶汽车对人民的出行方式和生活方式产生了深远的影响
无人驾驶汽车对人民的出行方式和生活方式产生了深远的影响
|
存储 算法 数据处理
LabVIEW FPGA开发NI sbRIO-9607高精度数字滤波器
LabVIEW FPGA开发NI sbRIO-9607高精度数字滤波器
238 5
|
测试技术 决策智能
专业智能体指导让小模型学会数学推理!微调Mistral-7B实现86.81%准确率
【5月更文挑战第13天】Orca-Math研究展示如何用小模型解决小学数学题,通过70亿参数的SLM在GSM8K基准测试上达到86.81%准确率。采用合成数据集和迭代学习技术,包括多智能体协作创建问题集及“偏好学习”优化解决方案。虽优于其他大、小模型,但可能不适用于复杂数学问题,且依赖高质量合成数据集的创建。[论文链接](https://arxiv.org/abs/2402.14830)
353 4
|
分布式计算 DataWorks NoSQL
MaxCompute产品使用合集之如何操作和管理节点
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
302 0