[雪峰磁针石博客]MD5值重复文件多进程检查工具check_md5.py - 性能测试工具开发

本文涉及的产品
性能测试 PTS,5000VUM额度
简介: MD5简介 Message Digest Algorithm MD5(中文名为消息摘要算法第五版)为计算机安全领域广泛使用的一种散列函数,用以提供消息的完整性保护。该算法的文件号为RFC 1321(R.Rivest,MIT Laboratory for Computer Science and RSA Data Security Inc. April 1992)。

MD5简介

Message Digest Algorithm MD5(中文名为消息摘要算法第五版)为计算机安全领域广泛使用的一种散列函数,用以提供消息的完整性保护。该算法的文件号为RFC 1321(R.Rivest,MIT Laboratory for Computer Science and RSA Data Security Inc. April 1992)。

MD5即Message-Digest Algorithm 5(信息-摘要算法5),用于确保信息传输完整一致。是计算机广泛使用的杂凑算法之一(又译摘要算法、哈希算法),主流编程语言普遍已有MD5实现。将数据(如汉字)运算为另一固定长度值,是杂凑算法的基础原理,MD5的前身有MD2、MD3和MD4。

MD5算法具有以下特点:

1、压缩性:任意长度的数据,算出的MD5值长度都是固定的。

2、容易计算:从原数据计算出MD5值很容易。

3、抗修改性:对原数据进行任何改动,哪怕只修改1个字节,所得到的MD5值都有很大区别。

4、强抗碰撞:已知原数据和其MD5值,想找到一个具有相同MD5值的数据(即伪造数据)是非常困难的。

MD5的作用是让大容量信息在用数字签名软件签署私人密钥前被"压缩"成一种保密的格式(就是把一个任意长度的字节串变换成一定长的十六进制数字串)。除了MD5以外,其中比较有名的还有sha-1、RIPEMD以及Haval等。

举个实际应用的例子。比如你在百度云qq群文件等上传文件的时候,有时上传几百兆的文件可以几秒内完成,是真的网络有这么快么?不是,通常是服务器已经存在你所上传的文件。那么系统是如何确定服务器已经存在你要上传的文件的呢?多为计算你要上传文件的MD5,如果MD5和已有文件的MD5一致,就认为文件已经存在。

计算MD5

linux 下 shell命令行工具md5sum用于计算与校验RFC 1321所描述的128位MD5哈希值。

$ echo "hello" > hello
$ md5sum hello 
b1946ac92492d2347c6235b4d2611184  hello

上述过程也可以用python3实现

>>> import hashlib
>>> hashlib.md5(open('hello','rb').read()).hexdigest()
'b1946ac92492d2347c6235b4d2611184'

上述代码的函数封装,参见get_md5函数。

[Md5sum 英文维基百科参考](https://en.wikipedia.org/wiki/Md5sum

MD5值重复文件多进程检查工具

测试过程中经常发现MD5值相同的图片。之前没有用并发,检查过程经常需要一个小时,现在改成多进程。一般3分钟以内可以完成处理(48核)。

此模式也是自行开发性能测试工具的模型之一。

代码:


#!/usr/bin/python3
# -*- coding: utf-8 -*-
# Author:    xurongzhong#126.com 技术支持qq群:144081101
# CreateDate: 2018-1-8 
# check_md5.py

import multiprocessing
from pathlib import Path
import argparse
import os

import data_common

def consumer(queue, results, lock):
    while True:
        item = queue.get()
        if item is None:
            break        
        name = os.path.basename(item)
        md5 = data_common.get_md5(item, is_file=True)
        
        with lock:
            if md5 in results:
                print("Same md5", results[md5], name)
            else:
                results[md5] =[]
            results[md5] = results[md5] + [name]


if __name__ == '__main__':
    
    parser = argparse.ArgumentParser()
    parser.add_argument('directory', action="store", help=u'目录')
    parser.add_argument('-t', action="store", dest="typename",
                        default="*", help=u'文件扩展名')
    parser.add_argument('--version', action='version',
                        version='%(prog)s 1.1 Rongzhong xu 2018 03 22')
    options = parser.parse_args()
    
    process = []
    queue = multiprocessing.Queue()
    results = multiprocessing.Manager().dict()
    lock = multiprocessing.Lock()
    if multiprocessing.cpu_count() < 3:
        number = multiprocessing.cpu_count()
    else:
        number = multiprocessing.cpu_count() - 1
    
    # Launch the consumer process
    for i in range(number):
        t = multiprocessing.Process(
            target=consumer,args=(queue, results, lock))
        t.daemon=True
        process.append(t)
    
    for i in range(number):
        process[i].start()
    
    p = Path(options.directory)   
    for item  in p.glob('**/*.{}'.format(options.typename)):
        queue.put(str(item))
        
    for i in range(number):
        queue.put(None) 
        
    for i in range(number):
        process[i].join()       
       
    f = open("md5_files.txt",'w')   
    f2 = open("files.txt",'w')   
    for item in dict(results):
        f2.write("{},{}\n".format(item,results[item]))
        if len(results[item]) > 1:
            f.write("{},{}\n".format(item,results[item]))

演示

#!python
$ python3 check_md5.py /home/andrew/code/paper
Same md5 ['2018.01.07-19.38.15_0.9999967.jpg'] 2018.01.07-19.38.15_0.99999679.jpg
$ cat md5_files.txt 
43c5a6e1dcf79d095e97ce63885c5cd7,['2018.01.07-19.38.15_0.9999967.jpg', '2018.01.07-19.38.15_0.99999679.jpg']
andrew@andrew-PowerEdge-T630:~/code/mobile_data/tools$

注意,求MD5值依赖data_common.py

上面使用的多进程属于python高性能的内容,如需想深入了解可以参考书籍

参考资料

相关实践学习
通过性能测试PTS对云服务器ECS进行规格选择与性能压测
本文为您介绍如何利用性能测试PTS对云服务器ECS进行规格选择与性能压测。
相关文章
|
22天前
|
存储 分布式数据库 API
技术好文:VisualC++查看文件被哪个进程占用
技术好文:VisualC++查看文件被哪个进程占用
|
5天前
|
运维 测试技术 Linux
关于Stress 压力测试工具的介绍与使用
在日益复杂的计算环境中,保证系统的稳定性和性能成为了每个Linux管理员的核心任务。面对不断增长的数据量和业务需求,如何有效评估系统极限和潜在瓶颈? 压力测试工具:stress,成为了不可或缺的助手。这篇记录描述stress工具的使用方法及其在模拟真实负载中的实用性。
关于Stress 压力测试工具的介绍与使用
|
11天前
|
存储 监控 数据可视化
性能测试:主流性能剖析工具介绍
**性能剖析**是识别应用性能瓶颈的关键,涉及指标收集、热点分析、优化建议及可视化报告。常用工具有:**JConsole**监控JVM,**VisualVM**多合一分析,**JStack**分析线程,**FlameGraph**展示CPU耗时,**SkyWalking**分布式跟踪,**Zipkin**追踪服务延迟。这些工具助力开发人员提升系统响应速度和资源效率。
19 1
|
15天前
|
小程序 Linux
【编程小实验】利用Linux fork()与文件I/O:父进程与子进程协同实现高效cp命令(前半文件与后半文件并行复制)
这个小程序是在文件IO的基础上去结合父子进程的一个使用,利用父子进程相互独立的特点实现对数据不同的操作
|
19天前
|
监控 Java 测试技术
Java性能测试与调优工具使用指南
Java性能测试与调优工具使用指南
|
21天前
|
人工智能 测试技术 索引
基于LangChain手工测试用例生成工具
使用Python的LangChain框架,测试工程师能自动化从需求文档生成思维导图。代码示例演示了如何加载文档,提取信息,创建向量索引,执行检索,并通过PlantUML生成MindMap图像。流程中,AI替代了手动梳理需求和创建测试用例的过程,涉及的关键组件包括TextLoader、OpenAIEmbeddings、FAISS检索和AgentExecutor。该实践帮助掌握LangChain的检索和Agent功能,以实现文档到测试用例的智能转换。
24 1
|
24天前
|
测试技术 Windows
软件测试之 性能测试 性能测试基础指标 Loadrunner、Jmeter等工具(下)
软件测试之 性能测试 性能测试基础指标 Loadrunner、Jmeter等工具(下)
24 2
|
9天前
|
机器学习/深度学习 人工智能 Java
现代软件测试中的自动化工具与挑战
在当今快节奏的软件开发环境中,自动化测试工具发挥着越来越重要的作用。本文探讨了现代软件测试中自动化工具的关键作用、常见挑战以及应对策略。通过深入分析各种自动化工具在提高效率、减少成本和增强质量方面的优势,我们揭示了如何克服技术和组织上的障碍,实现软件测试的最佳实践。 【7月更文挑战第11天】
16 0
|
11天前
|
Java 测试技术 Maven
在Java项目中集成单元测试与覆盖率工具
在Java项目中集成单元测试与覆盖率工具
|
14天前
|
Linux
c创建压缩文件,用于压缩模式,-v显示压缩进程,-x解压模式,-f创建的文件,解压文件,tar -cvf
c创建压缩文件,用于压缩模式,-v显示压缩进程,-x解压模式,-f创建的文件,解压文件,tar -cvf