[雪峰磁针石博客]MD5值重复文件多进程检查工具check_md5.py - 性能测试工具开发
MD5简介
Message Digest Algorithm MD5(中文名为消息摘要算法第五版)为计算机安全领域广泛使用的一种散列函数,用以提供消息的完整性保护。该算法的文件号为RFC 1321(R.Rivest,MIT Laboratory for Computer Science and RSA Data Security Inc. April 1992)。
MD5即Message-Digest Algorithm 5(信息-摘要算法5),用于确保信息传输完整一致。是计算机广泛使用的杂凑算法之一(又译摘要算法、哈希算法),主流编程语言普遍已有MD5实现。将数据(如汉字)运算为另一固定长度值,是杂凑算法的基础原理,MD5的前身有MD2、MD3和MD4。
MD5算法具有以下特点:
1、压缩性:任意长度的数据,算出的MD5值长度都是固定的。
2、容易计算:从原数据计算出MD5值很容易。
3、抗修改性:对原数据进行任何改动,哪怕只修改1个字节,所得到的MD5值都有很大区别。
4、强抗碰撞:已知原数据和其MD5值,想找到一个具有相同MD5值的数据(即伪造数据)是非常困难的。
MD5的作用是让大容量信息在用数字签名软件签署私人密钥前被"压缩"成一种保密的格式(就是把一个任意长度的字节串变换成一定长的十六进制数字串)。除了MD5以外,其中比较有名的还有sha-1、RIPEMD以及Haval等。
举个实际应用的例子。比如你在百度云qq群文件等上传文件的时候,有时上传几百兆的文件可以几秒内完成,是真的网络有这么快么?不是,通常是服务器已经存在你所上传的文件。那么系统是如何确定服务器已经存在你要上传的文件的呢?多为计算你要上传文件的MD5,如果MD5和已有文件的MD5一致,就认为文件已经存在。
计算MD5
linux 下 shell命令行工具md5sum用于计算与校验RFC 1321所描述的128位MD5哈希值。
$ echo "hello" > hello $ md5sum hello b1946ac92492d2347c6235b4d2611184 hello
上述过程也可以用python3实现
>>> import hashlib >>> hashlib.md5(open('hello','rb').read()).hexdigest() 'b1946ac92492d2347c6235b4d2611184'
上述代码的函数封装,参见get_md5函数。
[Md5sum 英文维基百科参考](https://en.wikipedia.org/wiki/Md5sum)
MD5值重复文件多进程检查工具
测试过程中经常发现MD5值相同的图片。之前没有用并发,检查过程经常需要一个小时,现在改成多进程。一般3分钟以内可以完成处理(48核)。
此模式也是自行开发性能测试工具的模型之一。
代码:
#!/usr/bin/python3 # -*- coding: utf-8 -*- # Author: xurongzhong#126.com 技术支持qq群:144081101 # CreateDate: 2018-1-8 # check_md5.py import multiprocessing from pathlib import Path import argparse import os import data_common def consumer(queue, results, lock): while True: item = queue.get() if item is None: break name = os.path.basename(item) md5 = data_common.get_md5(item, is_file=True) with lock: if md5 in results: print("Same md5", results[md5], name) else: results[md5] =[] results[md5] = results[md5] + [name] if __name__ == '__main__': parser = argparse.ArgumentParser() parser.add_argument('directory', action="store", help=u'目录') parser.add_argument('-t', action="store", dest="typename", default="*", help=u'文件扩展名') parser.add_argument('--version', action='version', version='%(prog)s 1.1 Rongzhong xu 2018 03 22') options = parser.parse_args() process = [] queue = multiprocessing.Queue() results = multiprocessing.Manager().dict() lock = multiprocessing.Lock() if multiprocessing.cpu_count() < 3: number = multiprocessing.cpu_count() else: number = multiprocessing.cpu_count() - 1 # Launch the consumer process for i in range(number): t = multiprocessing.Process( target=consumer,args=(queue, results, lock)) t.daemon=True process.append(t) for i in range(number): process[i].start() p = Path(options.directory) for item in p.glob('**/*.{}'.format(options.typename)): queue.put(str(item)) for i in range(number): queue.put(None) for i in range(number): process[i].join() f = open("md5_files.txt",'w') f2 = open("files.txt",'w') for item in dict(results): f2.write("{},{}\n".format(item,results[item])) if len(results[item]) > 1: f.write("{},{}\n".format(item,results[item]))
演示
#!python $ python3 check_md5.py /home/andrew/code/paper Same md5 ['2018.01.07-19.38.15_0.9999967.jpg'] 2018.01.07-19.38.15_0.99999679.jpg $ cat md5_files.txt 43c5a6e1dcf79d095e97ce63885c5cd7,['2018.01.07-19.38.15_0.9999967.jpg', '2018.01.07-19.38.15_0.99999679.jpg'] andrew@andrew-PowerEdge-T630:~/code/mobile_data/tools$
注意,求MD5值依赖data_common.py
上面使用的多进程属于python高性能的内容,如需想深入了解可以参考书籍 。
参考资料
- 讨论 钉钉免费群21745728 qq群144081101 567351477
- 本文涉及的python测试开发库,谢谢点赞!
- 本文相关书籍下载
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Python网络编程(基础总结 入门经典)
Linux下文件类型: bcd -lsp b(块、设备文件) c(字符设备文件) d(目录) -(普通文件) l(链接文件) s(套接字文件) p(管道文件) kill -sig pid:通过pid发送信号杀死指定进程 kill -l:查看操作系统内所所有sig信号 ps -aux ---> STAT表示进程状态 信号: SIGHUP 断开链接 SIGINT Ctrl + c SIGQUIT Ctrl + \ SIGTSTP Ctrl + z SIGKILL 终止进程且不能被处理 SIGSTOP 暂停进程且不能被处理 SIGALRM 时钟信号 SIGCHLD 子进程改变状态时父进程会收到此信号 OSI七层模型 -----> 网络通信的标准化流程 应用层: 提供用户服务,具体的内容由特定的程序规定 表示层: 提供数据的加密和压缩优化 会话层: 确定建立应用链接,选择传输服务 传输层: 提供数据传输服务,进行流量控制 网络层: 路由选着,网络互联 ...
- 下一篇
[雪峰磁针石博客]可爱的python测试开发库
欢迎转载,转载请注明来源:github地址 谢谢点赞 相关书籍下载 测试开发 Web UI测试自动化 splinter - web UI测试工具,基于selnium封装。 链接 selenium - web UI自动化测试。 链接 --推荐 文档参考 mechanize- Python中有状态的程序化Web浏览。链接 selene - 使用Python + Ajax支持+ PageObjects + Widgets进行简明UI测试 链接 hitch - 基于服务的应用程序的高级集成测试框架。链接 Needle - Css 自动化测试框架。链接 seleniumbase - 端到端自动化测试框架。链接 pytest_splinter - pytest spinter和selenium集成。 链接 Browsermob Proxy - Browsermob Proxy的python包装器。 链接 Selenium-Requests - 扩展Selenium WebDriver类以包含请求库中的请求函数,同时完成所有需要的cookie和请求头处理。链接 移动测试自动化 appium - 移动...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8编译安装MySQL8.0.19
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Hadoop3单机部署,实现最简伪集群
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果