Python实战 | 如何一次检查大量网页是否更新?
以Python写一个自动检查多个网址是否更新的程式,可以追踪相关网页的最新动态
因为小编工作需要,不时要检查一大堆网站是否有更新或变动,如一些技术博主是否有最新公布的文章,公司的研究部是否发布了最新研究,这些网站不少是没有提供电邮提示,又或RSS的,因此今次以Python写一个自动检查多个网址是否更新的程序,可以追踪相关网页的最新动态。
如何检查一个网页是否有改动呢?理论上当然可以把网页的内容全部下载,然后与上一次下载的内容逐字逐句比较,但这颇为费时失事,较有效率的做法,是比较其杂凑值(hash value)。杂凑值的原理,是把一些资料输入到密码演算法,然后加密成一个固定长度的字串。以MD5的演算法来举例,如果将"carrie lam"以md5加密,则会得出一个32个字符长的杂凑值"2383d47724fe0ec51c1384d404fc3487",若果将"carrie lam"改成"karrie lam",杂凑值便变成"4fc21c59f233f52de83c4e61d6b8ccc5",虽然只是差之毫厘,但其杂凑值已面目全非。
杂凑值的另一个特性,是无论输入多大的数据量,其杂凑值都是一个固定长度的字符,就算你把整个harddisk的数据、或一出电影的档案数据输入,其MD5杂凑值都是32个字符。虽然输入的组合无限,而32个字符的组合看似有限,但都可以确保不同组合出现相同杂凑值的可能性极低,因此杂凑值已被广泛应用于不同用途。加密货币如比特币,便大量应用杂凑值来把交易数据加密,及加入区块链。不过,由于MD5已被破解,故此比特币使用的是更先进的SHA-256及椭圆曲线加密法( Elliptic Curve Digital Signature Algorithm)。
这次制作的这个程序,就是把网页的整页资料下载,并以MD5算法计算其杂凑值,然后与上一次的杂凑值比较,若两者不同,即代表网页已有资料改变,这时便会通知用户。当然,这个简单的程式有其限制,就是即使网页有改变,也不一定是用户想知的资料,用户还是要亲自检查,同时,有些网页可能动态改变内容,令本程式以为网页每次都在更新。
本程序的用处,不是追踪那些更新频密的网页,如新闻网站,而是一些只会间竭性更新的网页,如企业网站或政府部门网页,如果用户需要追踪数十至上百个这些网页,则本程式是一个帮倒忙的选择。
回到程式本身,其结构很简单,用户只需要在名为site的list中,输入自己要追踪的网页,程式会建立一个json档案,然后把网址及其杂凑值存入,在下次再执行程式时,便会比较网址最新的杂凑值与上次储存的杂凑值是否一致,若否则指出网页有更新或变动。用户可以自由修改或增删网页名单,程式会自动更新json档案,但若是新加入site名单中的网页,由于之前未有计算杂凑值,故此首次检查都表明是有更新。
Github传送门:
checksiteupdate.py
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
区块链开发公司浅析区块链技术对银行的影响
区块链技术是一种具备去中心化、高安全性、信用成本低、无法篡改和公开透明等特点的基于互联网的分布式账本技术。它提供了一种新的信用创造机制,在金融领域表现出广泛的应用前景,因此也理所当然地成为人们进来热议的话题。 目前的证券发行与交易流程繁杂,效率低下。而区块链在这个领域的应用则有以下三个价值: 第一,区块链可以使证券交易的流程更简洁、透明、快速,证券公司在这个时候往往只提供投资建议等咨询服务,更像是专家顾问的角色。 第二,区块链能够近乎实时地记录交易者的身份、交易量等关键信息,有利于证券发行者更快速清晰地了解发行情况,提升商业决策效率;同时,区块链基础上的公开透明又可追踪的电子记录系统能够降低暗箱操作、内幕交易的可能性,有利于证券发行者和监管部门维护市场公正,信息不对称带来的代理成本大大降低。 第三,区块链使得许多证券的交易日和交割日的时间间隔从以天计算缩短至以分钟计算,极大地减少了交易延迟和交易风险,提高了证券交易的效率和可控性,信息的传递也更加流畅。 为了在区块链时代生存下去,证券公司需要强化软件应用开发能力,掌握区块链技术和设计理念,设计出更好的产品,以吸引投资者关注,证券公司的专...
- 下一篇
驰骋股市!手把手教你如何用Python和数据科学赚钱?
金融领域或许是数据科学应用场景中最充满想象力的部分,毕竟它跟财富结合地无比紧密。 不管是否是经济达人,数据科学都是一种帮你了解一支股票的高效方式。本文作者把数据科学和机器学习技术应用到金融领域中,向你展示如何通过数据分析的方式驰骋股市,搭建自己的金融模型! 让我们先了解一些基本定义。 定义和假设 什么是交易算法? Quantopian定义: 交易算法是一种计算机程序,它定义了一套买卖资产的规则。大多数交易算法基于研究历史数据得出的数学或统计模型来做出决策。 我们使用什么平台? 我使用Anaconda, Jupyter Notebooks, 和 PyCharm实现Python建模,使用这些工具非常容易。但是,你也可以使用Quantopian平台内置内核工具,或者甚至可以根据需要将代码修改为R或者其他语言。 我使用Mac系统,并将全程分享所
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
-
Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8编译安装MySQL8.0.19
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
推荐阅读
最新文章
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Mario游戏-低调大师作品
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS7,CentOS8安装Elasticsearch6.8.6
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- CentOS6,CentOS7官方镜像安装Oracle11G
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2配置默认Tomcat设置,开启更多高级功能