Python实战 | 如何一次检查大量网页是否更新?
以Python写一个自动检查多个网址是否更新的程式,可以追踪相关网页的最新动态 因为小编工作需要,不时要检查一大堆网站是否有更新或变动,如一些技术博主是否有最新公布的文章,公司的研究部是否发布了最新研究,这些网站不少是没有提供电邮提示,又或RSS的,因此今次以Python写一个自动检查多个网址是否更新的程序,可以追踪相关网页的最新动态。 如何检查一个网页是否有改动呢?理论上当然可以把网页的内容全部下载,然后与上一次下载的内容逐字逐句比较,但这颇为费时失事,较有效率的做法,是比较其杂凑值(hash value)。杂凑值的原理,是把一些资料输入到密码演算法,然后加密成一个固定长度的字串。以MD5的演算法来举例,如果将"carrie lam"以md5加密,则会得出一个32个字符长的杂凑值"2383d47724fe0ec51c1384d404fc3487",若果将"carrie lam"改成"karrie lam",杂凑值便变成"4fc21c59f233f52de83c4e61d6b8ccc5",虽然只是差之毫厘,但其杂凑值已面目全非。 杂凑值的另一个特性,是无论输入多大的数据量,其杂凑值都是...