这是我最想推荐给程序员们看的基于Python3.4实现的爬虫书
互联网包含了迄今为止最有用的数据集,并且大部分可以免费公开访问。但是,这些数据难以复用。它们被嵌入在网站的结构和样式当中,需要抽取出来才能使用。从网页中抽取数据的过程又称为网络爬虫,随着越来越多的信息被发布到网络上,网络爬虫也变得越来越有用。 今天介绍的这一本书《用Python写网络爬虫(第2版)》是Python网络爬虫畅销图书全新升级版,上一版年度畅销近4万册,而本书针对Python 3.x编写,提供示例完整源码和实例网站搭建源码,确保你可以在本地成功复现爬取网站环境,并保障网站的稳定性与可靠性以及代码运行结果的可再现性。书中使用的所有代码均已使用Python 3.4+测试通过,并且可以在异步社区下载到。 点击链接查看更多详情 “网络爬虫何时有用” 假设我有一个鞋店,并且想要及时了解竞争对手的价格。我可以每天访问他们的网站,与我店铺中鞋子的价格进行对比。但是,如果我店铺中的鞋类品种繁多,或是希望能够更加频繁地查看价格变化的话,就需要花费大量的时间,甚至难以实现。再举一个例子,我看中了一双鞋,想等到它促销时再购买。我可能需要每天访问这家鞋店的网站来查看这双鞋是否降价,也许需要等待几个月...