Python爬虫技巧
在本文中,我们将分析几个真实网站,来看看我们在《用Python写网络爬虫(第2版)》中学过的这些技巧是如何应用的。首先我们使用Google演示一个真实的搜索表单,然后是依赖JavaScript和API的网站Facebook,接下来是典型的在线商店Gap。由于这些都是活跃的网站,因此读者在阅读本书时这些网站存在已经发生变更的风险。 《用Python写网络爬虫(第2版)》 [德] 凯瑟琳,雅姆尔著 不过这样也好,因为本文示例的目的是为了向你展示如何应用前面所学的技术,而不是展示如何抓取任何网站。当你选择运行某个示例时,首先需要检查网站结构在示例编写后是否发生过改变,以及当前该网站的条款与条件是否禁止了爬虫。 在本文中,我们将介绍如下主题: 抓取Google搜索结果网页; 调研Facebook的API; 在Gap网站中使用多线程; “Google搜索引擎” 为了了解我们对CSS选择器知识的使用情况,我们将会抓取Google的搜索结果。根据中Alexa的数据,Google是全世界最流行的网站之一,而且非常方便的是,该网站结构简单,易于抓取。 图1.1所示为Google搜索主页使用浏览器工具...