Python快速编程技巧
参与文末每日话题讨论,赠送异步新书 异步图书君 而在本文中,我们将看到更多特殊的例子,以便让你更加熟悉Scrapy的两个最重要的类——Request和Response。 1.1 需要登录的爬虫 通常情况下,你会发现自己想要抽取数据的网站存在登录机制。大部分情况下,网站会要求你提供用户名和密码用于登录。你可以从http://web:9312/dynamic(从dev机器访问)或http://localhost:9312/ dynamic(从宿主机浏览器访问)找到我们要使用的例子。如果使用"user"作为用户名,"pass"作为密码的话,你就可以访问到包含3个房产页面链接的网页。不过现在的问题是,要如何使用Scrapy执行相同的操作? 让我们使用Google Chrome浏览器的开发者工具来尝试理解登录的工作过程(见图1.1)。首先,打开Network选项卡(1)。然后,填写用户名和密码,并单击Login(2)。如果用户名和密码正确,你将会看到包含3个链接的页面。如果用户名和密码不匹配,将会看到一个错误页。 图1.1 登录网站时的请求和响应 当按下Login按钮时,会在Google Chr...
