Python爬虫使用浏览器的cookies:browsercookie
技术文章来源于猿人学Python教程,如需转载,请加猿人学Python公众号联系。
很多用Python的人可能都写过网络爬虫,自动化获取网络数据确实是一件令人愉悦的事情,而Python很好的帮助我们达到这种愉悦。然而,爬虫经常要碰到各种登录、验证的阻挠,让人灰心丧气(网站:天天碰到各种各样的爬虫抓我们网站,也很让人灰心丧气~)。爬虫和反爬虫就是一个猫和老鼠的游戏,道高一尺魔高一丈,两者反复纠缠。
由于http协议的无状态性,登录验证都是通过传递cookies来实现的。通过浏览器登录一次,登录信息的cookie是就会被浏览器保存下来。下次再打开该网站时,浏览器自动带上保存的cookies,只有cookies还未过期,对于网站来说你就还是登录状态的。
browsercookie模块就是这样一个从浏览器提取保存的cookies的工具。它是一个很有用的爬虫工具,通过加载你浏览器的cookies到一个cookiejar对象里面,让你轻松下载需要登录的网页内容。
安装
pip install browsercookie
在Windows系统中,内置的sqlite模块在加载FireFox数据库时会抛出错误。需要更新sqlite的版本:
pip install pysqlite
使用方法
下面是从网页提取标题的例子:
>>> import re >>> get_title = lambda html: re.findall('<title>(.*?)</title>', html, flags=re.DOTALL)[0].strip()
下面是未登录状况下下载得到的标题:
>>> import urllib2 >>> url = 'https://bitbucket.org/' >>> public_html = urllib2.urlopen(url).read() >>> get_title(public_html) 'Git and Mercurial code management for teams'
接下来使用browsercookie从登录过Bitbucket的FireFox里面获取cookie再下载:
>>> import browsercookie >>> cj = browsercookie.firefox() >>> opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) >>> login_html = opener.open(url).read() >>> get_title(login_html) 'richardpenman / home — Bitbucket'
上面是Python2的代码,再试试 Python3:
>>> import urllib.request >>> public_html = urllib.request.urlopen(url).read() >>> opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
你可以看到你的用户名出现在title里面了,说明browsercookie模块成功从FireFox加载了cookies。
下面是使用requests的例子,这次我们从Chrome里面加载cookies,当然你需要事先用Chrome登录Bitbucket:
>>> import requests >>> cj = browsercookie.chrome() >>> r = requests.get(url, cookies=cj) >>> get_title(r.content) 'richardpenman / home — Bitbucket'
如果你不知道或不关心那个浏览器有你需要的cookies,你可以这样操作:
>>> cj = browsercookie.load() >>> r = requests.get(url, cookies=cj) >>> get_title(r.content) 'richardpenman / home — Bitbucket'
支持
目前,该模块支持以下平台:
**Chrome: Linux, OSX, Windows
Firefox: Linux, OSX, Windows**
目前该模块测试过的浏览器版本还不是很多,你使用过程中可能会遇到问题,可以向作者提交问题:
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
零基础搭建PHP本地环境并安装WordPress网站(图文指导)
搭建PHP本地环境前言 以前在大学课堂上学过一点JAVA, PHP. 因为那时是零基础,需要自己搭建APACH, MYSQL, PHPADMIN过程挺烦的,本地环境都不知道是啥,但是做出来结果却很高兴。出来后也做过网站,但是很久不弄就忘记了,我算建站的“半吊子”。只比零基础多一点点。所以我写这篇文章给新手一些指导,并让我自己以后再次建站也有参考。(我也是百度过很多才渐渐熟悉的,所以我觉得我自己写的应该对新手很有帮助) 【本地环境就是你的网站还没有上线,但是想在自己电脑看一下网站搭建后的效果。你在自己电脑做了一个可以看效果的环境。也就是测试环境。】 目前60%以上的网站都是使用Wordpress模版(PHP语言编写的),所以这里只教大家建立PHP本地环境搭建。 新手做网站,还要上线,输入域名可以访问很新奇,但得先看这篇“搭建PHP本地环境并运行Wordpress网站”,有了这个基础再看下一篇“网站上线”会容易得多。PHP本地环境搭建就是让你熟悉网站上线的基本功,免得你正式上线手忙脚乱一堆事情,一会儿就放弃了。我也是一步步来的,我尽量写的很细,让大家跟着我操作就可以。 WordPress建...
- 下一篇
【LintCode: 3. 统计数字】算法题解析
这是一道来自LintCode的算法题目,本文用C++来解答这道题,链接为: https://www.lintcode.com/problem/digit-counts/description 题目描述 计算数字k在0到n中的出现的次数,k可能是0~9的一个值。 样例 例如n=12,k=1,在 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],我们发现1出现了5次 (1, 10, 11, 12) 思路 当k=1时,对于整数1111,一共出现了4次,也就是判断每一位上的数字是不是1, 数字1111共有4位,就要对其判断4次,从个位开始,除以10取余数即可。 按照这个思路,代码如下: 代码 #include #include <sys/time.h> class Solution { public: /** * @param k: An integer * @param n: An integer * @return: An integer denote the count of digit k in 1..n */ int digitCoun...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2全家桶,快速入门学习开发网站教程
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- 设置Eclipse缩进为4个空格,增强代码规范
- SpringBoot2整合Redis,开启缓存,提高访问速度
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装