Python爬虫使用浏览器的cookies：browsercookie-低调大师

Python爬虫使用浏览器的cookies：browsercookie

2019-03-11 662

技术文章来源于猿人学Python教程，如需转载，请加猿人学Python公众号联系。

很多用Python的人可能都写过网络爬虫，自动化获取网络数据确实是一件令人愉悦的事情，而Python很好的帮助我们达到这种愉悦。然而，爬虫经常要碰到各种登录、验证的阻挠，让人灰心丧气（网站：天天碰到各种各样的爬虫抓我们网站，也很让人灰心丧气～）。爬虫和反爬虫就是一个猫和老鼠的游戏，道高一尺魔高一丈，两者反复纠缠。

由于http协议的无状态性，登录验证都是通过传递cookies来实现的。通过浏览器登录一次，登录信息的cookie是就会被浏览器保存下来。下次再打开该网站时，浏览器自动带上保存的cookies，只有cookies还未过期，对于网站来说你就还是登录状态的。

browsercookie模块就是这样一个从浏览器提取保存的cookies的工具。它是一个很有用的爬虫工具，通过加载你浏览器的cookies到一个cookiejar对象里面，让你轻松下载需要登录的网页内容。

安装

pip install browsercookie

在Windows系统中，内置的sqlite模块在加载FireFox数据库时会抛出错误。需要更新sqlite的版本：
pip install pysqlite

使用方法

下面是从网页提取标题的例子：

>>> import re
>>> get_title = lambda html: re.findall('<title>(.*?)</title>', html, flags=re.DOTALL)[0].strip()

下面是未登录状况下下载得到的标题：

>>> import urllib2
>>> url = 'https://bitbucket.org/'
>>> public_html = urllib2.urlopen(url).read()
>>> get_title(public_html)
'Git and Mercurial code management for teams'

接下来使用browsercookie从登录过Bitbucket的FireFox里面获取cookie再下载：

>>> import browsercookie
>>> cj = browsercookie.firefox()
>>> opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
>>> login_html = opener.open(url).read()
>>> get_title(login_html)
'richardpenman / home &mdash; Bitbucket'

上面是Python2的代码，再试试 Python3:

>>> import urllib.request
>>> public_html = urllib.request.urlopen(url).read()
>>> opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))

你可以看到你的用户名出现在title里面了，说明browsercookie模块成功从FireFox加载了cookies。

下面是使用requests的例子，这次我们从Chrome里面加载cookies，当然你需要事先用Chrome登录Bitbucket：

>>> import requests
>>> cj = browsercookie.chrome()
>>> r = requests.get(url, cookies=cj)
>>> get_title(r.content)
'richardpenman / home &mdash; Bitbucket'

如果你不知道或不关心那个浏览器有你需要的cookies，你可以这样操作：

>>> cj = browsercookie.load()
>>> r = requests.get(url, cookies=cj)
>>> get_title(r.content)
'richardpenman / home &mdash; Bitbucket'

支持

目前，该模块支持以下平台：

**Chrome: Linux, OSX, Windows
Firefox: Linux, OSX, Windows**

目前该模块测试过的浏览器版本还不是很多，你使用过程中可能会遇到问题，可以向作者提交问题：

https://bitbucket.org/richardpenman/browsercookie/

微信关注我们

原文链接：https://yq.aliyun.com/articles/693329

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

零基础搭建PHP本地环境并安装WordPress网站（图文指导）

搭建PHP本地环境前言以前在大学课堂上学过一点JAVA, PHP. 因为那时是零基础，需要自己搭建APACH, MYSQL, PHPADMIN过程挺烦的，本地环境都不知道是啥，但是做出来结果却很高兴。出来后也做过网站，但是很久不弄就忘记了，我算建站的“半吊子”。只比零基础多一点点。所以我写这篇文章给新手一些指导，并让我自己以后再次建站也有参考。（我也是百度过很多才渐渐熟悉的，所以我觉得我自己写的应该对新手很有帮助）【本地环境就是你的网站还没有上线，但是想在自己电脑看一下网站搭建后的效果。你在自己电脑做了一个可以看效果的环境。也就是测试环境。】目前60%以上的网站都是使用Wordpress模版（PHP语言编写的），所以这里只教大家建立PHP本地环境搭建。新手做网站，还要上线，输入域名可以访问很新奇，但得先看这篇“搭建PHP本地环境并运行Wordpress网站”，有了这个基础再看下一篇“网站上线”会容易得多。PHP本地环境搭建就是让你熟悉网站上线的基本功，免得你正式上线手忙脚乱一堆事情，一会儿就放弃了。我也是一步步来的，我尽量写的很细，让大家跟着我操作就可以。 WordPress建...

2019-03-11

721

这是一道来自LintCode的算法题目，本文用C++来解答这道题，链接为： https://www.lintcode.com/problem/digit-counts/description 题目描述计算数字k在0到n中的出现的次数，k可能是0~9的一个值。样例例如n=12，k=1，在 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]，我们发现1出现了5次 (1, 10, 11, 12) 思路当k=1时，对于整数1111，一共出现了4次，也就是判断每一位上的数字是不是1, 数字1111共有4位，就要对其判断4次，从个位开始，除以10取余数即可。按照这个思路，代码如下：代码 #include #include <sys/time.h> class Solution { public: /** * @param k: An integer * @param n: An integer * @return: An integer denote the count of digit k in 1..n */ int digitCoun...

2019-03-11

618

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。