22、Python快速开发分布式搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别
转自:
http://www.bdyss.cn
http://www.swpan.cn
第一步。首先下载,大神者也的倒立文字验证码识别程序
下载地址:https://github.com/muchrooms/zheye
注意:此程序依赖以下模块包
Keras==2.0.1
Pillow==3.4.2
jupyter==1.0.0
matplotlib==1.5.3
numpy==1.12.1
scikit-learn==0.18.1
tensorflow==1.0.1
h5py==2.6.0
numpy-1.13.1+mkl
我们用豆瓣园来加速安以上依赖装如:
pip install -i https://pypi.douban.com/simple h5py==2.6.0
如果是win系统,可能存在安装失败的可能,如果那个包安装失败,就到 http://www.lfd.uci.edu/~gohlke/pythonlibs/ 找到win对应的版本下载到本地安装,如:
pip install h5py-2.7.0-cp35-cp35m-win_amd64.whl
第二步,将者也的,验证码识别程序的zheye文件夹放到工程目录里
第三步,爬虫实现
start_requests()方法,起始url函数,会替换start_urls
Request()方法,get方式请求网页
url=字符串类型url
headers=字典类型浏览器代理
meta=字典类型的数据,会传递给回调函数
callback=回调函数名称
scrapy.FormRequest()post方式提交数据
url=字符串类型url
headers=字典类型浏览器代理
meta=字典类型的数据,会传递给回调函数
callback=回调函数名称
formdata=字典类型,要提交的数据字段
response.headers.getlist('Set-Cookie') 获取响应Cookies
response.request.headers.getlist('Cookie') 获取请求Cookies
# -*- coding: utf-8 -*- import scrapy from scrapy.http import Request,FormRequest import re class PachSpider(scrapy.Spider): #定义爬虫类,必须继承scrapy.Spider name = 'pach' #设置爬虫名称 allowed_domains = ['zhihu.com'] #爬取域名 # start_urls = [''] #爬取网址,只适于不需要登录的请求,因为没法设置cookie等信息 header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0'} #设置浏览器用户代理 def start_requests(self): #起始url函数,会替换start_urls """第一次请求一下登录页面,设置开启cookie使其得到cookie,设置回调函数""" return [Request( url='https://www.zhihu.com/#signin', headers=self.header, meta={'cookiejar':1}, #开启Cookies记录,将Cookies传给回调函数 callback=self.parse )] def parse(self, response): # 响应Cookies Cookie1 = response.headers.getlist('Set-Cookie') #查看一下响应Cookie,也就是第一次访问注册页面时后台写入浏览器的Cookie print('后台首次写入的响应Cookies:',Cookie1) #获取xsrf密串 xsrf = response.xpath('//input[@name="_xsrf"]/@value').extract()[0] print('获取xsrf密串:' + xsrf) #获取验证码 import time t = str(int(time.time()*1000)) captcha_url = 'https://www.zhihu.com/captcha.gif?r={0}&type=login&lang=cn'.format(t) #构造验证码请求地址 yield Request(url=captcha_url, #请求验证码图片 headers=self.header, meta={'cookiejar':response.meta['cookiejar'],'xsrf':xsrf}, #将Cookies和xsrf密串传给回调函数 callback=self.post_tj ) def post_tj(self, response): with open('yzhm.jpg','wb') as f: #打开图片句柄 f.write(response.body) #将验证码图片写入本地 f.close() #关闭句柄 #---------------------------者也验证码识别----------------------- from zheye import zheye #导入者也倒立文字验证码识别模块对象 z = zheye() #实例化对象 positions = z.Recognize('yzhm.jpg') #将验证码本地路径传入Recognize方法识别,返回倒立图片的坐标 # print(positions) #默认倒立文字的y坐标在前,x坐标在后 #知乎网要求的倒立文字坐标是x轴在前,y轴在后,所以我们需要定义一个列表来改变默认的,倒立文字坐标位置 pos_arr = [] if len(positions) == 2: if positions[0][1] > positions[1][1]: #判断列表里第一个元祖里的第二个元素如果大于,第二个元祖里的第二个元素 pos_arr.append([positions[1][1],positions[1][0]]) pos_arr.append([positions[0][1], positions[0][0]]) else: pos_arr.append([positions[0][1], positions[0][0]]) pos_arr.append([positions[1][1], positions[1][0]]) else: pos_arr.append([positions[0][1], positions[0][0]]) print('处理后的验证码坐标',pos_arr) # -------------者也验证码识别结束-------- if len(pos_arr) == 2: data = { # 设置用户登录信息,对应抓包得到字段 '_xsrf': response.meta['xsrf'], 'password': '279819', 'captcha': '{"img_size":[200,44],"input_points":[[%.2f,%f],[%.2f,%f]]}' %( pos_arr[0][0] / 2, pos_arr[0][1] / 2, pos_arr[1][0] / 2, pos_arr[1][1] / 2), #因为验证码识别默认是400X88的尺寸所以要除以2 'captcha_type': 'cn', 'phone_num': '15284816568' } else: data = { # 设置用户登录信息,对应抓包得到字段 '_xsrf': response.meta['xsrf'], 'password': '279819', 'captcha': '{"img_size":[200,44],"input_points":[[%.2f,%f]]}' %( pos_arr[0][0] / 2, pos_arr[0][1] / 2), 'captcha_type': 'cn', 'phone_num': '15284816568' } print('登录提交数据',data) print('登录中....!') """第二次用表单post请求,携带Cookie、浏览器代理、用户登录信息,进行登录给Cookie授权""" return [scrapy.FormRequest( url='https://www.zhihu.com/login/phone_num', #真实post地址 meta={'cookiejar':response.meta['cookiejar']}, #接收第传过来的Cookies headers=self.header, formdata=data, callback=self.next )] def next(self,response): # 请求Cookie Cookie2 = response.request.headers.getlist('Cookie') print('登录时携带请求的Cookies:',Cookie2) jieg = response.body.decode("utf-8") #登录后可以查看一下登录响应信息 print('登录响应结果:',jieg) print('正在请需要登录才可以访问的页面....!') """登录后请求需要登录才能查看的页面,如个人中心,携带授权后的Cookie请求""" yield Request( url='https://www.zhihu.com/people/lin-gui-xiu-41/activities', headers=self.header, meta={'cookiejar':True}, callback=self.next2 ) def next2(self,response): # 请求Cookie Cookie3 = response.request.headers.getlist('Cookie') print('查看需要登录才可以访问的页面携带Cookies:',Cookie3) leir = response.xpath('/html/head/title/text()').extract() #得到个人中心页面 print('最终内容',leir) # print(response.body.decode("utf-8"))
【转载自:http://www.lqkweb.com】
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Python3入门(十一)OS文件/目录方法
os模块提供了非常丰富的方法用来处理文件和目录。常用的方法如下表所示 方法 描述 os.access(path, mode) 检验权限模式 os.chdir(path) 改变当前工作目录 os.chflags(path, flags) 设置路径的标记为数字标记。 os.chmod(path, mode) 更改权限 os.chown(path, uid, gid) 更改文件所有者 os.chroot(path) 改变当前进程的根目录 os.close(fd) 关闭文件描述符 fd os.closerange(fd_low, fd_high) 关闭所有文件描述符,从 fd_low (包含) 到 fd_high (不包含), 错误会忽略 os.dup(fd) os.dup(fd) os.dup2(fd, fd2) 将一个文件描述符 fd 复制到另一个 fd2 os.fchdir(f
- 下一篇
LeetCode 557:反转字符串中的单词 III Reverse Words in a String III
公众号:爱写bug(ID:icodebugs) 给定一个字符串,你需要反转字符串中每个单词的字符顺序,同时仍保留空格和单词的初始顺序。 Given a string, you need to reverse the order of characters in each word within a sentence while still preserving whitespace and initial word order. 示例 1: 输入: "Let's take LeetCode contest" 输出: "s'teL ekat edoCteeL tsetnoc" 注意:在字符串中,每个单词由单个空格分隔,并且字符串中不会有任何额外的空格。 Note: In the string, each word is separated by single space and there will not be any extra space in the string. 解题思路: 每次遇到空格字符,就把 从上一次空格字符开始到该空格字符止之间的所有字符反转一下即可,只需要注意最...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS关闭SELinux安全模块
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- 设置Eclipse缩进为4个空格,增强代码规范
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS7安装Docker,走上虚拟化容器引擎之路