22、Python快速开发分布式搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别-低调大师

22、Python快速开发分布式搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别

2019-07-11 479

转自：

http://www.swpan.cn

第一步。首先下载，大神者也的倒立文字验证码识别程序

注意：此程序依赖以下模块包

　　Keras==2.0.1
　　Pillow==3.4.2
　　jupyter==1.0.0
　　matplotlib==1.5.3
　　numpy==1.12.1
　　scikit-learn==0.18.1
　　tensorflow==1.0.1
　　h5py==2.6.0

numpy-1.13.1+mkl

我们用豆瓣园来加速安以上依赖装如：

pip install -i https://pypi.douban.com/simple h5py==2.6.0

如果是win系统，可能存在安装失败的可能，如果那个包安装失败，就到 http://www.lfd.uci.edu/~gohlke/pythonlibs/ 找到win对应的版本下载到本地安装，如：

pip install h5py-2.7.0-cp35-cp35m-win_amd64.whl

第二步，将者也的，验证码识别程序的zheye文件夹放到工程目录里

第三步，爬虫实现

start_requests()方法，起始url函数，会替换start_urls

Request()方法，get方式请求网页
　　url=字符串类型url
　　headers=字典类型浏览器代理
　　meta=字典类型的数据，会传递给回调函数
　　callback=回调函数名称

scrapy.FormRequest()post方式提交数据
　　url=字符串类型url
　　headers=字典类型浏览器代理
　　meta=字典类型的数据，会传递给回调函数
　　callback=回调函数名称
　　formdata=字典类型，要提交的数据字段

response.headers.getlist('Set-Cookie') 获取响应Cookies
response.request.headers.getlist('Cookie') 获取请求Cookies

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request,FormRequest
import re

class PachSpider(scrapy.Spider):                            #定义爬虫类，必须继承scrapy.Spider
    name = 'pach'                                           #设置爬虫名称
    allowed_domains = ['zhihu.com']                    #爬取域名
    # start_urls = ['']                                     #爬取网址,只适于不需要登录的请求，因为没法设置cookie等信息

    header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0'}  #设置浏览器用户代理

    def start_requests(self):    #起始url函数，会替换start_urls
        """第一次请求一下登录页面，设置开启cookie使其得到cookie，设置回调函数"""
        return [Request(
            url='https://www.zhihu.com/#signin',
            headers=self.header,
            meta={'cookiejar':1},       #开启Cookies记录，将Cookies传给回调函数
            callback=self.parse
        )]

    def parse(self, response):
        # 响应Cookies
        Cookie1 = response.headers.getlist('Set-Cookie')                            #查看一下响应Cookie，也就是第一次访问注册页面时后台写入浏览器的Cookie
        print('后台首次写入的响应Cookies：',Cookie1)

        #获取xsrf密串
        xsrf = response.xpath('//input[@name="_xsrf"]/@value').extract()[0]
        print('获取xsrf密串：' + xsrf)

        #获取验证码         
        import time         
        t = str(int(time.time()*1000))         
        captcha_url = 'https://www.zhihu.com/captcha.gif?r={0}&type=login&lang=cn'.format(t)   #构造验证码请求地址
        yield Request(url=captcha_url,                                                         #请求验证码图片
                      headers=self.header,
                      meta={'cookiejar':response.meta['cookiejar'],'xsrf':xsrf},               #将Cookies和xsrf密串传给回调函数
                      callback=self.post_tj
                      )

    def post_tj(self, response):
        with open('yzhm.jpg','wb') as f:        #打开图片句柄
            f.write(response.body)              #将验证码图片写入本地
            f.close()                           #关闭句柄

#---------------------------者也验证码识别-----------------------

        from zheye import zheye                 #导入者也倒立文字验证码识别模块对象
        z = zheye()                             #实例化对象
        positions = z.Recognize('yzhm.jpg')     #将验证码本地路径传入Recognize方法识别，返回倒立图片的坐标
        # print(positions)                      #默认倒立文字的y坐标在前，x坐标在后

        #知乎网要求的倒立文字坐标是x轴在前，y轴在后，所以我们需要定义一个列表来改变默认的，倒立文字坐标位置
        pos_arr = []
        if len(positions) == 2:
            if positions[0][1] > positions[1][1]:                      #判断列表里第一个元祖里的第二个元素如果大于,第二个元祖里的第二个元素
                pos_arr.append([positions[1][1],positions[1][0]])
                pos_arr.append([positions[0][1], positions[0][0]])
            else:
                pos_arr.append([positions[0][1], positions[0][0]])
                pos_arr.append([positions[1][1], positions[1][0]])
        else:
            pos_arr.append([positions[0][1], positions[0][0]])

        print('处理后的验证码坐标',pos_arr)

# -------------者也验证码识别结束--------

        if len(pos_arr) == 2:
            data = {                                                                    # 设置用户登录信息，对应抓包得到字段
                '_xsrf': response.meta['xsrf'],
                'password': '279819',
                'captcha': '{"img_size":[200,44],"input_points":[[%.2f,%f],[%.2f,%f]]}' %(
                    pos_arr[0][0] / 2, pos_arr[0][1] / 2, pos_arr[1][0] / 2, pos_arr[1][1] / 2),  #因为验证码识别默认是400X88的尺寸所以要除以2
                'captcha_type': 'cn',
                'phone_num': '15284816568'
            }
        else:
            data = {                                                                    # 设置用户登录信息，对应抓包得到字段
                '_xsrf': response.meta['xsrf'],
                'password': '279819',
                'captcha': '{"img_size":[200,44],"input_points":[[%.2f,%f]]}' %(
                    pos_arr[0][0] / 2, pos_arr[0][1] / 2),
                'captcha_type': 'cn',
                'phone_num': '15284816568'
            }

        print('登录提交数据',data)

        print('登录中....!')
        """第二次用表单post请求，携带Cookie、浏览器代理、用户登录信息，进行登录给Cookie授权"""
        return [scrapy.FormRequest(
            url='https://www.zhihu.com/login/phone_num',                        #真实post地址
            meta={'cookiejar':response.meta['cookiejar']},                      #接收第传过来的Cookies
            headers=self.header,
            formdata=data,
            callback=self.next
        )]

    def next(self,response):
        # 请求Cookie
        Cookie2 = response.request.headers.getlist('Cookie')
        print('登录时携带请求的Cookies：',Cookie2)

        jieg = response.body.decode("utf-8")   #登录后可以查看一下登录响应信息
        print('登录响应结果：',jieg)

        print('正在请需要登录才可以访问的页面....!')

        """登录后请求需要登录才能查看的页面，如个人中心，携带授权后的Cookie请求"""
        yield Request(
            url='https://www.zhihu.com/people/lin-gui-xiu-41/activities',
            headers=self.header,
            meta={'cookiejar':True},
            callback=self.next2
        )

    def next2(self,response):
        # 请求Cookie
        Cookie3 = response.request.headers.getlist('Cookie')
        print('查看需要登录才可以访问的页面携带Cookies：',Cookie3)

        leir = response.xpath('/html/head/title/text()').extract()  #得到个人中心页面
        print('最终内容',leir)
        # print(response.body.decode("utf-8"))

【转载自：http://www.lqkweb.com】

微信关注我们

原文链接：https://yq.aliyun.com/articles/708664

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

os模块提供了非常丰富的方法用来处理文件和目录。常用的方法如下表所示方法描述 os.access(path, mode) 检验权限模式 os.chdir(path) 改变当前工作目录 os.chflags(path, flags) 设置路径的标记为数字标记。 os.chmod(path, mode) 更改权限 os.chown(path, uid, gid) 更改文件所有者 os.chroot(path) 改变当前进程的根目录 os.close(fd) 关闭文件描述符 fd os.closerange(fd_low, fd_high) 关闭所有文件描述符，从 fd_low (包含) 到 fd_high (不包含), 错误会忽略 os.dup(fd) os.dup(fd) os.dup2(fd, fd2) 将一个文件描述符 fd 复制到另一个 fd2 os.fchdir(f

2019-07-11

636

公众号：爱写bug（ID：icodebugs）给定一个字符串，你需要反转字符串中每个单词的字符顺序，同时仍保留空格和单词的初始顺序。 Given a string, you need to reverse the order of characters in each word within a sentence while still preserving whitespace and initial word order. 示例 1: 输入: "Let's take LeetCode contest" 输出: "s'teL ekat edoCteeL tsetnoc" 注意：在字符串中，每个单词由单个空格分隔，并且字符串中不会有任何额外的空格。 Note: In the string, each word is separated by single space and there will not be any extra space in the string. 解题思路：每次遇到空格字符，就把从上一次空格字符开始到该空格字符止之间的所有字符反转一下即可，只需要注意最...

2019-07-12

581

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。