Scrapy 爬取动态网站-低调大师

Scrapy 爬取动态网站

2018-02-17 699

温馨提示：本文要求对 scrapy 有一定基础认识

在原 scrapy 中，爬取的页面是文本，也就是单纯的文字。而对于动态网站而言，需要执行一些 javascript 脚本，才能加载出真正的页面，比如网易云音乐，而想要爬取这些网站通常需要借助一些可以执行 javascript 脚本的中间件来完成，本文使用的是 Chrome ，换成其他也无压力

scrapy + selenium + headless

selenium 似乎是被用来做自动化测试的 Python 库
headless 是 Chrome 的没有 UI 的浏览器，用来提高爬取速度去掉 UI，不需要额外安装只需安装较高版本的 Chrome 就可以使用 headlessle，但是需要额外安装驱动，即 chromedriver ，没有安装 chromedriver 会报错，如何安装 chromedriver 请阅读其他博客。

爬取动态网站时，需要开启中间件，官方文档是这样激活中间件的，在 settings.py 中找到

# Enable or disable downloader middlewares
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
# DOWNLOADER_MIDDLEWARES = {
    # #'yourprojectname.middlewares.yourprojectnameDownloaderMiddleware': 543,
#}

然后去掉注释

# Enable or disable downloader middlewares
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
 DOWNLOADER_MIDDLEWARES = {
  'yourprojectname.middlewares.yourprojectnameDownloaderMiddleware': 543,
 }

最开始我是在中间件中实例化 chrome 导致，爬虫开启一次就实例化一次，如果 browser 用完就关闭，使用时实例化，爬取的速度很慢，每一个 request 请求都会调用 `process_request` 方法，导致操作系统频繁打开关闭 chrome，而不这么做，久而久之内存泄漏导致电脑卡死。为了解决完美解决这一点，实例化 chrome headless 时，放在 spider 中，具体做法如下：

进入 middlewares.py 定义自己的下载中间件

.
.
.
class BrowserDownloaderMiddleware(object):
    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)
        pass

    def process_request(self, request, spider):
        # 如果爬虫的名字为music则请求在这里处理
        if spider.name == 'spider_name':
            browser = spider.browser
            browser.get(request.url)  # 打开这个页面
            body = browser.page_source.encode('utf8')
            return HtmlResponse(url=request.url, body=body)  # 将下载好的页面返回出去
        else:
            return None

    def process_response(self, request, response, spider):
        return response
.
.
.

进入 /spiders/yourspider.py 定义自己的下载中间件
官方文档中给出：close 方法，在爬虫关闭时掉用，而 __init__方法在类实例化时自动调用，不知道为何 __del__ 在 scrapy 中没有调用。

.
.
.
    def __init__(self, *args, **kwargs):
        super(YourSpider, self).__init__(*args, **kwargs)
        options = webdriver.ChromeOptions()
        options.add_argument("--headless")
        options.add_argument("--disable-gpu")
        self.browser = webdriver.Chrome(chrome_options=options)
        pass

    def close(self, reason):
        self.browser.close()
        pass
.
.
.

这样一来，通过 spider 对象将 browser 携带给中间件，完美解决了内存泄漏问题，同时爬取的速度也很快。

luneice 版权协议

微信关注我们

原文链接：https://yq.aliyun.com/articles/478217

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

python——Django项目模板

views.py 1 # -*- coding: utf-8 -*- 2 from __future__ import unicode_literals 3 4 from django.shortcuts import render 5 from message.models import UserMessage 6 # Create your views here. 7 def getform(request): 8 if request.method == 'POST': 9 name = request.POST.get('name','') 10 email = request.POST.get('email','') 11 address = request.POST.get('address','') 12 message = request.POST.get('message','') 13 mess = UserMessage() 14 mess.name = name 15 mess.email = email 16 mess.adress = address 17 ...

2018-02-17

643

Java中不同包下类与类之间的访问 (1)我们多次使用一个带包的类，都需要加包的全路径，非常的麻烦，这个时候，Java就提供了导包的功能，提供了一个关键字import。 (2)格式： import 包名.包名. ...包名.类名; 这种方式导入的是：到类的名称。另一种： import 包名.包名. ... .*;(不建议) (3) package、import、class有没有顺序关系呢？有。 package > import > class package:只能有一个 import:可以有多个 class:可以有多个，以后建议是一个。(因为每一个类是一个独立的单元) 示例代码如下所示：我的GitHub地址： https://github.com/heizemingjun 我的博客园地址： http://www.cnblogs.com/chenmingjun 我的蚂蚁笔记博客地址： http://blog.leanote.com/chenmingjun Copyright ©2018 黑泽明军【转载文章务必保留出处和署名，谢谢！】

2018-02-17

670

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。