Scrapy 爬取动态网站

温馨提示:本文要求对 scrapy 有一定基础认识

在原 scrapy 中,爬取的页面是文本,也就是单纯的文字。而对于动态网站而言,需要执行一些 javascript 脚本,才能加载出真正的页面,比如网易云音乐,而想要爬取这些网站通常需要借助一些可以执行 javascript 脚本的中间件来完成,本文使用的是 Chrome ,换成其他也无压力

scrapy + selenium + headless

selenium 似乎是被用来做自动化测试的 Python 库
headless 是 Chrome 的没有 UI 的浏览器,用来提高爬取速度去掉 UI,不需要额外安装只需安装较高版本的 Chrome 就可以使用 headlessle, 但是需要额外安装驱动,即 chromedriver ,没有安装 chromedriver 会报错,如何安装 chromedriver 请阅读其他博客。

爬取动态网站时,需要开启中间件,官方文档是这样激活中间件的,在 settings.py 中找到

# Enable or disable downloader middlewares
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
# DOWNLOADER_MIDDLEWARES = {
    # #'yourprojectname.middlewares.yourprojectnameDownloaderMiddleware': 543,
#}

然后去掉注释

# Enable or disable downloader middlewares
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
 DOWNLOADER_MIDDLEWARES = {
  'yourprojectname.middlewares.yourprojectnameDownloaderMiddleware': 543,
 }

最开始我是在中间件中实例化 chrome 导致,爬虫开启一次就实例化一次,如果 browser 用完就关闭,使用时实例化,爬取的速度很慢,每一个 request 请求都会调用 process_request 方法,导致操作系统频繁打开关闭 chrome,而不这么做,久而久之内存泄漏导致电脑卡死。为了解决完美解决这一点,实例化 chrome headless 时,放在 spider 中,具体做法如下:

进入 middlewares.py 定义自己的下载中间件

.
.
.
class BrowserDownloaderMiddleware(object):
    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)
        pass

    def process_request(self, request, spider):
        # 如果爬虫的名字为music则请求在这里处理
        if spider.name == 'spider_name':
            browser = spider.browser
            browser.get(request.url)  # 打开这个页面
            body = browser.page_source.encode('utf8')
            return HtmlResponse(url=request.url, body=body)  # 将下载好的页面返回出去
        else:
            return None

    def process_response(self, request, response, spider):
        return response
.
.
.

进入 /spiders/yourspider.py 定义自己的下载中间件
官方文档中给出:close 方法,在爬虫关闭时掉用,而 __init__方法在类实例化时自动调用,不知道为何 __del__ 在 scrapy 中没有调用。

.
.
.
    def __init__(self, *args, **kwargs):
        super(YourSpider, self).__init__(*args, **kwargs)
        options = webdriver.ChromeOptions()
        options.add_argument("--headless")
        options.add_argument("--disable-gpu")
        self.browser = webdriver.Chrome(chrome_options=options)
        pass

    def close(self, reason):
        self.browser.close()
        pass
.
.
.

这样一来,通过 spider 对象将 browser 携带给中间件,完美解决了内存泄漏问题,同时爬取的速度也很快。

luneice 版权协议

优秀的个人博客,低调大师

微信关注我们

原文链接:https://yq.aliyun.com/articles/478217

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
Mario,低调大师唯一一个Java游戏作品

Mario,低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Oracle Database,又名Oracle RDBMS

Oracle Database,又名Oracle RDBMS

Oracle Database,又名Oracle RDBMS,或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的、适应高吞吐量的数据库方案。

Apache Tomcat7、8、9(Java Web服务器)

Apache Tomcat7、8、9(Java Web服务器)

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

Java Development Kit(Java开发工具)

Java Development Kit(Java开发工具)

JDK是 Java 语言的软件开发工具包,主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心,它包含了JAVA的运行环境(JVM+Java系统类库)和JAVA工具。