scrapy-splash 爬虫渲染异步加载，ajax

2017-01-12 780

首先给出splash官网地址：http://splash.readthedocs.io/en/stable/api.html#render-html

1.安装和准备

（1）先安装scrapy-splash库：

pip install scrapy-splash

（2）然后将我们的docker起起来

docker run -p 8050:8050 scrapinghub/splash

如果关于docker安装还有更多的问题，请查考：

splash安装文档

2.配置

（1）将splash server的地址放在你的settings.py文件里面，如果是你在本地起的，那地址应该是http://127.0.0.1:8050,我的地址如下

SPLASH_URL = 'http://192.168.99.100:8050'

（2）在你的下载器中间件：download_middleware 里面启用如下的中间文件，注意启用的顺序

DOWNLOADER_MIDDLEWARES = {
    'scrapy_splash.SplashCookiesMiddleware': 723,
    'scrapy_splash.SplashMiddleware': 725,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}

另外注意：

scrapy_splash.SplashMiddleware(725)的顺序是在默认的HttpProxyMiddleware(750)之前，要不然顺序的紊乱会造成功能的紊乱的

HttpCompressionMiddleware的优先级和顺序也应该适当的更改一下，这样才能更能处理请求

查看:https://github.com/scrapy/scrapy/issues/1895 .里面提到的一些问题

（3）在settings.py启用SplashDeduplicateArgsMiddleware中间件

SPIDER_MIDDLEWARES = {
    'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}

（4）我们来设置一个去重的类

DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'

（5）如果你使用scrapy http 缓存系统，那你就有必要启用这个scrapy-splash的缓存系统

HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

如果你有在你自己的settings.py里面启用DEFAULT_REQUEST_HEADERS ，请务必注释掉，目前看来是一个bug ,我已经给scrapy splash 官方提了这个bug

https://github.com/scrapy-plugins/scrapy-splash/issues/67

该bug 是由于default_request_headers 里面的host 与我要爬的sougou不匹配，这当然会出错，不得不说scrapy的官方维护人反应真的很迅速。大家添加的headers的时候注意这些细节内容。

代码

# -*- coding: utf-8 -*-
from scrapy import Request
from scrapy.spiders import Spider
from scrapy_splash import SplashRequest
from scrapy_splash import SplashMiddleware
from scrapy.http import Request, HtmlResponse
from scrapy.selector import Selector

class SplashSpider(Spider):
    name = 'scrapy_splash'
    # main address since it has the fun list of the products
    start_urls = [
        'https://item.jd.com/2600240.html'
    ]

    # allowed_domains = [
    #     'sogou.com'
    # ]

    # def __init__(self, *args, **kwargs):
    #      super(WeiXinSpider, self).__init__(*args, **kwargs)

  # request需要封装成SplashRequest
    def start_requests(self):
        # text/html; charset=utf-8
        for url in self.start_urls:
            yield SplashRequest(url
                                , self.parse
                                , args={'wait': '0.5'}
                                # ,endpoint='render.json'
                                )
        pass

    def parse(self, response):
        print "############"+response._url

        fo = open("html.txt", "wb")
        fo.write(response.body);  # 写入文件
        fo.close();
        #本文只抓取一个京东链接，此链接为京东商品页面，价格参数是ajax生成的。会把页面渲染后的html存在html.txt
        #如果想一直抓取可以使用CrawlSpider，或者把下面的注释去掉
        '''site = Selector(response)
        links = site.xpath('//a/@href')
        for link in links:
            linkstr=link.extract()
            print "*****"+linkstr
            yield SplashRequest(linkstr, callback=self.parse)'''

微信关注我们

原文链接：https://yq.aliyun.com/articles/69874

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

创建 OVS vlan100 netwrok - 每天5分钟玩转 OpenStack（137）

上一节完成了 OVS vlan network 的配置准备工作，今天我们创建 vlan100。打开菜单 Admin -> Networks，点击 “Create Network” 按钮。显示创建页面。 Provider Network Type 选择 “VLAN”。 Physical Network 填写 “default”，与 ml2_conf.ini 中 network_vlan_ranges 参数值保持一致。 Segmentation ID 即 VLAN ID，设置为 100。点击 “Create Network”，vlan100 创建成功。点击 vlan100 链接，进入 network 配置页面，目前还没有 subnet，点击 “Create Subnet” 按钮。创建 subnet_172_16_100_0，IP 地址为 172.16.100.0/24。底层网络发生了什么变化在控制节点上执行 ovs-vsctl show，查看网络结构： Neutron 自动在 br-int 网桥上创建了 vlan100 dhcp 的接口 “tap43567363-50”。...

2017-01-13

651

更多深度文章，请关注： https://yq.aliyun.com/cloud 由于2016年年中调换工作的原因，对容器网络的研究中断过一段时间。随着当前项目对Kubernetes应用的深入，我感觉之前对于容器网络的粗浅理解已经不够了，容器网络成了摆在前面的“一道坎”。继续深入理解K8s网络、容器网络已经势在必行。而这篇文章就算是一个重新开始，也是对之前浅表理解的一个补充。我还是先从Docker容器网络入手，虽然Docker与Kubernetes采用了不同的网络模型：K8s是Container Network Interface, CNI模型，而Docker则采用的是Container Network Model, CNM模型。而要了解Docker容器网络，理解Linux Network Namespace是不可或缺的。在本文中我们将尝试理解Linux Network Namespace及相关Linux内核网络设备的概念，并手工模拟Docker容器网络模型的部分实现，包括单机容器网络中的容器与主机连通、容器间连通以及端口映射等。一、Docker的CNM网络模型 Docker通过li...

2017-01-13

613

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

scrapy-splash 爬虫渲染异步加载，ajax

1.安装和准备

2.配置

代码

创建 OVS vlan100 netwrok - 每天5分钟玩转 OpenStack（137）

理解Docker容器网络之Linux Network Namespace

相关文章

发表评论

资源下载

优质分享App

Nacos

Rocky Linux

Sublime Text

欢迎您来访！