scrapy爬虫流程-低调大师

scrapy爬虫流程

2017-11-14 852

 
              一、scrapy
             
              Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。 其可以应用在数据挖掘，信息处
             
              理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的， 也
             
              可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。
             
              Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。
             
              Scrapy 使用了 Twisted异步网络库来处理网络通讯。整体架构大致如下:

 
              Scrapy主要包括了以下组件：
             
              1.
              引擎(Scrapy) 
             
              用来处理整个系统的数据流处理, 触发事务(框架核心) 
             
              2.
              调度器(Scheduler) 
             
              用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓 
             
              取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复 
             
              的网址 
             
              3.
              下载器(Downloader) 
             
              用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型 
             
              上的) 
             
              4.
              爬虫(Spiders) 
             
              爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以 
             
              从中提取出链接,让Scrapy继续抓取下一个页面 
             
              5.
              项目管道(Pipeline) 
             
              负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的 
             
              信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据 
             
              6.
              下载器中间件(Downloader Middlewares) 
             
              位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引擎与下载器之间的请求及响应 
             
              7.
              爬虫中间件(Spider Middlewares) 
             
              介于Scrapy引擎和爬虫之间的框架，主要工作是处理蜘蛛的响应输入和请求输出 
             
              8.
              调度中间件(Scheduler Middewares) 
             
              介于Scrapy引擎和调度之间的中间件，从Scrapy引擎发送到调度的请求和响应 
             
              Scrapy运行流程大概如下：
             
              1.
              引擎从调度器中取出一个链接(URL)用于接下来的抓取 
             
              2.
              引擎把URL封装成一个请求(Request)传给下载器 
             
              3.
              下载器把资源下载下来，并封装成应答包(Response) 
             
              4.
              爬虫解析Response 
             
              5.
              解析出实体（Item）,则交给实体管道进行进一步的处理 
             
              6.
              解析出的是链接（URL）,则把URL交给调度器等待抓取 
             
              二、安装
             
              1. 
              linux 
             
              #pip3 install scrapy
             
              2.windows
             
              a. pip3 install wheel
             
              b. 下载twisted 
             
              c. 进入下载目录，执行 pip3 install Twisted17.
              1.0cp35cp35mwin_amd64
              .whl  
             
              d. pip3 install scrapy
             
              e. 下载并安装pywin32：
             
              三、基本命令
             
              1. 
              scrapy startproject 项目名称  
             
              - 
              在当前目录中创建中创建一个项目文件（类似于Django） 
             
              2.scrapy 
              genspider [
              -
              t template] <name> <domain> 
             
              - 
              创建爬虫应用 
             
              scrapy gensipider 
              -
              t basic oldboy oldboy.com 
             
              scrapy gensipider 
              -
              t xmlfeed autohome autohome.com.cn 
             
              查看所有命令：scrapy gensipider 
              -
              l 
             
              查看模板命令：scrapy gensipider 
              -
              d 模板名称 
             
              3. 
              scrapy 
              list 
             
              - 
              展示爬虫应用列表 
             
              4. 
              scrapy crawl 爬虫应用名称 
             
              - 
              运行单独爬虫应用 
             
              5.
              项目结构以及爬虫应用简介 
             
              project_name
              / 
             
              scrapy.cfg 
             
              project_name
              / 
             
              __init__.py 
             
              items.py 
             
              pipelines.py 
             
              settings.py 
             
              spiders
              / 
             
              __init__.py 
             
              爬虫
              1.py 
             
              爬虫
              2.py 
             
              爬虫
              3.py 
             
              文件说明：
             
              scrapy.cfg  项目的主配置信息。（真正爬虫相关的配置信息在settings.py文件中）
             
              items.py    设置数据存储模板，用于结构化数据，如：Django的Model
             
              pipelines    数据处理行为，如：一般结构化的数据持久化
             
              settings.py 配置文件，如：递归的层数、并发数，延迟下载等
             
              spiders      爬虫目录，如：创建文件，编写爬虫规则
             
              注意：一般创建爬虫文件时，以网站域名命名
             
              爬虫文件oldboy.py例子:
             
              import 
              scrapy 
             
              class 
              XiaoHuarSpider(scrapy.spiders.Spider): 
             
              name 
              = 
              "xiaohuar" 
             
              allowed_domains 
              = 
              [
              "xiaohuar.com"
              ] 
             
              start_urls 
              = 
              [ 
             
              "http://www.xiaohuar.com/hua/"
              , 
             
              ] 
             
              def 
              parse(
              self
              ,response): 
             
              print
              (response.text) 
             
              注意windows编码: 
             
              import 
              sys,os 
             
              sys.stdout
              =
              io.TextIOWrapper(sys.stdout.
              buffer
              ,encoding
              =
              'gb18030'
              ) 
             
              四、项目示例
             
              import 
              scrapy 
             
              from 
              scrapy.selector 
              import 
              HtmlXPathSelector 
             
              from 
              scrapy.http.request 
              import 
              Request 
             
              class 
              DigSpider(scrapy.Spider): 
             
              name 
              = 
              "dig" 
             
              allowed_domains 
              = 
              [
              "chouti.com"
              ] 
             
              start_urls 
              = 
              [ 
             
              'http://dig.chouti.com'
              , 
             
              ] 
             
              has_request_set 
              = 
              {} 
             
              def 
              parse(
              self
              , response): 
             
              print
              (response.url) 
             
              hxs 
              = 
              HtmlXPathSelector(response) 
             
              page_list 
              = 
              hxs.select(
              '//div[@id="dig_lcpage"]//a[re:test(@href, "/all/hot/recent/\d+")]/@href'
              ).extract() 
             
              for 
              page 
              in 
              page_list: 
             
              page_url 
              = 
              'http://dig.chouti.com{0}'
              .
              format
              (page) 
             
              key 
              = 
              self
              .md5(page_url) 
             
              if 
              key 
              in 
              self
              .has_request_set: 
             
              pass 
             
              else
              : 
             
              self
              .has_request_set[key] 
              = 
              page_url 
             
              obj 
              = 
              Request(url
              =
              page_url, method
              =
              'GET'
              ,callback
              =
              self
              .parse) 
             
              yield 
              obj 
             
              @
              staticmethod 
             
              def 
              md5(val): 
             
              import 
              hashlib 
             
              ha 
              = 
              hashlib.md5() 
             
              ha.update(bytes(val, encoding
              =
              'utf-8'
              )) 
             
              key 
              = 
              ha.hexdigest() 
             
              return 
              key 
             
              执行命令: scrapy crawl dig 
              -
              -
              nolog 
             
              Request是一个封装用户请求的类，在回调函数中
              yield
              该对象表示继续访问 
             
              HtmlXpathSelector用于结构化HTML代码并提供选择器功能 
             
              登录知乎: 
             
              import 
              scrapy 
             
              from 
              scrapy.selector 
              import 
              HtmlXPathSelector 
             
              from 
              scrapy.http.request 
              import 
              Request 
             
              from 
              scrapy.http.cookies 
              import 
              CookieJar 
             
              from 
              scrapy 
              import 
              FormRequest 
             
              class 
              ChouTiSpider(scrapy.Spider): 
             
              # 爬虫应用的名称，通过此名称启动爬虫命令 
             
              name 
              = 
              "chouti" 
             
              # 允许的域名 
             
              allowed_domains 
              = 
              [
              "chouti.com"
              ] 
             
              cookie_dict 
              = 
              {} 
             
              has_request_set 
              = 
              {} 
             
              def 
              start_requests(
              self
              ): 
             
              url 
              = 
              'http://dig.chouti.com/' 
             
              # return [Request(url=url, callback=self.login)] 
             
              yield 
              Request(url
              =
              url, callback
              =
              self
              .login) 
             
              def 
              login(
              self
              , response): 
             
              cookie_jar 
              = 
              CookieJar() 
             
              cookie_jar.extract_cookies(response, response.request) 
             
              for 
              k, v 
              in 
              cookie_jar._cookies.items(): 
             
              for 
              i, j 
              in 
              v.items(): 
             
              for 
              m, n 
              in 
              j.items(): 
             
              self
              .cookie_dict[m] 
              = 
              n.value 
             
              req 
              = 
              Request( 
             
              url
              =
              'http://dig.chouti.com/login'
              , 
             
              method
              =
              'POST'
              , 
             
              headers
              =
              {
              'Content-Type'
              : 
              'application/x-www-form-urlencoded; charset=UTF-8'
              }, 
             
              body
              =
              'phone=xxxxxxxx&password=xxxxxx&oneMonth=1'
              , 
             
              cookies
              =
              self
              .cookie_dict, 
             
              callback
              =
              self
              .check_login 
             
              ) 
             
              yield 
              req 
             
              def 
              check_login(
              self
              , response): 
             
              req 
              = 
              Request( 
             
              url
              =
              'http://dig.chouti.com/'
              , 
             
              method
              =
              'GET'
              , 
             
              callback
              =
              self
              .show, 
             
              cookies
              =
              self
              .cookie_dict, 
             
              dont_filter
              =
              True 
             
              ) 
             
              yield 
              req 
             
              def 
              show(
              self
              , response): 
             
              # print(response) 
             
              hxs 
              = 
              HtmlXPathSelector(response) 
             
              news_list 
              = 
              hxs.select(
              '//div[@id="content-list"]/div[@class="item"]'
              ) 
             
              for 
              new 
              in 
              news_list: 
             
              # temp = new.xpath('div/div[@class="part2"]/@share-linkid').extract() 
             
              link_id 
              = 
              new.xpath(
              '*/div[@class="part2"]/@share-linkid'
              ).extract_first() 
             
              yield 
              Request( 
             
              url
              =
              'http://dig.chouti.com/link/vote?linksId=%s' 
              %
              (link_id,), 
             
              method
              =
              'POST'
              , 
             
              cookies
              =
              self
              .cookie_dict, 
             
              callback
              =
              self
              .do_favor 
             
              ) 
             
              page_list 
              = 
              hxs.select(
              '//div[@id="dig_lcpage"]//a[re:test(@href, "/all/hot/recent/\d+")]/@href'
              ).extract() 
             
              for 
              page 
              in 
              page_list: 
             
              page_url 
              = 
              'http://dig.chouti.com%s' 
              % 
              page 
             
              import 
              hashlib 
             
              hash 
              = 
              hashlib.md5() 
             
              hash
              .update(bytes(page_url,encoding
              =
              'utf-8'
              )) 
             
              key 
              = 
              hash
              .hexdigest() 
             
              if 
              key 
              in 
              self
              .has_request_set: 
             
              pass 
             
              else
              : 
             
              self
              .has_request_set[key] 
              = 
              page_url 
             
              yield 
              Request( 
             
              url
              =
              page_url, 
             
              method
              =
              'GET'
              , 
             
              callback
              =
              self
              .show 
             
              ) 
             
              def 
              do_favor(
              self
              , response): 
             
              print
              (response.text)  
             
              注: settings.py中设置DEPTH_LIMIT 
              = 
              1
              来指定“递归”的层数

本文转自小白的希望 51CTO博客，原文链接：http://blog.51cto.com/haoyonghui/1976482 ，如需转载请自行联系原作者

微信关注我们

原文链接：https://yq.aliyun.com/articles/500166

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

八天学会MongoDB：第五天主从复制

从这一篇开始我们主要讨论MongoDB的部署技术。我们知道sql server能够做到读写分离，双机热备份和集群部署，当然MongoDB也能做到，实际应用中我们不希望数据库采用单点部署，如果碰到数据库宕机或者被毁灭性破坏那是多么的糟糕。相关文章：八天学会MongoDB：第一天基础入门八天学会MongoDB：第二天细说增删查改八天学会MongoDB：第三天细说高级操作八天学会MongoDB：第四天索引操作一：主从复制 1：首先看看模型图 2: 从上面的图形中我们可以分析出这种架构有如下的好处： <1> 数据备份。 <2> 数据恢复。 <3> 读写分离。 3：下面我们就一一实践实际应用中我们肯定是多服务器部署，限于自己懒的装虚拟机，就在一台机器上实践了。第一步：我们把mongodb文件夹放在D盘和E盘，模拟放在多服务器上。第二步：启动D盘上的mongodb，把该数据库指定为主数据库，其实命令很简单：>mongodb --dbpath='XXX' --master，端口还是默认的27017. 第三步：同样的方式启动E...

2017-11-14

697

要想获取态势感知能力，先要建设好SOC体系——C·S4 安全圈儿的头脑风暴

目前，全国网络安全态势感知建设进入白热化，在摸着石头过河的建设过程中，我们既没有达到国家和行业监管部门的要求，也不能帮助企业在信息安全技术上、管理上个运行上解除隐患和安全漏洞。负责过教育部、民政部、安监总局和省公安厅及教育厅等部委的态势感知项目建设的安恒信息资深解决方案架构师李剑锋表示：“目前的网络安全态势感知建设抓不住重点，成了为了建设而建设的局面。” 今年8月，安全牛发布了《新一代SOC研究报告》（包含技术和市场指南），并以此为契机，联合六家在“新一代SOC和态势感知”领域有着领先技术思路和可观市场占有率的安全厂商，举办了第四届C·S大会。大会主要目的就是集合安全圈儿力量，彻底了解安全态势感知的本质，以及探讨在当今时代我们需要重点关注的感知技术和重点建设的内容。实际上态势感知的“前世”是应用于军事领域，帮助友方、敌方的行动进行及时、精确的评估，并服务于跟高层决策的制定”。安恒信息资深解决方案架构师李剑锋在会上表示：“今日，态势感知已经是网络安全的基本和基础性工作，是在实现安全态势‘理解’和‘预测’之前的重要阶段。” “态势感知”需要具备从多元、异构的安全数据中采集出足够且...

2017-11-14

607

发表评论

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。