20、 Python快速开发分布式搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—meta属性返回指定值给回调函数—Scr...
编写spiders爬虫文件循环抓取内容
Request()方法,将指定的url地址添加到下载器下载页面,两个必须参数,
参数:
url='url'
callback=页面处理函数
使用时需要yield Request()
parse.urljoin()方法,是urllib库下的方法,是自动url拼接,如果第二个参数的url地址是相对路径会自动与第一个参数拼接
# -*- coding: utf-8 -*- import scrapy from scrapy.http import Request #导入url返回给下载器的方法 from urllib import parse #导入urllib库里的parse模块 class PachSpider(scrapy.Spider): name = 'pach' allowed_domains = ['blog.jobbole.com'] #起始域名 start_urls = ['http://blog.jobbole.com/all-posts/'] #起始url def parse(self, response): """ 获取列表页的文章url地址,交给下载器 """ #获取当前页文章url lb_url = response.xpath('//a[@class="archive-title"]/@href').extract() #获取文章列表url for i in lb_url: # print(parse.urljoin(response.url,i)) #urllib库里的parse模块的urljoin()方法,是自动url拼接,如果第二个参数的url地址是相对路径会自动与第一个参数拼接 yield Request(url=parse.urljoin(response.url, i), callback=self.parse_wzhang) #将循环到的文章url添加给下载器,下载后交给parse_wzhang回调函数 #获取下一页列表url,交给下载器,返回给parse函数循环 x_lb_url = response.xpath('//a[@class="next page-numbers"]/@href').extract() #获取下一页文章列表url if x_lb_url: yield Request(url=parse.urljoin(response.url, x_lb_url[0]), callback=self.parse) #获取到下一页url返回给下载器,回调给parse函数循环进行 def parse_wzhang(self,response): title = response.xpath('//div[@class="entry-header"]/h1/text()').extract() #获取文章标题 print(title)
Request()函数在返回url时,同时可以通过meta属性返回一个自定义字典给回调函数
# -*- coding: utf-8 -*- import scrapy from scrapy.http import Request #导入url返回给下载器的方法 from urllib import parse #导入urllib库里的parse模块 from adc.items import AdcItem #导入items数据接收模块的接收类 class PachSpider(scrapy.Spider): name = 'pach' allowed_domains = ['blog.jobbole.com'] #起始域名 start_urls = ['http://blog.jobbole.com/all-posts/'] #起始url def parse(self, response): """ 获取列表页的文章url地址,交给下载器 """ #获取当前页文章url lb = response.css('div .post.floated-thumb') #获取文章列表区块,css选择器 # print(lb) for i in lb: lb_url = i.css('.archive-title ::attr(href)').extract_first('') #获取区块里文章url # print(lb_url) lb_img = i.css('.post-thumb img ::attr(src)').extract_first('') #获取区块里文章缩略图 # print(lb_img) yield Request(url=parse.urljoin(response.url, lb_url), meta={'lb_img':parse.urljoin(response.url, lb_img)}, callback=self.parse_wzhang) #将循环到的文章url添加给下载器,下载后交给parse_wzhang回调函数 #获取下一页列表url,交给下载器,返回给parse函数循环 x_lb_url = response.css('.next.page-numbers ::attr(href)').extract_first('') #获取下一页文章列表url if x_lb_url: yield Request(url=parse.urljoin(response.url, x_lb_url), callback=self.parse) #获取到下一页url返回给下载器,回调给parse函数循环进行 def parse_wzhang(self,response): title = response.css('.entry-header h1 ::text').extract() #获取文章标题 # print(title) tp_img = response.meta.get('lb_img', '') #接收meta传过来的值,用get获取防止出错 # print(tp_img) shjjsh = AdcItem() #实例化数据接收类 shjjsh['title'] = title #将数据传输给items接收模块的指定类 shjjsh['img'] = tp_img yield shjjsh #将接收对象返回给pipelines.py处理模块
-
- *
Scrapy内置图片下载器使用
Scrapy给我们内置了一个图片下载器在crapy.pipelines.images.ImagesPipeline,专门用于将爬虫抓取到图片url后将图片下载到本地
第一步、爬虫抓取图片URL地址后,填充到 items.py文件的容器函数
爬虫文件
# -*- coding: utf-8 -*- import scrapy from scrapy.http import Request #导入url返回给下载器的方法 from urllib import parse #导入urllib库里的parse模块 from adc.items import AdcItem #导入items数据接收模块的接收类 class PachSpider(scrapy.Spider): name = 'pach' allowed_domains = ['blog.jobbole.com'] #起始域名 start_urls = ['http://blog.jobbole.com/all-posts/'] #起始url def parse(self, response): """ 获取列表页的文章url地址,交给下载器 """ #获取当前页文章url lb = response.css('div .post.floated-thumb') #获取文章列表区块,css选择器 # print(lb) for i in lb: lb_url = i.css('.archive-title ::attr(href)').extract_first('') #获取区块里文章url # print(lb_url) lb_img = i.css('.post-thumb img ::attr(src)').extract_first('') #获取区块里文章缩略图 # print(lb_img) yield Request(url=parse.urljoin(response.url, lb_url), meta={'lb_img':parse.urljoin(response.url, lb_img)}, callback=self.parse_wzhang) #将循环到的文章url添加给下载器,下载后交给parse_wzhang回调函数 #获取下一页列表url,交给下载器,返回给parse函数循环 x_lb_url = response.css('.next.page-numbers ::attr(href)').extract_first('') #获取下一页文章列表url if x_lb_url: yield Request(url=parse.urljoin(response.url, x_lb_url), callback=self.parse) #获取到下一页url返回给下载器,回调给parse函数循环进行 def parse_wzhang(self,response): title = response.css('.entry-header h1 ::text').extract() #获取文章标题 # print(title) tp_img = response.meta.get('lb_img', '') #接收meta传过来的值,用get获取防止出错 # print(tp_img) shjjsh = AdcItem() #实例化数据接收类 shjjsh['title'] = title #将数据传输给items接收模块的指定类 shjjsh['img'] = [tp_img] yield shjjsh #将接收对象返回给pipelines.py处理模块
第二步、设置 items.py 文件的容器函数,接收爬虫获取到的数据填充
# -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: # http://doc.scrapy.org/en/latest/topics/items.html import scrapy #items.py,文件是专门用于,接收爬虫获取到的数据信息的,就相当于是容器文件 class AdcItem(scrapy.Item): #设置爬虫获取到的信息容器类 title = scrapy.Field() #接收爬虫获取到的title信息 img = scrapy.Field() #接收缩略图 img_tplj = scrapy.Field() #图片保存路径
第三步、在pipelines.py使用crapy内置的图片下载器
1、首先引入内置图片下载器
2、自定义一个图片下载内,继承crapy内置的ImagesPipeline图片下载器类
3、使用ImagesPipeline类里的item_completed()方法获取到图片下载后的保存路径
4、在settings.py设置文件里,注册自定义图片下载器类,和设置图片保存路径
# -*- coding: utf-8 -*- # Define your item pipelines here # # Don't forget to add your pipeline to the ITEM_PIPELINES setting # See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html from scrapy.pipelines.images import ImagesPipeline #导入图片下载器模块 class AdcPipeline(object): #定义数据处理类,必须继承object def process_item(self, item, spider): #process_item(item)为数据处理函数,接收一个item,item里就是爬虫最后yield item 来的数据对象 print('文章标题是:' + item['title'][0]) print('文章缩略图url是:' + item['img'][0]) print('文章缩略图保存路径是:' + item['img_tplj']) #接收图片下载器填充的,图片下载后的路径 return item class imgPipeline(ImagesPipeline): #自定义一个图片下载内,继承crapy内置的ImagesPipeline图片下载器类 def item_completed(self, results, item, info): #使用ImagesPipeline类里的item_completed()方法获取到图片下载后的保存路径 for ok, value in results: img_lj = value['path'] #接收图片保存路径 # print(ok) item['img_tplj'] = img_lj #将图片保存路径填充到items.py里的字段里 return item #将item给items.py 文件的容器函数 #注意:自定义图片下载器设置好后,需要在
在settings.py设置文件里,注册自定义图片下载器类,和设置图片保存路径
IMAGES_URLS_FIELD 设置要下载图片的url地址,一般设置的items.py里接收的字段
IMAGES_STORE 设置图片保存路径
# Configure item pipelines # See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html ITEM_PIPELINES = { 'adc.pipelines.AdcPipeline': 300, #注册adc.pipelines.AdcPipeline类,后面一个数字参数表示执行等级, 'adc.pipelines.imgPipeline': 1, #注册自定义图片下载器,数值越小,越优先执行 } IMAGES_URLS_FIELD = 'img' #设置要下载图片的url字段,就是图片在items.py里的字段里 lujin = os.path.abspath(os.path.dirname(__file__)) IMAGES_STORE = os.path.join(lujin, 'img') #设置图片保存路径
【转载自:http://www.lqkweb.com】
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
19、 Python快速开发分布式搜索引擎Scrapy精讲—css选择器
css选择器 1、 2、 3、 ::attr()获取元素属性,css选择器 ::text获取标签文本 举例: extract_first('')获取过滤后的数据,返回字符串,有一个默认参数,也就是如果没有数据默认是什么,一般我们设置为空字符串 extract()获取过滤后的数据,返回字符串列表 #-*-coding:utf-8-*- importscrapy classPachSpider(scrapy.Spider): name='pach' allowed_domains=['blog.jobbole.com'] start_urls=['http://blog.jobbole.com/all-posts/'] defparse(self,response): asd=response.css('.archive-title::text').extract()#这里也可以用extract_first('')获取返回字符串 #print(asd) foriinasd: print(i) 【转载自:http://www.lqkweb.com】
- 下一篇
SpringCloud组件之Ribbon
Spring Cloud Ribbon 是一个基于 Http 和 TCP 的客服端负载均衡工具,它是基于 Netflix Ribbon 实现的。客户端负载均衡即是当浏览器向后台发出请求的时候,客户端会向 Eureka Server 读取注册到服务器的可用服务信息列表,根据设定的负载均衡策略(没有设置即用默认的),选择向哪台服务器发送请求 本文将介绍Ribbon的工作原理以及如何在项目中使用 一、Ribbon简介 1、Ribbon工作原理 ribbon实现的关键点是为ribbon定制的RestTemplate,ribbon利用了RestTemplate的拦截器机制,在拦截器中实现ribbon的负载均衡。负载均衡的基本实现就是利用applicationName从服务注册中心获取可用的服务地址列表,然后通过一定算法负载,决定使用哪一个服务地址来
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Red5直播服务器,属于Java语言的直播服务器
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS8编译安装MySQL8.0.19
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS6,CentOS7官方镜像安装Oracle11G
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS8安装Docker,最新的服务器搭配容器使用