19、 Python快速开发分布式搜索引擎Scrapy精讲

19、 Python快速开发分布式搜索引擎Scrapy精讲—css选择器

2019-07-04 713

css选择器

1、

2、

3、

::attr()获取元素属性，css选择器

::text获取标签文本

举例：

extract_first('')获取过滤后的数据，返回字符串，有一个默认参数，也就是如果没有数据默认是什么，一般我们设置为空字符串

extract()获取过滤后的数据，返回字符串列表

# -*- coding: utf-8 -*-
import scrapy

class PachSpider(scrapy.Spider):
    name = 'pach'
    allowed_domains = ['blog.jobbole.com']
    start_urls = ['http://blog.jobbole.com/all-posts/']

    def parse(self, response):

        asd = response.css('.archive-title::text').extract()  #这里也可以用extract_first('')获取返回字符串
        # print(asd)

        for i in asd:
            print(i)

【转载自：http://www.lqkweb.com】

微信关注我们

原文链接：https://yq.aliyun.com/articles/707726

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

突破Java面试(18)-消息队列面试技巧总结

Github 其实如果我是面试官的话，我如果感觉你都把刚才那些问题都答出来了，我可能会继续刨根问底，深挖，问你，直到把你给问倒消息队列，kafka，复制的底层原理，leader选举的算法，增加partition以后的rebalance算法，扣很多很多的细节，如何优化kafka写入的吞吐量其实这块如果挖深了可以问的极其深，如果是我来深挖，可能会挖到ES底层的相关度评分算法（TF/IDF算法）、deep paging、上千万数据批处理、跨机房多集群同步、搜索效果优化，等等很多的实际生产问题。一种比较水的面试官，他可能还掌握不到我们这个面试突击教程水准，他其实连我们教程里的这些问题都没问到位比较nice的面试官，问的差不多了，对你还挺欣赏的，基本上就让你过了比较hard的面试官，干倒，虐你，故意要让你出丑，我不是这种，我只不过严格，我希望

2019-07-03

676

编写spiders爬虫文件循环抓取内容 Request()方法，将指定的url地址添加到下载器下载页面，两个必须参数，参数：url='url'callback=页面处理函数使用时需要yield Request() parse.urljoin()方法，是urllib库下的方法，是自动url拼接，如果第二个参数的url地址是相对路径会自动与第一个参数拼接 #-*-coding:utf-8-*- importscrapy fromscrapy.httpimportRequest#导入url返回给下载器的方法 fromurllibimportparse#导入urllib库里的parse模块 classPachSpider(scrapy.Spider): name='pach' allowed_domains=['blog.jobbole.com']#起始域名 start_urls=['http://blog.jobbole.com/all-posts/']#起始url defparse(self,response): """ 获取列表页的文章url地址，交给下载器 """ #获取当前页文章ur...

2019-07-04

527

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。