Python学习，还在用正则或者bs4做爬虫吗？来试试css选择器吧

2018-06-26 674

之前写的一些爬虫都是用的正则、bs4、xpath做为解析库来实现，如果你对web有所涉及，并且比较喜欢css选择器，那么就有一个更适合的解析库—— PyQuery。我们就用一个非常简单的小例子来看看css选择器做爬虫是怎么样的！

安装

直接pip安装即可：pip install pyquery

安装完成后，运行 pip show pyquery，如果出现相关信息即为安装完成！

如果pip安装失败，可以去官网https://pypi.org/project/pyquery/#downloads下载wheel文件，然后用pip安装即可，注意文件名字要写全，比如：pip install pyquery-1.2.17-py2.py3-none-any.whl ,该命令请在同一目录下使用。

使用

确保安装成功后就可以开始使用了，它和其他库一样，PyQuery 初始化的时候也需要传入 HTML 数据源来初始化一个操作对象，它的初始化方式有多种，比如直接传入字符串，传入 URL，传文件名。

我们用requests库搭配来写个简单的抓取凤凰新闻的小爬虫，方便理解：

打开凤凰网——资讯——即时新闻，我们就以抓取这个页面的所有新闻为例吧！

这里没有反爬，页数也不是很多（4页），非常方便用来讲解！分析下网页结构后发现，所有的新闻目录都存在于网页源代码中，每页大概有60多条，我们先来抓取一页的标题和url试试

可以看到，标题和url都在class=newsList的div下的ul->li->a标签下（用a标签的target属性匹配的话太多，不好清洗），我们可以直接写如代码去获取相关内容了，如下图：

前面是常规的requests库获取源代码html，然后用PyQuery解析网页源代码，重点是后面的定位到a标签和取出内容。

doc(‘.newsList ul a’) 的意思是定位class属性为newsList的标签下面的ul下面的a标签，注意newsList前面有个点，代表class属性，ul和a标签之间有个li标签，因为ul下的a标签是唯一，所以省略了(ul标签没有省略是因为最下面翻页部分也在这个div下，省略会有其他内容出现，下面会单独提取)!然后定位到a标签后，用items（）方法将所有的a标签取出，然后遍历取出里面的内容。

这里提取标签的内容用了2个方法text()和attr()：

text()方法，可以提取出标签下的所有文本内容，注意是所有！！！

attr()方法，取出标签的某属性，2中写法都可以：new.attr.href 和new.attr(‘href’)

然后在看翻页，我们只需要判断是否存在下一页，存在时，查找所有的标题和url，然后获取下一页的url，继续查找，直到不存在下一页，所有的页面就都遍历过了！为了方便，直接做成了一个函数，来看代码

这里同样的用class属性来定位，找到它下的a标签，然后判断‘下一页’是否存在a标签的文本中，存在则取出下一页的url，然后再次调用函数，不存在则退出！

这样，我们就得到了4页所有的title和url的内容，在来看看新闻详情页的情况，所有的网页文本内容都在id=”main_content”的div下的好多p标签中，那么就用到了text()方法了！来看图

这样，我们就取到了所有内容，整合下，最后代码如下：

随手写的代码，就不写入文本或者数据库什么了，主要是学习css选择器的使用！

最后

到这里PyQuery 的用法就介绍完了，当然只是用到了很少一部分，还有好多功能没有在这里使用，大家有兴趣可以去看看官方文档或者教程，而且css选择器也可以使用在scrapy框架！是非常方便的一种方式！

现在学习python的人越来越多，很多人还在找资料，或者疑问哪本书是否有用，或者想找个可以指导的老师，或者在寻找一起学习的小伙伴，如果你也是需要资料或者需要帮助的话，可以关注我，私信一起来交流学习！

微信关注我们

原文链接：https://yq.aliyun.com/articles/639538

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Metaspace泄漏排查

原创文章，转载请注明一、案件背景近日，一个线上应用开始频繁报警：异常日志、接口rt超时、load高、tcp重传率高等等。现场监控如下：从基础监控来看，cpu使用率不算特别异常，而load高说明等待cpu资源的线程队列长，配合rt上涨来看，推测是线程出现了堆积，而线程堆积一般有两种情况：线程内部处理耗时变长：比如缓存未命中、被下游请求block、慢sql、循环逻辑耗时等。 JVM因GC、锁擦除等jvm操作原因触发stop the world，导致线程等待。下面进一步定位问题。二、问题定位线程耗时变长？因为应用重度依赖缓存，一起排查问题的同学发现tair成功率也有下降，于是找tair同学开始排查。 tair的同学表示集群正常，观察同机房其他应用读写tair也正常，推测问题还是出在应用自身。（其实应用自身负载高时，会引起tair超时和序列化失败，表象来看都像tair有问题，心疼下tair的同学。。。）另外从db监控来看也没有慢sql出现，近期也没有逻辑改动较大的发布，暂时从其他方向看看。 STW 接下来比较醒目的就是GC监控了，监控如下：可以看到问题期间GC次数和耗时明显...

2018-06-26

922

先来说eval的用法，内容比较简单，熟悉的可以跳过 eval函数接收一个参数s，如果s不是字符串，则直接返回s。否则执行s语句。如果s语句执行结果是一个值，则返回此值，否则返回undefined。需要特别注意的是对象声明语法“{}”并不能返回一个值，需要用括号括起来才会返回值，简单示例如下： var s1='"a" + 2'; //表达式 var s2='{a:2}'; //语句 alert(eval(s1)); //->'a2' alert(eval(s2)); //->undefined alert(eval('(' + s2 + ')')); //->[object Object] 可以看到，对于对象声明语句来说，仅仅是执行，并不能返回值。为了返回常用的“{}”这样的对象声明语句，必须用括号括住，以将其转换为表达式，才能返回其值。这也是使用JSON来进行Ajax开发的基本原理之一。在例子中可以清楚的看到，第二个alert语句输出的是undefined，而第三个加了括号后输出的是语句表示的object对象。现在来说本文的重点，如何在函数内执行全局代码。为了...

2018-06-26

627

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。

Python学习，还在用正则或者bs4做爬虫吗？来试试css选择器吧

安装

最后

Metaspace泄漏排查

js中eval详解，用Js的eval解析JSON中的注意点

相关文章

发表评论

资源下载

Mario

腾讯云软件源

Spring

WebStorm

欢迎您来访！