Python学习,还在用正则或者bs4做爬虫吗?来试试css选择器吧
之前写的一些爬虫都是用的正则、bs4、xpath做为解析库来实现,如果你对web有所涉及,并且比较喜欢css选择器,那么就有一个更适合的解析库—— PyQuery。我们就用一个非常简单的小例子来看看css选择器做爬虫是怎么样的!
安装
直接pip安装即可:pip install pyquery
安装完成后,运行 pip show pyquery,如果出现相关信息即为安装完成!
如果pip安装失败,可以去官网https://pypi.org/project/pyquery/#downloads下载wheel文件,然后用pip安装即可,注意文件名字要写全,比如:pip install pyquery-1.2.17-py2.py3-none-any.whl ,该命令请在同一目录下使用。
使用
确保安装成功后就可以开始使用了,它和其他库一样,PyQuery 初始化的时候也需要传入 HTML 数据源来初始化一个操作对象,它的初始化方式有多种,比如直接传入字符串,传入 URL,传文件名。
我们用requests库搭配来写个简单的抓取凤凰新闻的小爬虫,方便理解:
打开凤凰网——资讯——即时新闻,我们就以抓取这个页面的所有新闻为例吧!
这里没有反爬,页数也不是很多(4页),非常方便用来讲解!分析下网页结构后发现,所有的新闻目录都存在于网页源代码中,每页大概有60多条,我们先来抓取一页的标题和url试试
可以看到,标题和url都在class=newsList的div下的ul->li->a标签下(用a标签的target属性匹配的话太多,不好清洗),我们可以直接写如代码去获取相关内容了,如下图:
前面是常规的requests库获取源代码html,然后用PyQuery解析网页源代码,重点是后面的定位到a标签和取出内容。
doc(‘.newsList ul a’) 的意思是定位class属性为newsList的标签下面的ul下面的a标签,注意newsList前面有个点,代表class属性,ul和a标签之间有个li标签,因为ul下的a标签是唯一,所以省略了(ul标签没有省略是因为最下面翻页部分也在这个div下,省略会有其他内容出现,下面会单独提取)!然后定位到a标签后,用items()方法将所有的a标签取出,然后遍历取出里面的内容。
这里提取标签的内容用了2个方法text()和attr():
text()方法,可以提取出标签下的所有文本内容,注意是所有!!!
attr()方法,取出标签的某属性,2中写法都可以:new.attr.href 和new.attr(‘href’)
然后在看翻页,我们只需要判断是否存在下一页,存在时,查找所有的标题和url,然后获取下一页的url,继续查找,直到不存在下一页,所有的页面就都遍历过了!为了方便,直接做成了一个函数,来看代码
这里同样的用class属性来定位,找到它下的a标签,然后判断‘下一页’是否存在a标签的文本中,存在则取出下一页的url,然后再次调用函数,不存在则退出!
这样,我们就得到了4页所有的title和url的内容,在来看看新闻详情页的情况,所有的网页文本内容都在id=”main_content”的div下的好多p标签中,那么就用到了text()方法了!来看图
这样,我们就取到了所有内容,整合下,最后代码如下:
随手写的代码,就不写入文本或者数据库什么了,主要是学习css选择器的使用!
最后
到这里PyQuery 的用法就介绍完了,当然只是用到了很少一部分,还有好多功能没有在这里使用,大家有兴趣可以去看看官方文档或者教程,而且css选择器也可以使用在scrapy框架!是非常方便的一种方式!
现在学习python的人越来越多,很多人还在找资料,或者疑问哪本书是否有用,或者想找个可以指导的老师,或者在寻找一起学习的小伙伴,如果你也是需要资料或者需要帮助的话,可以关注我,私信一起来交流学习!
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Metaspace泄漏排查
原创文章,转载请注明 一、案件背景 近日,一个线上应用开始频繁报警:异常日志、接口rt超时、load高、tcp重传率高等等。现场监控如下: 从基础监控来看,cpu使用率不算特别异常,而load高说明等待cpu资源的线程队列长,配合rt上涨来看,推测是线程出现了堆积,而线程堆积一般有两种情况: 线程内部处理耗时变长:比如缓存未命中、被下游请求block、慢sql、循环逻辑耗时等。 JVM因GC、锁擦除等jvm操作原因触发stop the world,导致线程等待。 下面进一步定位问题。 二、问题定位 线程耗时变长? 因为应用重度依赖缓存,一起排查问题的同学发现tair成功率也有下降,于是找tair同学开始排查。 tair的同学表示集群正常,观察同机房其他应用读写tair也正常,推测问题还是出在应用自身。(其实应用自身负载高时,会引起tair超时和序列化失败,表象来看都像tair有问题,心疼下tair的同学。。。) 另外从db监控来看也没有慢sql出现,近期也没有逻辑改动较大的发布,暂时从其他方向看看。 STW 接下来比较醒目的就是GC监控了,监控如下: 可以看到问题期间GC次数和耗时明显...
- 下一篇
js中eval详解,用Js的eval解析JSON中的注意点
先来说eval的用法,内容比较简单,熟悉的可以跳过 eval函数接收一个参数s,如果s不是字符串,则直接返回s。否则执行s语句。如果s语句执行结果是一个值,则返回此值,否则返回undefined。 需要特别注意的是对象声明语法“{}”并不能返回一个值,需要用括号括起来才会返回值,简单示例如下: var s1='"a" + 2'; //表达式 var s2='{a:2}'; //语句 alert(eval(s1)); //->'a2' alert(eval(s2)); //->undefined alert(eval('(' + s2 + ')')); //->[object Object] 可以看到,对于对象声明语句来说,仅仅是执行,并不能返回值。 为了返回常用的“{}”这样的对象声明语句,必须用括号括住,以将其转换为表达式,才能返回其值。这也是使用JSON来进行Ajax开发的基本原理之一。在例子中可以清楚的看到,第二个alert语句输出的是undefined,而第三个加了括号 后输出的是语句表示的object对象。 现在来说本文的重点,如何在函数内执行全局代码。为了...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS关闭SELinux安全模块
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Hadoop3单机部署,实现最简伪集群
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS6,CentOS7官方镜像安装Oracle11G
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8编译安装MySQL8.0.19
- CentOS6,7,8上安装Nginx,支持https2.0的开启