Python爬虫基础学习,从一个小案例来学习xpath匹配方法
学习目的是为了实践,而实践又可以加深我们的学习效率,今天给大家带来了lxml库的xpath匹配方法的实例!教程大家网上搜索有很多,我们只看实用功能,当然,如果您已经很熟练了,可以跳过不看的! 开始前准备 版本:python3.6 工具:pycharm、lxml库(pip安装即可) 内容:新浪新闻搜索关键字抓取相关信息并保存本地txt文档 思路 我们先打开网页url,看下它的页面数据是怎么加载的 搜索世界杯,然后在开发者工具中先抓包看看是否为json数据,结果发现并没有,那么直接打开源代码看看呢 源代码往下翻,到1200行左右看内容,眼熟不?所有的新闻都在源代码中存在,那么就简单了!直接可以抓取相关内容 开始写代码吧 先介绍一下xpath的语法,其实各种教程都有写,我们只需要记住几点 它解析网页源代码的语法为etree.HTML(html)#html为网页源代码的文本形式 它的匹配方式为data.xpath(‘//a[@class=*]/text()’)#data为上步解析后的源码或者指定源码 它匹配出来的结果为列表 尽量不要用开发者工具提供的复制xpath路径功能,因为它对于后期维护或...