DC学院爬虫学习笔记(四):使用Xpath解析豆瓣短评
解析神器Xpath: 1. 什么是Xpath XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。 XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作小型查询语言。 2. Xpath解析网页的流程 首先通过Requests库获取网页数据 通过网页解析,得到想要的数据或者新的链接 网页解析可以通过Xpath或者其它解析工具进行,Xpath在是一个非常好用的网页解析工具 3. 常用的网页解析 正则表达式使用比较困难,学习成本较高 BeautifulSoup性能较慢,相对于Xpath较难,在某些特定场景下有用 Xpath使用简单,速度快(Xpath是lxml里面的一种),是抓取数据最好的选择 Xpath的使用: 1. 使用Xpath解析网页数据的步骤 从lxml导入etree 解析数据,返回xml结构 使用.xpath()寻找和定位数据 import requests from lxml ...