「Python爬虫系列讲解」3.正则爬虫之牛刀小试-低调大师

「Python爬虫系列讲解」3.正则爬虫之牛刀小试

2020-08-12 753

作者： 荣仔！最靓的仔！
专栏地址： http://suo.im/5Rh1z1

本文目录

1 re模块

正则表达式（Regular Expression, Regex 或 RE）又称正规表示法或常规表示法，常用来检索、替换那些符合某个模式的文本。

它首先设定好一些特殊的字符及字符组合，然后通过组合的“规则字符串”来对表达式进行过滤，从而获取或匹配用户想要的特定内容。

1.1 re模块

Python 通过 re 模块提供对正则表达式的支持，但在使用正则表达式之前需要导入 re 模块才能调用该模块的功能函数。

import re

其基本步骤是：

将正则表达式的字符串形式编译为 pattern 实例；
使用 pattern 实例处理文本并获得一个匹配实例；
使用 match 实例获得所需信息；

常用函数是 findall，原型如下：

findall(String[, pos[, endpos]])|re.findall(pattern, string[, flags])

该函数表示搜索字符串 string，然后以列表形式返回全部匹配字符串。

其中，参数 re 包括3个常见值。（括号内是完整写法）

re.I(re.IGNORECASE)  # 使匹配忽略大小写
re.M(re.MULTILINE)   # 允许多行匹配
re.S(re.DOTALL)      # 匹配包括换行在内的所有字符

另外，pattern 对象是一个编译好的正则表达式，通过 pattern 提供的一系列方法可以对文本进行匹配查找；pattern 对象不能直接实例化，必须使用 re.compile() 进行构造。

1.2 complie方法

re 模块包括一些常用的操作函数，比如 complie() 函数，其原型如下：

re.compile(pattern[, flags])

该函数根据包含正则表达式的字符串创建模式对象，返回一个 pattern 对象。其中，参数 flags 是匹配模式，可以使用按位或“|”表示同时生效，也可以在正则表达式字符串中指定。

# 举例说明如何使用正则表达式来获取字符串中的数字内容
import re
string = 'A1.45, b5, 6.45, 8.82'
regex = re.compile(r"\d+\.?\d*")
print(regex.findall(string))

结果如下：

1.3 match方法

match 方法是从字符串的 pos 下标处开始匹配 pattern，如果 pattern 结束时已经匹配，则返回一个 match 对象；如果匹配过程中 pattern 无法匹配，或者匹配未结束就已达到 endpos，则返回 None。

match 方法原型如下：

match(string[, pos[, endpos]]) | re.match(patter, string[, flags])

其中，参数 string 表示字符串；pos 表示下标，pos 和 endpos 的默认值分别为 0 和 len(string)；参数 flags 用于编译 pattern 时指定匹配模式。

1.4 search方法

search 方法用于查找字符串中可以匹配成功的子字符串。从字符串的 pos 下标处尝试匹配 pattern，如果 pattern 结束时仍可匹配，则返回一个 match 对象，如果 pattern 结束时仍无法匹配，则将 pos 加 1 后重新尝试匹配，若知道 pos = endpos 时仍无法匹配，则返回 None。

search 方法函数原型如下：

search(string[, pos[, endpos]]) | re.search(pattern, string[, flags])

其中，参数 string 表示字符串；pos 表示下标，pos 和 endpos 的默认值分别为 0 和 len(string)；参数 flags 用于编译 pattern 时指定匹配模式。

1.5 group和groups方法

group([group1, …]) 方法用于获得一个或多个分组截获的字符串，当它指定多个参数时将以元组形式返回 None，截获多次的组返回最后一次截获的字符串。

groups([default]) 方法以元组形式返回全部分组截获的字符串，相当于多次调用 group，其中参数 default 表示没有截获字符串的组以该值代替，默认为 None。

2 Python网络数据爬取的常用模块

2.1 urllib模块

urllib 是 Python 用于获取 URL（Uniform Resource Locators，同意资源定位器）的库函数，可以用于爬取远程的数据并保存，甚至可以设置消息头（header）、代理、超时认证等。

urllib 模块提供的上策接口使用户能够像读取本地文件一样读取 WWW 或 FTP 上的数据，使用起来比C++、C#等编程语言更加方便。

2.1.1 urlopen

函数原型如下：

urlopen(url, data = None, proxies = None)

该方法用于创建一个远程 URL 的类文件对象，然后像本地文件一样操作这个类文件对象来获取远程数据。其中参数 url 表示远程数据的路径，一般是网址；参数 data 表示以 post 方式提交到 url 的数据；参数 proxies 用于设置代理；返回值是一个类文件对象。

本实例用来介绍 urllib 库函数爬取百度官网的实例


import urllib.request
import webbrowser as web
 
url = 'http://www.baidu.com'
content = urllib.request.urlopen(url)  # 打开链接
 
print(content.info)     # 头信息
print(content.geturl)   # 请求url
print(content.getcode)  # HTTP状态码
 
# 保存至本地并通过浏览器打开
response = urllib.request.urlopen(url).read()
open('baidu.html', 'w').write(response.decode('UTF-8'))

结果如下：

2.1.2 urlretrieve

urlretrieve 方法是将远程数据下载到本地，函数原型如下：

urlretrieve(url, filename = None, reporthook = None, data = None)

其中，参数 filename 指定了保存到本地的路径，如果省略该函数，则 urllib 会自动生成一个临时文件来保存数据；

参数 reporthook 是一个回调参数，当连接上服务器，响应的数据块传输完毕时，会触发该调回函数，通常使用该回调函数来显示当前的下载进度；

参数 data 是指传递到服务器的数据。

本实例用来演示如何将新浪首页爬取到本地，并保存在“F:/sina.html”文件中，同时显示下载进度。

from urllib.request import urlretrieve
 
# 设置函数来表示下载文件至本地，并显示下载进度
def Download(a, b, c):
    # a--已经下载的数据块
    # b--数据块的大小
    # c--远程文件的大小
    per = 100.0 * a * b / c
    if per >100:
        per = 100
    print('%.2f%%' % per)
 
url = 'http://www.sina.com.cn'
local = 'F:/sina.html'
urlretrieve(url, local, Download)

结果如下：

2.2 urlparse模块

urlparse 模块主要是对 url 进行分析，其主要的操作时拆分和合并 url 各个部件。它可以将 url 拆分成 6 个部分，并返回元组，也可以把拆分后的部分再组成一个 url。

urlparse 模块包括的函数主要有 urlparse、urlunparse 等。

# python3版本中已经将urllib2、urlparse、和robotparser并入了urllib模块中，并且修改urllib模块
from urllib.parse import urlunparse
from urllib.parse import urlparse

2.2.1 urlparse函数

函数原型如下：

urlparse(urlstring[, scheme[, allow_fragments]])

该函数将 urlstring 值解析成 6 各部分，从 urlstring 中获取 URL，并返回元组（scheme，netloc，path、params、query、fragment）。该函数可用于确定网络协议（HTTP、FTP等）、服务器地址、文件路径等。

from urllib.parse import urlparse
 
url = urlparse('https://blog.csdn.net/IT_charge/article/details/105714745')
 
# 输出内容包括以下六个部分scheme, netloc, path, params, query, fragment
print(url)
print(url.netloc)

结果如下：

2.2.2 urlunparse函数

同样可以调用 urlunparse() 函数将一个元祖内容构建成一条 url，函数原型如下：

urlunparse(parts)

该元组类似 urlparse 函数，它接收元组（scheme, netloc, path, params, query, fragment）后，会重新组成一个具有正确格式的URL，以便共 Python 的其他 HTML 解析模块使用。

from urllib.parse import urlunparse
from urllib.parse import urlparse
 
url = urlparse('https://blog.csdn.net/IT_charge/article/details/105714745')
 
# 输出内容包括以下六个部分scheme, netloc, path, params, query, fragment
print(url)
print(url.netloc)
 
# 重组url
u = urlunparse(url)
print(u)

结果如下：

2.3 requests模块

requests 模块是用 Python 语言编写的、基于 urllib 的第三方库，其采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便，既可以节约大量的工作，又完全满足 HTTP 的测试需求。

安装 requests 模块方法

pip install requests

2.3.1 导入requests模块

使用语句如下：

import requests

2.3.2 发送GET/POST请求

requests 模块可以发送 HTTP 的两种请求，GET 请求和 POST 请求。其中 GET 请求可以采用 url 参数传递数据，它从服务器上获取数据，而 POST 请求是向服务器传递数据，该方法更为安全。

# 这里给出 get 和 post 请求获取某个网站网页的方法，得到一个命名为 response 的响应对象，通过这个对象获取我们所需要的信息
r = requests.get('https://github.com/timeline.json)
r = requests.post('https://httpbin.org/post)

2.3.3 传递参数

url 通常会传递某种数据，这种数据采用键值对的参数形式置于 URL 中。

requests通过 params 关键字设置 URL 的参数，以一个字符串字典来提供这些参数。

# 传递 key1=value1 和 key2=value2 到 httpbin.org/get 后
import requests
 
payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.get('http://httpbin.org/get', params = payload)
print(r.url)

结果如下：

2.3.4 相应内容

requests 会自动解码来自服务器的内容，并且大多数 Unicode 字符集都能被无缝解码。当请求发出后，requests 会基于 HTTP 头部对响应的编码做出有根据的推测。

import requests
r = requests.get('https://github.com/timeline.json')
print(r.text)

结果如下：

2.3.5 定制请求头

只需要简单地传递一个字典（dict）给消息头 headers 参数即可。以网站“堆糖”为例，其 headers 参数在 User-Agent 里找。

定制请求头是为了伪装爬虫程序，不会被网站轻易检测出来，亦即不会返回 403 错误。

演示如下：

# 这里假设给 堆糖 网站指定一个消息头
import requests
 
base_url = 'https://www.duitang.com/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
}
response = requests.get(url=base_url, headers=headers)
print(response)

结果如下：

3 正则表达式爬取网络数据的常见方法

3.1 爬取标签间的内容

HTML语言是采用标签对的形式来编写网站的，包括起始标签和结束标签，比如、、等。

3.1.1 爬取title标签间的内容

首先可以采用正则表达式“‘’”来爬取起始标签之间的内容。

# 本实例用来爬取百度官网标题——“百度一下，你就知道”
import re
import requests
url = 'https://www.baidu.com/?tn=78040160_5_pg&ch=8'
response = requests.get(url).content.decode('utf-8')
title = re.findall(r'<title>(.*?)</title>', response)
print(title[0])

结果如下：

3.1.2 爬取超链接标签间的内容

在 HTML 中，超链接标题用于表示超链接。

import re
import requests
 
url = "http://www.baidu.com"
content = requests.get(url).content.decode('utf-8')
 
# 获取完整的超链接
res1 = re.compile('<a(.*?)</a>')
urls1 = re.findall(res1, content)
for u1 in urls1:
    print(u1)
 
# 获取超链接<a>和</a>之间的内容
res2 = re.compile('<a.*?>(.*?)</a>')
urls2 = re.findall(res2, content)
for u2 in urls2:
    print(u2)

结果如下：

3.1.3 爬取re标签和td标签间的内容

网页常用的布局包括 table 布局和 div 布局，其中，table 布局中常见的标签包括tr，th和td，tr(table row)表示表格行为，td(table data)表示表格数据，th(table heading)表示表格表头。

首先假设存在下面这样一个HTML代码。

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>表格</title>
</head>
<body>
<table border="1">
    <tr><th>编号</th><th>课程名</th></tr>
    <tr><td>001</td><td>Python程序设计语言</td></tr>
    <tr><td>002</td><td>JavaScript</td></tr>
    <tr><td>003</td><td>网络数据爬取及分析</td></tr>
</table>
</body>
</html>

结果如下：

此时，看看怎么使用Python代码获取上述信息呢？

import re
 
# 获取<tr> </tr>之间的内容
f = open("t.html","r",encoding="utf-8") # 读取文件
f = f.read()         # 把文件内容转化为字符串
trs = re.findall(r'<tr>(.*?)</tr>', f, re.S|re.M)
for tr in trs:
    print(tr)
 
# 获取<th> </th>之间的内容
print('\n')
for m in trs:
    ths = re.findall(r'<th>(.*?)</th>', m, re.S|re.M)
    for th in ths:
        print(th)
 
# 获取<td> </td>之间的内容
print('\n')
tds = re.findall(r'<td>(.*?)</td><td>(.*?)</td>', f, re.S|re.M)
for td in tds:
    print(td[0], td[1])

结果如下：

3.2 爬取标签中的参数

3.2.1 爬取超链接标签的URL

HTML超链接的基本格式为 “ 链接内容 ”。

import re
 
content = '''
<a href="http://news.baidu.com" name="tj_trnews" class="mnav">新闻</a>
<a href="http://www.hao123.com" name="tj_trhao123" class="mnav">hao123</a>
<a href="http://map.baidu.com" name="tj_trmap" class="mnav">地图</a>
'''
 
res = r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')"
urls = re.findall(res, content, re.I|re.S|re.M) 
for url in urls:
    print(url)

结果如下：

3.2.2 爬取图片超链接标签的URL

在HTML中，我们可以看到各式各样的图片，其中图片标签的基本格式为“ <img src = 图片地址/> ” ，只有通过爬取这些图片原地址，才能下载对应的图片至本地。

import re
 
content = '''
<img alt = "meizi" src = "http://img.ivsky.com/img/tupian/pre/202001/15/gancaoduo-002.jpg"/>
'''
 
res = '<img .*? src = "(.*?)"/>'
urls = re.findall(res, content, re.I|re.S|re.M)
print(urls)

结果如下：

3.2.3 获取URL中的最后一个参数

在使用 Python 爬取图片的过程中，通常会遇到图片对应的 URL 最后一个字段用来对图片命名的情况，如前面的“gancaoduo-002.jpg”，因此就需要通过解析 URL “/” 后面的参数来获取图片名字。

import re
 
content = '''
<img alt = "meizi" src = "http://img.ivsky.com/img/tupian/pre/202001/15/gancaoduo-002.jpg"/>
'''
 
# res = '<img .*? src = "(.*?)"/>'
# urls = re.findall(res, content, re.I|re.S|re.M)
# print(urls)
 
urls = 'http://img.ivsky.com/img/tupian/pre/202001/15/gancaoduo-002.jpg'
# 采用“/”分隔字符串，进而获取最后一个值
picture_name = urls.split('/')[-1]
print(picture_name)

结果如下：

3.3 字符串处理及替换

当使用正则表达式爬取网页文本时，首先需要调用 find() 函数来找到指定的位置，然后在进行进一步爬取。

# 比如先获取class属性为“infobox”的表格table，然后再进行定位爬取
start = content.find(r'<table class="infobox>')   # 起点位置
end = content.find(r'</table>')                   # 终点位置
infobox = text[start:end]
print(infobox)

在爬取过程中可能会爬取无关变量，此时需要对无关内容进行过滤，这里推荐使用replace()函数和正则表达式进行处理。

import re
 
content = '''
    <tr><td>000</td><td>软件工程</td></tr>
    <tr><td>001</td><td>Python程序设计语言<br/></td></tr>
    <tr><td>002</td><td><B>JavaScript</B></td></tr>
    <tr><td>003</td><td>网络数据 &nbsp; 爬取及分析</td></tr>
'''
 
res = r'<td>(.*?)</td><td>(.*?)</td>'
texts = re.findall(res, content, re.S|re.M)
for text in texts:
    print(text[0], text[1])

结果如下：

此时需要过滤掉多余的字符串，如换行（）、空格（）、加粗（），过滤代码如下。

import re
 
content = '''
    <tr><td>000</td><td>软件工程</td></tr>
    <tr><td>001</td><td>Python程序设计语言<br/></td></tr>
    <tr><td>002</td><td><B>JavaScript</B></td></tr>
    <tr><td>003</td><td>网络数据 &nbsp; 爬取及分析</td></tr>
'''
 
res = r'<td>(.*?)</td><td>(.*?)</td>'
texts = re.findall(res, content, re.S|re.M)
for text in texts:
    value0 = text[0].replace('<br/>', "").replace('&nbsp;', "")
    value1 = text[1].replace('<br/>', "").replace('&nbsp;', "")
    if '<B>' in value1:
        text_value = re.findall(r'<B>(.*?)</B>', value1, re.S|re.M)
        print(value0, text_value[0])
    else:
        print(value0, value1)

结果如下：

采用 replace() 函数将字符串 “” 和 “< >” 转换成空白实现过滤，而加粗（）则需要使用正则表达式进行过滤。

4 本文总结

正则表达式通过组合的“规则字符串”对表达式进行过滤，从复杂内容中匹配想要的信息。它的主要对象是文本，适合文本字符串等内容，比如匹配URL、E-mail这种纯文本的字符，但不是和匹配文本意义。各种编程语言都能使用正则表达式，比如C#、Java、Python等。

正则表达式爬虫常用于获取字符串中的某些内容，比如提取博客阅读量和评论数等数字，截取URL中的某个参数，过滤掉特定的字符或检查所获取的数据是否符合某个逻辑，验证URL或日期类型等。由于其具有灵活性、逻辑性和功能性较强的特点，从而能够迅速地以极简单地方式从复杂字符串中匹配到想要的信息。

最后再补充一点，在Python网络数据爬取中，与 re 模块（正则表达式）有同样功能的还有 xpath、BeautifulSoup等。

未完，待续......

如果你觉得本文写得好，可以扫描下方二维码，关注作者的CSDN博客，更多精彩文章抢先看。

关注微信公众号『数据分析与统计学之美』，添加作者微信号，拉你入群哦，气氛杠杠的！看到这里，麻烦您点个再看，让更多朋友看到哦！

喜欢本文点个在看

本文分享自微信公众号 - 数据分析与统计学之美（gh_21c25c7e71d0）。
如有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

微信关注我们

原文链接：https://my.oschina.net/u/4579597/blog/4490741

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

nodejs创建线程问题

我们知道在nodejs中可以使用new Worker创建线程。今天有个同学恰好问到，怎么判断创建线程成功，这也是最近开发线程池的时候遇到的问题。nodejs文档里也没有提到如何捕获创建失败这种情况。所以只能通过源码去找答案。不过坏消息是，我们无法捕获这个这个错误。下面看一下源码。我们直接从c++层开始分析。当我们调用new Worker的时候，最后会调用c++的StartThread函数（node_worker.cc）创建一个线程。 CHECK_EQ(uv_thread_create_ex(&w->tid_,&thread_options,[](void*arg){//...},static_cast<void*>(w)),0); 我们看uv_thread_create_ex的逻辑 intuv_thread_create_ex(uv_thread_t*tid,constuv_thread_options_t*params,void(*entry)(void*arg),void*arg){//忽略部分代码err=pthread_create(tid,...

2020-08-12

607

摘要：近几年，Rust语言以极快的增长速度获得了大量关注。其特点是在保证高安全性的同时，获得不输C/C++的性能。在Rust被很多项目使用以后，其实际安全性表现到底如何呢？近几年，Rust语言以极快的增长速度获得了大量关注。其特点是在保证高安全性的同时，获得不输C/C++的性能，让系统编程领域难得的出现了充满希望的新选择。在Rust被很多项目使用以后，其实际安全性表现到底如何呢？今年6月份，来自3所大学的5位学者在ACM SIGPLAN国际会议（PLDI'20）上发表了一篇研究成果，针对近几年使用Rust语言的开源项目中的安全缺陷进行了全面的调查。这项研究调查了5个使用Rust语言开发的软件系统，5个被广泛使用的Rust库，以及两个漏洞数据库。调查总共涉及了850处unsafe代码使用、70个内存安全缺陷、100个线程安全缺陷。在调查中，研究员不光查看了所有漏洞数据库中报告的缺陷和软件公开报告的缺陷，还查看了所有开源软件代码仓库中的提交记录。通过人工的分析，他们界定出提交所修复的BUG类型，并将其归类到相应的内存安全/线程安全问题中。所有被调查过的问题都被整理到了公开的Git仓库...

2020-08-13

675

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。