网络爬虫工程师必备技能——正则表达式re超详解（一文带你玩透re！）【6】-低调大师

网络爬虫工程师必备技能——正则表达式re超详解（一文带你玩透re！）【6】

2021-06-10 636

开源中国提供的正则表达式测试工具点我！

1.正则表达式RE

（1）为什么使用？
因为很多重要信息隐藏在复杂的文本中，RE可以找到哦！
（2）是什么？
从文本中定位需求内容的技术/规则
（3）怎么做？
见下：

（1）方法：

1.代码演示：

import re

str="网络爬虫大hEllo声告1231诉的433根深345蒂固7789网allen.时光飞逝股嘛份的嘛\n广泛嘛地吧自动安排"

################################第一部分：字符
#普通字符
#1.匹配规则：每个普通字符匹配其对应的字符
print(re.findall("自动",str))         #输出为：['自动']
# 拓展：匹配字符串中的.
print(re.findall("\.",str))           #输出为：['.']

#或关系   元字符：|
#2.匹配规则：匹配|两侧任意的正则表达式即可
print(re.findall("网|嘛",str))         #输出为：['网', '网', '嘛', '嘛']

#元字符  .
#3.匹配规则：匹配除换行外的任意一个字符
print(re.findall("嘛.",str))         #输出为：['嘛份', '嘛地']
print(re.findall("嘛.",str,re.S))    #输出为：['嘛份', '嘛\n', '嘛地']
# 注意：正则表达式中， re.S的作用：
# “.”的作用是匹配除“\n”以外的任何字符，也就是说，它是在一行中进行匹配。这里的“行”是以“\n”进行区分的。
# 如果不使用re.S参数，则只在每一行内进行匹配，如果一行没有，就换下一行重新开始，不会跨行。
# 而使用re.S参数以后，正则表达式会将这个字符串作为一个整体，将“\n”当做一个普通的字符加入到这个字符串中，在整体中进行匹配。

print("第二部分：字符集","*"*50)
#####################################第二部分：字符集
#元字符：  [字符集]
#4.匹配规则：匹配字符集中的任意一个字符       [0-9],[a-z],[A-Z]
print(re.findall("[大的时光]",str))         #输出为：['大', '的', '时', '光', '的']
print(re.findall("[0123456789]",str))       #输出为：['1', '2', '3', '1', '4', '3', '3', '3', '4', '5', '7', '7', '8', '9']
#拓展：{}可以选择数量：{4}表示选择四个在一起的；{m,n}表示匹配m次到n次的。
print(re.findall("[0123456789]{2}",str))     #输出为：['12', '31', '43', '34', '77', '89']
print(re.findall("[a-zA-Z]{5}",str))         #输出为：['hEllo', 'allen']

print("第三部分：常用","*"*50)
###################################第三部分：常用
#元字符：^
#匹配规则：匹配目标字符串的开头位置
print(re.findall("^hEllo","hEllodfdff"))        #不管hEllo后面是什么样的，只要开头符合就可匹配到

#元字符： $s
#匹配规则：匹配目标字符串的结尾位置
print(re.findall("hEllo$","sdfsdfsdfdfhEllo"))  #不管hEllo前面是什么，只要结尾符合就可匹配到

#匹配字符重复
#元字符  *
#匹配规则：匹配前面的字符出现0次或多次
print(re.findall("wo*","wooooooooo#$#w>>"))        #输出为：['wooooooooo', 'w']

#元字符  +
#匹配规则：匹配前面的字符出现1次或多次
print(re.findall("wo+","wooooooooo#$#w>>"))         #输出为：['wooooooooo']

#元字符  ？
#匹配规则：匹配前面的字符出现0次或1次
print(re.findall("wo?","wooooooooo#$#w>"))          #输出为：['wo', 'w']

#元字符  {n}
#匹配规则：匹配前面的字符出现n次
print(re.findall('1[0-9]{10}',"Jame:15659264582bir200001110052"))       #输出为：['15659264582']

#元字符  {m,n}
#匹配规则：匹配前面的字符出现m-n次
print(re.findall('[0-9]{5,10}',"Broon:095594 660956780"))

#匹配任意（非）数字字符
#元字符：   \d   \D
#匹配规则：\d匹配任意数字字符    \D匹配任意非数字字符
print(re.findall("\d{2,4}","Mysql:3306,http:88"))

#匹配任意（非）普通字符
#元字符  \w  \W
#匹配规则:\w匹配普通字符    \W匹配非普通字符
#说明：普通字符指数字，字母，下划线，汉子
print(re.findall("\w+","路灯serve=? #8888"))

#匹配任意（非）空字符
#元字符：  \s  \S
#匹配规则：\s匹配空格符   \S匹配非空字符
#说明：空字符指 空格 \r \n \t \v \f字符
print(re.findall("\w\S+\w+","hello \r \n \t\f  word"))

#匹配开头结尾位置
#元字符：\A  \Z
#匹配规则：\A表示开头位置，或者^   \Z表示结尾位置,或者$
print(re.findall("^h.....","hello path"))
print(re.findall("\Ah.....","hello path"))
print(re.findall(".h\Z","sddfh"))
print(re.findall(".h$","sddfh"))

#匹配（非）单词的边界位置
#元字符：\b   \B
#规则：\b表示单词边界  \B表示非单词边界
#说明：单词边界指数字字母（汉子）下划线与其他字符的交界位置
print(re.findall(r'\ba',"The a is asb"))

2.代码输出：

3.小总结：

4.正则表达式的转义：

5.贪婪模式和非贪婪模式：

1.定义：
贪婪模式：默认情况下，匹配重复的元字符总是尽可能多的向后匹配内容，比如：*+。
非贪婪模式（懒惰模式）：让匹配重复的元字符尽可能少的向后匹配内容。
2.贪婪模式转换为非贪婪模式
在匹配重复元字符后加"?"即可

举例讲解二者区别：
使用通用匹配.*时，有时候匹配到的可能并不是我们想要的结果！如下：

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^Hello.*(\d+).*World', content)

print(result)
print(result.group(1))

我们依然想获取中间的数字，所以中间依然写的是(\d+)。数字两侧内容杂乱，所以直接使用.*。最后，
组成^Hello.*(\d+).*World，看样子都OK，下面看运行结果：

我们只得到了数字7，分析：此处就涉及到了一个贪婪匹配和非贪婪匹配的问题！在贪婪模式下，.*会匹配尽可能多的字符。正则表达式中.*后面是\d+，也就是至少一个数字，但并没有指定具体多少个数字，因此，.*就尽可能匹配多的字符，这里就把123456都匹配了，给\d+留下一个可满足条件的数字7，最后内容就只剩下数字7了！但这很明显会给我们带来很大的不便，有时候，匹配结果会莫名其妙的少了一部分的内容。其实，只要使用非贪婪模式就可以解决这个问题。非贪婪匹配的写法是.*?，多了一个?。

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^Hello.*?(\d+).*World', content)

print(result)
print(result.group(1))

此时就可以成功获取1234567了。分析：贪婪匹配是尽可能匹配多的字符，非贪婪匹配就是尽可能匹配少的字符。
当.*?匹配到Hello后面的空白字符时，再后面就是数字了，而\d+恰好可以匹配，那么这里.*?就不再进行匹配，
交给\d+去匹配后面的数字了。所以这样，.*?就匹配了尽可能少的字符，\d+的结果就是1234567了！

所以：在做匹配的时候，字符串中间尽量使用非贪婪匹配，以免出现匹配结果缺失的情况！！！

但是需要注意，如果匹配的结果在字符串结尾，.*?就有可能匹配不到任何内容了，因为它会匹配尽可能少的字符。例如：

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^Hello.*?Regex\s(.*?)', content)
result2 = re.match('^Hello.*?Regex\s(.*)', content)


print(result.group(1))
print(result2.group(1))

（2）函数：

小讲解：修饰符！
正则表达式还包含一些可选标志修饰符来控制匹配的模式。修饰符被指定为一个可选的标志。

import re

content = """Hello 1234567 World_This is 
a Regex Demo"""
result = re.match('^Hello.*?(\d+).*?Demo$', content)

print(result.group(1))

我们在字符串中加入换行符，正则表达式也OK，用来匹配字符串中的数字。会发现报错！

也就是正则表达式没有匹配到这个字符串，返回结果是None，而我们又调用了方法group()，所以导致AttributeError。
分析：为何加入一个换行符就匹配不到了呢？这是因为.匹配的是除了换行符之外的任意字符，当遇到换行符的时候，它就不行了，这里只需要加入一个修饰符re.S即可修正这个错误！

import re

content = """Hello 1234567 World_This is 
a Regex Demo"""
result = re.match('^Hello.*?(\d+).*?Demo$', content, re.S)

print(result.group(1))

此修饰符的作用是使.匹配包括换行符在内的所有字符！

1.re.findall(pattern,string,flags=0)

（1）功能：根据正则表达式匹配所有目标字符串内容
（2）参数：pattern正则表达式
string目标字符串
flags功能标志位，扩展正则表达式的匹配
（3）返回值：匹配到的内容列表，如果正则表达式有子组织，只能获取到子组对应的内容。

import re

res_style = "'Date': 'Thu, 16 Apr 2020 03:53:52 GMT', 'Content-Type': 'application/json', 'Content-Length': '308', 'Connection': 'keep-alive', 'Server': 'gunicorn/19.9.0', 'Access-Control-Allow-Origin': '*', 'Access-Control-Allow-Credentials': 'true'"
print(re.findall( "'Content-Length': '(.*?)'",res_style,re.S))          #注意：匹配到的内容放在了列表里
print(re.findall( "'Content-Length': '(.*?)'",res_style,re.S)[0])       #从列表中拿到匹配到的内容

（2）re.match（pattern,string,flags=0）

第一部分：
位置限制
（1）功能：匹配某个目标字符串开始位置
（2）参数：pattern正则表达式
string目标字符串
（3）返回值：匹配内容match object

print(re.match('www','www.baidu.com'))
print(re.match('www','http://www.baidu.com'))       #注意：不在开头拿不到！
print(re.match('www','www.baidu.com').group())

小拓展：
span()方法可以输出匹配的范围（注意是匹配到的结果字符串在原字符串中的位置范围！）；
group()方法可以输出匹配到的内容！

第二部分：
上面可以得到匹配到的字符串内容，但是如果想从字符串中提取一部分内容，该如何做？
这里可以使用（）括号将想要提取的子字符串括起来。（）实际上标记了一个子表达式的开始和结束位置，被标记的每个子表达式会依此对应每一个分组，调用group()方法传入分组的索引即可获取提取的结果！

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^Hello\s(\d+)\sWorld', content)
print(result)
print(result.group())
print(result.group(1))
print(result.span())

group(1)会输出第一个被（）包围的匹配结果，如果正则表达式后面还有（）包括的内容，那么可以依此使用group(2),group(3)等来获取；group()会输出完整的匹配结果。

（3）re.search（pattern,string,flags=0）

数量限制
（1）功能：匹配目标字符串第一个符合的内容
（2）参数：pattern正则表达式
string目标字符串
（3）返回值：匹配内容match object

print(re.search('www','www.baidu.com'))
print(re.search('www','www.baidu.com').group())      #只匹配第一个
print(re.search('www','http:// www.baidu.com').group())

（4）re.sub（pattern,replace,string,max,flags=0）

（1）功能：使用一个字符串替换正则表达式匹配到的内容
（2）参数：pattern正则表达式
replace替换的字符串
string目标字符串
max最多替换几处，默认替换全部
flags功能标志位，扩展正则表达式的匹配
（3）返回值：替换后的字符串

phone = "2004-956-559 # 这是一个国外电话号码"
#删除字符串中的python注释
num = re.sub(r'#.*',"",phone)
print(num)
# 删除非数字（-）的字符串
num2 = re.sub(r'\D',"",phone)
print(num2)

（4）re.compile(pattern, flags=0):

上述的方法都是用来处理字符串的方法，此方法可以将正则字符串编译成正则表达式对象，以便在后面的匹配中复用。

比如下面有三个日期，我们想要去掉它们里面的时间，可以借助sub()方法，但是如果写三遍正则表达式过于复杂，所以我们可以先将正则表达式编译成一个正则表达式对象，以便下面复用！

import re

content1 = '2016-12-15 12:00'
content2 = '2016-1-12 16:00'
content3 = '2016-6-5 12:30'
pattern = re.compile('\d{2}:\d{2}')

result1 = re.sub(pattern, '', content1)
result2 = re.sub(pattern, '', content2)
result3 = re.sub(pattern, '', content3)

print(result1, result2, result3)

此外，compile()还可以传入修饰符，例如re.S,这样在search(),findall()的时候就不需要额外传了。可以说compile()方法是给正则表达式做了一层封装！

微信关注我们

原文链接：https://blog.51cto.com/u_15264787/2886327

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

官方页面显示Windows将迎来类似于macOS的代号命名法

微软意外地泄露了其下一个操作系统的名称 -- 它可能不是Windows 11。6月24日，微软将举办一个大型活动，届时公司将公布其Windows操作系统的未来。尽管我们知道操作系统的外观和功能将发生变化，但我们不知道的是这个新改进的Windows版本将被称为什么。在此之前已经有很多猜想，包括Windows 365、WindowsOS或简单的 "Windows"，但到目前为止，大多数线索都指向它是Windows 11。从某种程度上说，Windows 11这个名字很有意义，它帮助微软摆脱了围绕着Windows 10的一些负面情绪，同时也对外宣布这是一个巨大的变化的事实。然而，微软过去曾说过，Windows 10将是Windows的 "最后 "版本。虽然该公司完全有权利改变主意，推出Windows 11，但另一条线索已经浮出水面，表明微软可能计划在其软件的未来版本中采用macOS风格的命名惯例。苹果公司给其操作系统的新更新打上了地理标签，最新的是macOS Monterey，最近在微软的一些元数据中发现的一个补充信息(后来被删除)表明，之前Windows更新的代号 - 太阳谷很可能最...

2021-06-10

581

1.爬虫是什么？引言：爬虫？什么是爬虫？爬虫的定义：模拟浏览器发送请求，获取响应。书面化爬虫简介！！！点我哦！！！爬虫的作用： 1.数据采集抓取微博评论（机器学习舆情监控）抓取招聘网站的招聘信息（数据分析，挖掘）新浪滚动新闻百度新闻网站 2.软件测试爬虫之自动化测试虫师 3.12306抢票 4.网站上的投票 5.网络安全短信轰炸 web漏洞扫描爬虫的分类：根据被爬取的数量不同，分类：通用爬虫：通常指搜索引擎的爬虫具有很大的局限性：大部分内容没有用，不同搜索目的，返回的内容相同！（通用爬虫是搜索引擎抓取系统（baidu,goole,yahoo等）的重要组成部分。主要目的是将互联网的网页下载到本地，形成一个互联网内容的镜像备份。）聚焦爬虫：针对特定网站的爬虫（是面向特定主题需求的一种网络爬虫程序，它与通用搜索引擎爬虫的区别在于：聚焦爬虫在实施页面抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息）根据是否获取数据为目的，分类：功能性爬虫，比如，投票，点赞数据增量爬虫，比如招聘信息根据url地址和对应的页面内容是否改变，数据增...

2021-06-10

856

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。