【Python标准库:re】如何在Python中使用正则表达式

2018-05-07 777

Python的正则表达式

Python通过导入标准库re实现正则表达式(regular expression)，Python的正则表达式引擎和Perl一样，并且兼容Perl流派的元字符。

元字符

Python支持的元字符很多，一种是比较常见，我之前也就只会用这些

.表示任意一个字符，默认不匹配换行符，制表符
|表示或，ca|bd会匹配ca或bd,而不是cab, cbd, 如果想要匹配后者，则需要用到()进行分组
^,$表示位置符号，行首和行尾如^ab$匹配ab, 不匹配eab, abe,aeb
量词，表示重复数，*任意多次, +一次以上, ?0次或一次, {m,n}m~n次, {m}重复m次,{m,}重复大于m次
在上述量词后接?, 就从贪婪模式变为非贪婪模式。举个例子，对于abbbbbb这个字符串，ab*和ab*?的结果不同，前者匹配abbbbbb，后者匹配a，也就是贪婪模式尽可能多匹配。
[...]表示多选项，比如a[bc]就可以匹配ab,ac, 如果是[a-z]那么表示从a到z范围. 所有元字符在[]中都会被认为是普通字符。所有元字符在[]
(...)表示捕获型分组，被(...)匹配到部分，可以用\1,\2进行引用
"" 表示转义，由于该符号也是字符串的元字符，那么在构建模式的时候要万分小心，因为Python会先对字符串进行加工，然后才会传入到正则引擎中。也就是说，也就是如果你想匹配"" , 你的模式写法得是\\\\，因为如果只写\\,会被Python先翻译成\,所以必须写成\\\\。因此建议用使用原始字符串(raw string),即r"\\"

下面的一些比较高级，在我写作时能记得的元字符，基本上都是(?...)一类的增强型标记，具体含义和?后紧接的第一个字符有关

(?:...): 非捕获型分组，也就是仅仅分组，正则引擎不会记住他用于后续引用
(?=...): 向后检查，要求当前位置后符合...表示的模式, (?!...)也是向后检查，只不过要求当前位置紧接的内容不能被...匹配
(?<=...)和(?<!...)是向前检查。

在《精通正则表达式》中，作者举了一个例子，将"12345679"变为更容易阅读的"12,345,679"形式。也就是找到一个位置前面是数字，后面是3的倍数个数字的位置插入逗号

re.sub(r"(?<=\d)(?=(\d\d\d)+$)",",","1234567")

下面是我需要翻阅资料才能记得

(?P<name>...): 在之前捕获型括号的基础上，将捕获到的内容赋值给name, 其中该内容可以用(?P=name)进行引用
(?#...): 这个仅仅是注释，不做任意匹配
(?aiLmsux)比较复杂，记不太起来
(?(id/name)yes-pattern|no-pattern)更加复杂，需要举一个例子。(<)?(\w+@\w+(?:\.\w+)+)(?(1)>|$)来解释，当然这个例子理解起来也不容易。解释起来就是，第一个括号先尝试捕获匹配<, 编号为1，然后是第二个括号匹配“字符串@字符串”，比如说user@host,然后第三个括号表示不捕获分组, 识别".com"这类，然后第四个括号就是看第一个括号有没有捕获到东西，如果有就去匹配>，没有则是匹配行尾。也就是你的邮箱地址要么为"user@host.com",要么为<user@host.com>,其他都是不符合要求。

常用函数

一般用法都是用re.compile构建一个正则表达式对象，这个正则表达式对象可以用在re.match,re.search,re.find,re.findall等函数里，同时该对象也有.match,.search方法。举个例子，比如说你知道了一个形如GSExxx的GEO编号，你需要提取这个编号下的所有GSMxxx编号，然后根据这个GSMxxx编号去提取SRA编号，以随便找的GSE100566为例。

首先利用Python的requests库抓取网页信息

# Python
import re
import requests
base_url = "https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc="
acc      = "GSE101571"

resp = requests.get(base_url + acc)
contents = resp.text()

然后构建一个正则表达式，去捕获所有的GSMxxx类型的编号

pattern = "GSM\d+"
GSM_acc = re.findall(pattern, contents)

或许你不满足于此，你还希望捕获到每个GSM编号后的描述，也就是"GSM2686880 SET-2_STAT1-D1",这两个部分你都需要。通过检查网页元素，你发现了一个规律，也就是这两个元素是在一个tr内

img_0bcc7d3d1fe98379ee98cf2b4911f29e.jpe

HTML结构

你信心满满的构建了一个匹配模式，结果啥都没有匹配到

pattern = re.compile("<tr><td.*?><a.*?>(GSM\d+)</a></td><td.*?>(.*?)</td>")
re.search(pattern, contents)

你发现这似乎由于这个HTML里有很多神奇的空白和"\n",原本方便人类阅读的记号却阻碍了数据处理，你必须做点什么，你想到了可以用re.sub进行替换，所以你做了如下的事情

contents = re.sub(r"\n\s*","",contents)

最后你终于用原来的匹配模式得到了以元组数据结构的结果

result = re.findall(pattern, contents)

下一步根据GSMxxx编号去提取SRX编码。这一步的核心就是从元祖中提取元素，然后构建一个url去爬取新的网页，然后提取SRX编号即可以。先测试第一个，

r1 = results[0][0]
r1_resp = requests.get(base_url + r1)
m = re.search("SRX\d+", r1_resp.text)
m.group(0)

然后开始遍历,存储到字典中。考虑到网络延迟所耽误的时间远远大于内存分配的时间，也就没有必须要预先分配内存空间。

sra_dict = {}
for acc in results:
    key = acc[0]
    resp = requests.get(base_url + key)
    value = re.search("SRX\d+",resp.text).group(0)
    sra_dict[key] = value

事实证明网络不好，这个简单的程序是可以跑半天的。

微信关注我们

原文链接：https://yq.aliyun.com/articles/650524

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Java内存模型-volatile内存语义

章节目录 1.volatile 的特性为什么volatile修饰变量的写操作不是原子性的？ 2.volatile 写-读建立的 happens-before 关系 3.volatile 写-读的内存语义 1.volatile 的特性首先应该明确的一点是：当声明共享变量为volatile后，对这个变量的读/写(分为单元素读写，与复合写操作)。不同的读写模式下，volatile变量对写操作的原子性体现是不一样的。理解volatile特性的一个好办法是把对volatile变量的单个读/写，看成是同一个锁对这些单个读/写操作做了同步，示例代码如下所示： class VolatileFeaturesExample { volatile long vl = 0L; public void set(long l){ vl = l; } public void getAndIncrement() { vl++; } public long get(){ return vl; } } 假设有多个线程调用上述程序中的3个方法，这个程序语义和下面的程序语义等价 class VolatileFeatur...

2018-05-07

647

章节目录锁的释放-获取建立的 happens-before 关系锁的释放-获取的内存语义锁的释放-获取建立的happens-before 关系锁是Java并发编程中最重要的同步机制。锁除了让临界区互斥执行之外，还可以让释放锁的线程向获取同一个锁的线程发送消息。如下所示，下面是锁释放-锁获取的示例代码 class MonitorExample { int a = 0; public synchronized void writer() { //1 a++; //2 } //3 public synchronized void reader(){ //4 int i = a; //5 .... //6 } } 假设线程A执行writer()方法，随后线程执行reader()方法。根据happens-before 规则，这个过程包含happens-before 关系可以分为3类： 1.程序次序规则，1 happens-before 2，2 happens-before 3； 4 happens before 5,5 happens-before 6 2.根据监视器锁规则，3 ha...

2018-05-07

652

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

【Python标准库:re】如何在Python中使用正则表达式

Python的正则表达式

元字符

常用函数

Java内存模型-volatile内存语义

Java 内存模型-锁的内存语义

相关文章

发表评论

资源下载

腾讯云软件源

Nacos

Rocky Linux

Sublime Text

欢迎您来访！