由浅到深解读Python正则表达式
创始人
2024-06-23 10:00:46
0

对于许多需要处理文本来说的技术工程师,必须对Python正则表达式有一个全面深入的认识,不但要深入理解下什么是Python正则表达式,还要对Python正则表达式字符有所认识。

此外,还有少数字符比较特殊,它们和自身并不匹配,而是跟其字面值之外的一些特殊的东西匹配,这些东西可能是字符集、重复次数或者位置等。常用的元字符包括:
. ^ $ * + ? { } [ ] \ | ( )

对于这些特殊字符,本文会陆续加以介绍。不过我们这里先了解一下用来匹配字符的元字符。首先,句点“.”这个元字符通常用于想匹配“任何字符”的地方:一般情况下,它匹配除换行字符之外的任何字符;但是在alternate模式(re.DOTALL)下,它匹配真正意义上的任何字符,包括换行字符在内。

我们接下来考察的元字符是“[”和“]”。它们常配对用来指定想匹配的一个字符集合,也就是说该集合内的任何一个元素都能满足我们的要求。集合内的字符可以单个列出,如果这些字符是连续的也可以用“-”号分隔的两个给定字符来指定一个字符范围。

例如,[abc]将匹配“a”、“b”或“c”中的任意一个字符;当然也可以用区间[a-c]来表示同一字符集,这两者表示方法是等效的。如果想匹配字符串中的所有元音字母,则可使用下列代码:

  1. import re  
  2. def re_show(pat, s):  
  3.     print re.compile(pat, re.M).sub("{\g<0>}", s.rstrip()),'\n'  
  4.  
  5. s = '''In company or association with respect to place or time;  
  6.         as, to live together in one house; to live together in the  
  7.         same age; they walked together to the town.'''  
  8. re_show(r"[aeiou]",s) 

运行结果如下所示:

  1. In c{o}mp{a}ny {o}r {a}ss{o}c{i}{a}t{i}{o}n w{i}th r{e}sp{e}ct t{o} pl{a}c{e} {o}r t{i}m{e};  
  2.  
  3.   {a}s, t{o} l{i}v{e} t{o}g{e}th{e}r {i}n {o}n{e} h{o}{u}s{e}; t{o} l{i}v{e} t{o}g{e}th{e}r {i}n th{e}  
  4.  
  5.   s{a}m{e} {a}g{e}; th{e}y w{a}lk{e}d t{o}g{e}th{e}r t{o} th{e} t{o}wn. 

对于字符集合有一点需要特别注意,就是元字符在方括号中会“降级”为普通字符。例如,[a.]将匹配字符“a”或“.”中的任意一个;前面说过“.”通常用作元字符。但在字符集合里,其特殊性将被剥夺,恢复成普通字符。这一点读者可以自己改动一下上面的代码来实验一下。

有时需要查找不属于某个字符集合的字符。比如想查找除了数字6以外,其它任意字符都行的情况,这时需要用到反义:其做法是把元字符“^”作为集合的***字符,例如,[^5] 将匹配除“6”之外的任意字符。

反斜杠“\”是一种非常重要的元字符。我们知道在Python的字符串中,反斜杠也是作为一种特殊字符(或转义字符)使用,后面可以跟不同的字符以表示不同特殊意义;它也可以用于取消所有的元字符,这样你就可以在模式中匹配它们了。举个例子,如果你需要匹配字符“\”,你可以在其之前用反斜杠来取消它们的特殊意义:\\。#t#

◆\d 匹配任何十进制数;它等价于字符集合[0-9]。
◆\D 匹配任何非数字字符;它等价于字符集合[^0-9]。
◆\s 匹配任何空白字符;它等价于字符集合[ \t\n\r\f\v]。
◆\S 匹配任何非空白字符;它等价于字符集合[^ \t\n\r\f\v]。
◆\w 匹配任何字母数字下划线字符;它等价于字符集合[a-zA-Z0-9_]。
◆\W 匹配任何非字母数字下划线字符;它等价于字符集合[^a-zA-Z0-9_]。

我们已经讲过为单个字符指定重复次数的方法——直接在字符后面加上限定符就行了;现在我们再来学习一下重复多个字符的八法:你可以用小括号来指定子表达式(也叫做分组),然后你就可以指定这个子表达式的重复次数了,你也可以对子表达式进行其它一些操作。

我们知道,IP地址是由点号分隔的四个数字,并且每个数字都不能大于255。(\d{1,3}\.){3}\d{1,3}是一个简单的IP地址匹配表达式,其中:\d{1,3}匹配1到3位的数字,(\d{1,3}\.){3}匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次,***再加上一个一到三位的数字(\d{1,3})。

然而,它也将匹配256.300.888.999这种不可能存在的IP地址。如果能使用算术比较的话,或许能简单地解决这个问题,但是正则表达式中并不提供关于数学的任何功能,所以只能使用冗长的分组。

选择Python正则表达式和字符集合来描述一个正确的IP地址:((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。理解这个表达式的关键是理解2[0-4]\d|25[0-5]|[01]?\d\d?,经过上面的介绍,相信读者能分析得出来它的意义。

相关内容

热门资讯

如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
施耐德电气数据中心整体解决方案... 近日,全球能效管理专家施耐德电气正式启动大型体验活动“能效中国行——2012卡车巡展”,作为该活动的...
Windows恶意软件20年“... 在Windows的早期年代,病毒游走于系统之间,偶尔删除文件(但被删除的文件几乎都是可恢复的),并弹...
20个非常棒的扁平设计免费资源 Apple设备的平面图标PSD免费平板UI 平板UI套件24平图标Freen平板UI套件PSD径向平...
德国电信门户网站可实时显示全球... 德国电信周三推出一个门户网站,直观地实时提供其安装在全球各地的传感器网络检测到的网络攻击状况。该网站...
着眼MAC地址,解救无法享受D... 在安装了DHCP服务器的局域网环境中,每一台工作站在上网之前,都要先从DHCP服务器那里享受到地址动...
为啥国人偏爱 Mybatis,... 关于 SQL 和 ORM 的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行...