一个Python正则表达式的问题, 关于backslash

hiro_no_tsubasa · #1

某处看到这样一段代码

代码：全选

import re  
s="m/regfm.html' target='_blank' class='blue'>我们是中国人</a>));"   
rc=re.compile(r'\\\w+',re.DOTALL|re.IGNORECASE)  
li=list(s)  
lis=[x for x in li if rc.search(x.__repr__())]  
ll = [1,2,3,4,5]
cn=reduce(lambda x,y:x+y,lis)  
print cn

我十分不明白那三个\ 是什么意思, 还望哪位大哥指点

wq1977 · #2

python的正则表达式和其他语言中稍有不同，主要在于正则表达式的转义符"\"，如果要表示在正则表达式中包含"\"字符，常规做法是在正则表达式中包含"\\"，但在python中，需要使用"\\\\"，这是因为python会首先对字符串进行一次转义，所以"\\\\"在正则表达式中才表示单字符"\"，为了避免这种麻烦，可以使用raw字符串表示方式，即在字符串前面加"r"前缀，楼主表达式 rc=re.compile(r'\\\w+',re.DOTALL|re.IGNORECASE) 中就采用了这种方式。

理解了这个前提以后，楼主的问题就很容易理解了，r'\\\w+' 这个正则表达式代表任何以"\"字符开头，后面是任意数量的'0-9a-zA-Z_'之内的字符，比如"\a,\bc,\x98"等。

这段程序想找出字符串中所有的中文，中文字符在python的__repr__()操作下会表示为“\x编码”，比如"\x98\xbf",英文则直接为字母，比如"m".这样，如果某个字符满足"\x"加数字的形式，则被认为是中文。

hiro_no_tsubasa · #3

十分感谢

关键就是中文写出来是\开头的, 这茬忘了

一个Python正则表达式的问题, 关于backslash

一个Python正则表达式的问题, 关于backslash

Re: 一个Python正则表达式的问题, 关于backslash

Re: 一个Python正则表达式的问题, 关于backslash