当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 3 篇帖子 ] 
作者 内容
1 楼 
 文章标题 : 一个Python正则表达式的问题, 关于backslash
帖子发表于 : 2009-05-23 1:14 
头像

注册: 2009-05-22 13:52
帖子: 28
送出感谢: 0 次
接收感谢: 0 次
某处看到这样一段代码
代码:
import re 
s="m/regfm.html' target='_blank' class='blue'>我们是中国人</a>));"   
rc=re.compile(r'\\\w+',re.DOTALL|re.IGNORECASE) 
li=list(s) 
lis=[x for x in li if rc.search(x.__repr__())] 
ll = [1,2,3,4,5]
cn=reduce(lambda x,y:x+y,lis) 
print cn


我十分不明白那三个\ 是什么意思, 还望哪位大哥指点


_________________
Akiyama Mio saikou!


页首
 用户资料  
 
2 楼 
 文章标题 : Re: 一个Python正则表达式的问题, 关于backslash
帖子发表于 : 2009-05-23 6:29 

注册: 2006-10-26 19:57
帖子: 36
送出感谢: 0 次
接收感谢: 0 次
python的正则表达式和其他语言中稍有不同,主要在于正则表达式的转义符"\",如果要表示在正则表达式中包含"\"字符,常规做法是在正则表达式中包含"\\",但在python中,需要使用"\\\\",这是因为python会首先对字符串进行一次转义,所以"\\\\"在正则表达式中才表示单字符"\",为了避免这种麻烦,可以使用raw字符串表示方式,即在字符串前面加"r"前缀,楼主表达式 rc=re.compile(r'\\\w+',re.DOTALL|re.IGNORECASE) 中就采用了这种方式。

理解了这个前提以后,楼主的问题就很容易理解了,r'\\\w+' 这个正则表达式代表任何以"\"字符开头,后面是任意数量的'0-9a-zA-Z_'之内的字符,比如"\a,\bc,\x98"等。

这段程序想找出字符串中所有的中文,中文字符在python的__repr__()操作下会表示为“\x编码”,比如"\x98\xbf",英文则直接为字母,比如"m".这样,如果某个字符满足"\x"加数字的形式,则被认为是中文。


_________________
http://www.wesleywang.cn


页首
 用户资料  
 
3 楼 
 文章标题 : Re: 一个Python正则表达式的问题, 关于backslash
帖子发表于 : 2009-05-23 14:19 
头像

注册: 2009-05-22 13:52
帖子: 28
送出感谢: 0 次
接收感谢: 0 次
十分感谢

关键就是中文写出来是\开头的, 这茬忘了 :em06


_________________
Akiyama Mio saikou!


页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 3 篇帖子 ] 

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:没有注册用户 和 3 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译