零基础写python爬虫之神器正则表达式(3)

时间:2014-11-07 11:10来源:网络整理作者:网络点击: 次

分享到：

复制代码代码如下: # -*- coding: utf-8 -*- #一个简单的match实例 import re # 匹配如下内容：单词+空格+单词+任意字符 m = re.match(r'(\w+) (\w+)(Psign.*)', 'hello world!')

复制代码代码如下:

# -*- coding: utf-8 -*-  

#一个简单的match实例  

import re  

# 匹配如下内容：单词+空格+单词+任意字符  

m = re.match(r'(\w+) (\w+)(?P<sign>.*)', 'hello world!')  

print "m.string:", m.string  

print "m.re:", m.re  

print "m.pos:", m.pos  

print "m.endpos:", m.endpos  

print "m.lastindex:", m.lastindex  

print "m.lastgroup:", m.lastgroup  

print "m.group():", m.group()  

print "m.group(1,2):", m.group(1, 2)  

print "m.groups():", m.groups()  

print "m.groupdict():", m.groupdict()  

print "m.start(2):", m.start(2)  

print "m.end(2):", m.end(2)  

print "m.span(2):", m.span(2)  

print r"m.expand(r'\g<2> \g<1>\g<3>'):", m.expand(r'\2 \1\3')  

### output ###  

# m.string: hello world!  

# m.re: <_sre.SRE_Pattern object at 0x016E1A38>  

# m.pos: 0  

# m.endpos: 12  

# m.lastindex: 3  

# m.lastgroup: sign  

# m.group(1,2): ('hello', 'world')  

# m.groups(): ('hello', 'world', '!')  

# m.groupdict(): {'sign': '!'}  

# m.start(2): 6  

# m.end(2): 11  

# m.span(2): (6, 11)  

# m.expand(r'\2 \1\3'): world hello!

2.3. Pattern
Pattern对象是一个编译好的正则表达式，通过Pattern提供的一系列方法可以对文本进行匹配查找。
Pattern不能直接实例化，必须使用re.compile()进行构造，也就是re.compile()返回的对象。
Pattern提供了几个可读属性用于获取表达式的相关信息：
pattern: 编译时用的表达式字符串。
flags: 编译时用的匹配模式。数字形式。
groups: 表达式中分组的数量。
groupindex: 以表达式中有别名的组的别名为键、以该组对应的编号为值的字典，没有别名的组不包含在内。
可以用下面这个例子查看pattern的属性：

复制代码代码如下:

# -*- coding: utf-8 -*-  

#一个简单的pattern实例  

import re  

p = re.compile(r'(\w+) (\w+)(?P<sign>.*)', re.DOTALL)  

print "p.pattern:", p.pattern  

print "p.flags:", p.flags  

print "p.groups:", p.groups  

print "p.groupindex:", p.groupindex  

### output ###  

# p.pattern: (\w+) (\w+)(?P<sign>.*)  

# p.flags: 16  

# p.groups: 3  

# p.groupindex: {'sign': 3}

下面重点介绍一下pattern的实例方法及其使用。

1.match

match(string[, pos[, endpos]]) | re.match(pattern, string[, flags])：
这个方法将从string的pos下标处起尝试匹配pattern；
如果pattern结束时仍可匹配，则返回一个Match对象；
如果匹配过程中pattern无法匹配，或者匹配未结束就已到达endpos，则返回None。
pos和endpos的默认值分别为0和len(string)；
re.match()无法指定这两个参数，参数flags用于编译pattern时指定匹配模式。
注意：这个方法并不是完全匹配。
当pattern结束时若string还有剩余字符，仍然视为成功。
想要完全匹配，可以在表达式末尾加上边界匹配符'$'。
下面来看一个Match的简单案例：

上一篇：零基础写python爬虫之抓取糗事百科代码分享
下一篇：零基础写python爬虫之抓取百度贴吧代码分享

分享到： QQ空间新浪微博人人网开心网更多

精彩图集

成为顶尖算

用Python编写

跟老齐学P

Python struct模

精彩文章

热点文章

零基础写python爬虫之神器正则表达式(3)

热门标签

赞助商链接