零基础写python爬虫之神器正则表达式(2)

时间:2014-11-07 11:10来源:网络整理作者:网络点击: 次

分享到：

复制代码代码如下: # -*- coding: utf-8 -*- #两个等价的re匹配,匹配一个小数 import re a = re.compile(r"""\d + # the integral part \. # the decimal point \d * # some fractional digit

复制代码代码如下:

# -*- coding: utf-8 -*-  

#两个等价的re匹配,匹配一个小数  

import re  

a = re.compile(r"""\d +  # the integral part 

                   \.    # the decimal point 

                   \d *  # some fractional digits""", re.X)  

b = re.compile(r"\d+\.\d*")  

match11 = a.match('3.1415')  

match12 = a.match('33')  

match21 = b.match('3.1415')  

match22 = b.match('33')   

if match11:  

    # 使用Match获得分组信息  

    print match11.group()  

else:  

    print u'match11不是小数'  

if match12:  

    # 使用Match获得分组信息  

    print match12.group()  

else:  

    print u'match12不是小数'  

if match21:  

    # 使用Match获得分组信息  

    print match21.group()  

else:  

    print u'match21不是小数'  

if match22:  

    # 使用Match获得分组信息  

    print match22.group()  

else:  

    print u'match22不是小数'

re提供了众多模块方法用于完成正则表达式的功能。
这些方法可以使用Pattern实例的相应方法替代，唯一的好处是少写一行re.compile()代码，
但同时也无法复用编译后的Pattern对象。
这些方法将在Pattern类的实例方法部分一起介绍。
如一开始的hello实例可以简写为：

复制代码代码如下:

# -*- coding: utf-8 -*-  

#一个简单的re实例，匹配字符串中的hello字符串  

import re  

m = re.match(r'hello', 'hello world!')  

print m.group()

re模块还提供了一个方法escape(string)，用于将string中的正则表达式元字符如*/+/?等之前加上转义符再返回

2.2. Match

Match对象是一次匹配的结果，包含了很多关于此次匹配的信息，可以使用Match提供的可读属性或方法来获取这些信息。
属性：
string: 匹配时使用的文本。
re: 匹配时使用的Pattern对象。
pos: 文本中正则表达式开始搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同。
endpos: 文本中正则表达式结束搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同。
lastindex: 最后一个被捕获的分组在文本中的索引。如果没有被捕获的分组，将为None。
lastgroup: 最后一个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组，将为None。
方法：
group([group1, …])：
获得一个或多个分组截获的字符串；指定多个参数时将以元组形式返回。group1可以使用编号也可以使用别名；编号0代表整个匹配的子串；不填写参数时，返回group(0)；没有截获字符串的组返回None；截获了多次的组返回最后一次截获的子串。
groups([default])：
以元组形式返回全部分组截获的字符串。相当于调用group(1,2,…last)。default表示没有截获字符串的组以这个值替代，默认为None。
groupdict([default])：
返回以有别名的组的别名为键、以该组截获的子串为值的字典，没有别名的组不包含在内。default含义同上。
start([group])：
返回指定的组截获的子串在string中的起始索引（子串第一个字符的索引）。group默认值为0。
end([group])：
返回指定的组截获的子串在string中的结束索引（子串最后一个字符的索引+1）。group默认值为0。
span([group])：
返回(start(group), end(group))。
expand(template)：
将匹配到的分组代入template中然后返回。template中可以使用\id或\g<id>、\g<name>引用分组，但不能使用编号0。\id与\g<id>是等价的；但\10将被认为是第10个分组，如果你想表达\1之后是字符'0'，只能使用\g<1>0。
下面来用一个py实例输出所有的内容加深理解：