MATLAB 正则表达式,一(转

http://blog.sina.com.cn/s/blog_53f29119010009uf.html

正则表达式这个词上大学的时候就听同寝室的一个家伙常念叨——那家伙当然很厉害啦,现在已经发洋财去了——直到昨天又遇到,想起还有这么一回事。刚刚看的时候以为一点点内容一个上午就搞掂了,看了一会儿,才越发觉得头发晕,眼发绿——还真tmd难~~。看到今天才发现,原来是书太滥,呵呵。。。不过,要想把正则表达式写清楚还真得费些篇幅啊~~第一次接触正则表达式,有错误的地方还请玩过的大侠多多指正啊!~

正则表达式就是一个表达式(也是一串字符),它定义了某种字符串模式。利用正则表达式,可以对大段的文字进行复杂的查找、替换等。

matlab提供的正则表达式函数有三个:

regexp——用于对字符串进行查找;

regexpi——用于对字符串进行查找,但不区分大小写;

regexprep——用于对字符串进行查找并替换。

今天是第一部分——单个字符的匹配

我们先从简单的开始——以regexpi函数为例。假设你要搜索一个包含字符'cat'的字符串,搜索用的正则表达式就是'cat'。如果搜索对大小写不敏感,单词'catalog'、'Catherine'、'sophisticated'都可以匹配。也就是说:

正则表达式:'cat'

匹配:'cat', 'catalog', 'Catherine','sophisticated'

这个好像和我们通常在记事本里ctrl+F弄出来的东西差不多哈,呵呵。。。(btw:为了方便,下面的叙述中字符串和正则表达式的''都省略不写。)

1 句点符号 '.' ——匹配任意一个(只有一个)字符(包括空格)。

假设你在玩英文拼字游戏,想要找出三个字母的单词,而且这些单词必须以't'字母开头,以'n'字母结束。另外,假设有一本英文字典,你可以用正则表达式搜索它的全部内容。要构造出这个正则表达式,你可以使用一个通配符——句点符号'.'。这样,完整的表达式就是't.n',它匹配'tan'、'ten'、'tin'和'ton',还匹配't#n'、'tpn'甚至't n',还有其他许多无意义的组合。这是因为句点符号匹配所有字符,包括空格:

正则表达式:t.n

匹配:ten, tin, ton, t n, tpn, t#n, t@n

Matlab例子程序:

clear;clc

str='ten,&8yn2tin6ui>&ton, t n,-356tpn,$$$$t#n,4@).,t@nT&nY';

pat='t.n';

o1=regexpi(str,pat,'start')%用'start'参数指定输出o1为匹配正则表达式的子串的起始位置

o2=regexpi(str,pat,'end')%用'start'参数指定输出o1为匹配正则表达式的子串的结束位置

o3=regexpi(str,pat,'match')%用'match'参数指定输出o2为匹配正则表达式的子串

[o11,o22,o33]=regexpi(str,pat,'start','end','match') %同时输出起始位置和子串

输出为:

o22 =

3 8 13 18 23 28 33 36

o33 =

'ten' 'tin' 'ton' 't n' 'tpn' 't#n' 't@n' 'T&n'

o1 =

1 10 18 23 31 39 48 51

o2 =

3 12 20 25 33 41 50 53

o3 =

'ten' 'tin' 'ton' 't n' 'tpn' 't#n' 't@n' 'T&n'

o11 =

1 10 18 23 31 39 48 51

o22 =

3 12 20 25 33 41 50 53

o33 =

'ten' 'tin' 'ton' 't n' 'tpn' 't#n' 't@n' 'T&n'

2 方括号符号 '[oum]' ——找到方括号中的任意一个即是匹配

为了解决句点符号匹配范围过于广泛这一问题,你可以在方括号('[]')里面指定看来有意义的字符。此时,只有方括号里面指定的字符才参与匹配。也就是说,正则表达式't[aeio]n'只匹配'tan','Ten','tin'和'ton'。但'Toon','taen'不匹配,因为在方括号之内你只能匹配单个字符:

正则表达式:t[aeio]n

匹配:tan, ten, tin, ton

matlab 例子程序:

clear;clc

str='ten,&8yn2tin6ui>&ton, t n,-356tpn,$$$$t#n,4@).,t@nT&nY';

pat='t[aeiou]n';

o1=regexpi(str,pat,'start')%用'start'参数指定输出o1为匹配正则表达式的子串的起始位置

o2=regexpi(str,pat,'end')%用'start'参数指定输出o1为匹配正则表达式的子串的结束位置

o3=regexpi(str,pat,'match')%用'match'参数指定输出o2为匹配正则表达式的子串

[o11,o22,o33]=regexpi(str,pat,'start','end','match') %同时输出起始位置和子串

输出结果为

o1 =

1 10 18

o2 =

3 12 20

o3 =

'ten' 'tin' 'ton'

o11 =

1 10 18

o22 =

3 12 20

o33 =

'ten' 'tin' 'ton'

3 方括号中的连接符 '[c1-c2]' ——匹配从字符c1开始到字符c2结束的字母序列(按字母表中的顺序)中的任意一个。

为了解决句点符号匹配范围过于广泛这一问题,你可以在方括号('[]')里面指定看来有意义的字符。此时,只有方括号里面指定的字符才参与匹配。也就是说,正则表达式't[aeio]n'只匹配'tan'、'Ten'、'tin'和'ton'。但'Toon'不匹配,因为在方括号之内你只能匹配单个字符:

正则表达式:t[a-z]n

匹配:tan, tbn,tcn,tdn,ten,…, txn, tyn,tzn

matlab 例子程序:

clear;clc

str='ten,&8yn2tin6ui>&ton, t n,-356tpn,$$$$t#n,4@).,t@nT&nY';

pat='t[a-z]n';

o1=regexpi(str,pat,'start')%用'start'参数指定输出o1为匹配正则表达式的子串的起始位置

o2=regexpi(str,pat,'end')%用'start'参数指定输出o1为匹配正则表达式的子串的结束位置

o3=regexpi(str,pat,'match')%用'match'参数指定输出o2为匹配正则表达式的子串

[o11,o22,o33]=regexpi(str,pat,'start','end','match') %同时输出起始位置和子串

4 \n ——特殊字符

就是由'\'引导的,代表有特殊意义或不能直接输入的单个字符。在使用printf函数输出时我们常用'\n'来代替回车符,这里也是同样的道理,用\n在正则表达式中表示回车符。类似的还有\t横向制表符,'\*'表示'*'等。后一种情况用在查询在正则表达式中有语法作用的字符。详见下表。

下面是一些匹配单个字符的转义字符正则表达式及所匹配的值。

\xN或\x{N} 匹配八进制数值为N的字符

\oN或\o{N} 匹配十六进制数值为N的字符

\a Alarm(beep)

\b Backspace

\t 水平Tab

\n New line

\v 垂直Tab

\f 换页符

\r 回车符

\e Escape

\c 某些在正则表达式中有语法功能或特殊意义的字符c,要用\c来匹配,而不能直接用c匹配

matlab程序例子

clear;clc

str='l.[a-c]i.$.a';

pat1='.';pat2='\.';

o=regexpi(str,pat1,'match')

o1=regexpi(str,pat2,'match')

输出为:

o =

'l' '.' '[' 'a' '-' 'c' ']' 'i' '.' '$' '.' 'a'

o1 =

'.' '.' '.'

5 \w,\s和\d——范围表达式

和上面的\n等表中的转义字符有所不同,\w,\s,\d等匹配的不是某个特定的字符,而是某一类字符。具体说明如下:

\w匹配任意的单个文字字符,相当于[a-zA-Z0-9_];

\s匹配任意的单个空白字符,相当于[\t\f\n\r];

\d匹配任意单个数字,相当于[0-9];

\S匹配除空白符以外的任意单个字符,相当于[^\t\f\n\r]——方括号中的^表示取反;

\W匹配任意单个字符,相当于[^a-zA-Z0-9_];

\D匹配除数字字符外的任意单个字符,相当于[^0-9]。

matlab程序例子,这里引用的是matlab帮助中的例子:

str='easy as 1,2,3';%这个字符串可真有点意思,呵呵

pat='\d';

[o1,o2]=regexpi(str,pat,'start','match')

输出结果为:

o1 =

9 11 13

o2 =

'1' '2' '3'