PHP正则表达式

2024-04-05 04:24•php•阅读 942

说明：根据《PHP核心技术与最佳实践》做的一点笔记。

如有错误或建议，请指教。

一、PHP有两套正则函数：

（1）由PCRE库提供的函数，以前缀“preg_”命名，PCRE意思是兼容Perl的正则表达式的缩写首字母。

（2）由POSIX扩展提供的函数，以前缀“ereg_”命名，POSIX意思是UNIX可移植操作系统接口的首字母。

　　注意：自PHP5.3以后，不再推荐使用POSIX正则函数库，会报Deprecated级别的错误。

二、正则表达式的组成：

　　一个正则表达式分为三个部分：分隔符、表达式、修饰符。

三、测试工具：

（1）RegexTester。

（2）Firefox的扩展Regular Expression Tester。

四、常用的pcre函数：

常用函数一：preg_match()和preg_match_all()：

（1）preg_match($pattern,$str,[$matches])

preg_match()返回 pattern 的匹配次数。

它的值将是0次（不匹配）或1次，因为preg_match()在第一次匹配后将会停止搜索

（2）preg_match_all($pattern,$str,[$matches])。

返回完整匹配次数（可能是0），或者如果发生错误返回FALSE

示例：

$res = preg_match_all('/(foo)(bar)(baz)/', 'foobarbaz', $matches);
var_dump($res);//结果：int 1
var_dump($matches);

打印结果：

array (size=4)
    0 => 
        array (size=1)
            0 => string 'foobarbaz' (length=9)
    1 => 
        array (size=1)
            0 => string 'foo' (length=3)
    2 => 
        array (size=1)
            0 => string 'bar' (length=3)
    3 => 
        array (size=1)
            0 => string 'baz' (length=3)

常用函数二：preg_filter和preg_replace

功能：执行一个正则表达式搜索并替换。

preg_filter只返回匹配到的替换后的结果。

preg_replace返回完整的替换后的字符串。

参数顺序（每个参数可以是字符串，也可以是数组）：

preg_filter($pattern, $replace, $str)

preg_replace($pattern, $replace, $str)

示例：

1、当$str是字符串时，两个函数效果一样。

$str = '2019年08月14日';

$pattern = array('/年/','/月/','/日/');

$replace = array('-','-','');

$a = preg_filter($pattern, $replace, $str);

var_dump($a);//结果：2019-08-14

$a = preg_replace($pattern, $replace, $str);

var_dump($a);//结果：2019-08-14

2、当$str是数组时，两个函数效果不一样。

$str = array('2019年08月14日','2018-01-06','闰年','一年');

$pattern = array('/年/','/月/','/日/');

$replace = array('-','-','');

$a = preg_filter($pattern, $replace, $str);

var_dump($a);

$a = preg_replace($pattern, $replace, $str);

var_dump($a);

结果分别是：

array (size=3)

0 => string '2019-08-14' (length=10)

2 => string '闰-' (length=4)

3 => string '一-' (length=4)

array (size=4)

0 => string '2019-08-14' (length=10)

1 => string '2018-01-06' (length=10)

2 => string '闰-' (length=4)

3 => string '一-' (length=4)

preg_replace_callback()执行一个正则表达式搜索并且使用一个回调进行替换.

示例：

$str = '2019年08月14日';

$pattern = array('/年/','/月/','/日/');

$res = preg_replace_callback($pattern, function($matches){

return '-';

}, $str);

var_dump($res);

结果：string '2019-08-14-'

常用函数三：preg_last_error

功能：返回最后一个PCRE正则执行产生的错误代码

示例：

preg_match('/(?:\D+|<\d+>)*[!?]/', 'foobar foobar foobar');

if (preg_last_error()) {

　　print preg_last_error();

}

常用函数四：preg_grep($pattern,$arr,$flags)

功能：返回给定数组中与模式pattern 匹配的元素组成的数组.

若flags设置为PREG_GREP_INVERT时，返回不匹配的元素组成的数组。

示例：

$arr = array('php','html','js','java','jquery','python');

$pattern = '/p/';

$res = preg_grep($pattern,$arr);

var_dump($res);

$res = preg_grep($pattern,$arr,PREG_GREP_INVERT);

var_dump($res);

array (size=2)

0 => string 'php' (length=3)

5 => string 'python' (length=6)

array (size=4)

1 => string 'html' (length=4)

2 => string 'js' (length=2)

3 => string 'java' (length=4)

4 => string 'jquery' (length=6)

常用函数五：preg_split()

功能：通过一个正则表达式分隔字符串.

返回数组，失败返回false。

示例：

以字符串中的空格和,分割字符串成数组

$str = 'php , html , js , javascript';

$keywords = preg_split("/[\s,]+/",$str);

var_dump($keywords);

结果：

array (size=4)

0 => string 'php' (length=3)

1 => string 'html' (length=4)

2 => string 'js' (length=2)

3 => string 'javascript' (length=10)

五、正则表达式中的元字符：

. 匹配除换行以外的任意字符

\w 匹配字母或数字或下划线或汉字

\s 匹配任意空白字符

\d 匹配数字

\b 匹配单词开始或结束

^ 匹配字符串的开始

$ 匹配字符串的结束

- 表示范围

[] 匹配括号中的任意一个字符

*、+、？量词

六、转义：

如果要想查找元字符本身，就需要使用转义\。

例如：\\、\.、\*等。

使用\Q和\E包围的元字符也被忽略，

例如：

\Q.*\E 就是匹配.*，不是任意字符。

七、反义：

匹配相反时，可以用反义。

\W 匹配任意不是字母、数字、下划线、汉字的字符。

\S 匹配任意不是空白字符的字符

\D 匹配任意非数字的字符

\B 匹配不是单词开头或结束的位置

[^x] 匹配除了x以外的任意字符

[^aeiou] 匹配除了aeiou这几个字符以外的字符

八、分支：

“|”表示分支。

示例：

[a|bc]d 表示匹配ad或bcd

当都是单字符时：[a|b|c] 等同于[abc]

九、分组：

使用小括号()进行分组.

示例：

匹配IP地址 (\d{1,3}\.){3}\d{1,3}

十、常用模式：

i 表示忽略大小写。

m 多行匹配，仅当字符串中有换行符\n时才起作用。

. 作用是使表达式里的元字符.匹配换行符

U 懒惰模式

u 字符串被当成utf-8

十一、环视：

(1)顺序肯定环视，语法(?=exp)，意思是匹配以exp结尾的前面的部分。

示例：匹配以ing结尾的单词的前面部分

/\d\w+(?=ing\b)/

(2)逆序肯定环视，语法(?<=exp)，意思是匹配exp后面的部分

示例：匹配以re开头的单词的后面部分

/(?<=re\b)\w+\b/

注意：环视不会占用字符，也就是说，环视它就是看一下是不是，但并不会匹配它，也就不会占用这个字符。

环视可以用来匹配html闭合标签里的内容，例如<div></div><h1></h1>等比较方便。

示例：

需求：匹配html的标题title中的内容：

$str = file_get_contents('http://localhost/index.html');

$pattern = '/(?<=<title>).*(?=<\/title>)/';

$res = preg_match_all($pattern,$str,$matches);

var_dump($res);//结果：int 1

var_dump($matches);

//结果：

array (size=1)

0 =>

array (size=1)

0 => string 'test' (length=4)

十二、运算符优先级：

转义符 > 括号和中括号 > 限定符

十三、关于分隔符：

正则表达式的分隔符只要遵循规则，是可以随意使用的。

例如：

$pattern = '/php/';

$pattern = '#php#';

$pattern = '~php~';

$pattern = '%php%';

这些都是可以的

十四、附加：

（1）\b示例：

\ba\w*\b 匹配以a开头的单词（注意是单词，不是字符串，^才是以什么开头的字符串）。

$str = 'hello php,hello js';
$pattern = '/\bhello\b/';
$replace = 'nihao';
$a = preg_filter($pattern, $replace,$str);
var_dump($a);

结果：string 'nihao php,nihao js'

结论：被\b包围起来的表示是单独一个单词。

\babc\b 表示字符串中的abc是单词，

'abc'、'hello abc' 是正确的，

'abcd'、'helloabc'都是不正确的。

（2）等同写法：

[0-9]和\d一样，表示一位数字。

如果只考虑英文的话，[a-zA-Z_]和\w相同。

（3）关于^的使用：

当用作表示只能以字符开头时，只能用在正则表达式的最前端。

当用作取反时，只能用在字符组中，即中括号里。

（4）贪婪和懒惰匹配模式：

贪婪就是尽可能多地匹配字符。

懒惰就是尽可能少地匹配字符。

（5）可能发生的错误：

preg_match_all(): Unknown modifier 't'

分析错误原因：这种情况多数是由定界符的问题引起的.

解决方法：找到需要转义的特殊字符，加\转义一下。

（6）分组[^]的使用示例：

$str = 'abv vvv bac';
$pattern = '/[^ab]/';
$res = preg_match_all($pattern,$str,$matches);
var_dump($res);//结果：int 7
var_dump($matches);

结果：

array (size=1)
　　0 => 
　　　　array (size=7)
            0 => string 'v' (length=1)
            1 => string ' ' (length=1)
            2 => string 'v' (length=1)
            3 => string 'v' (length=1)
            4 => string 'v' (length=1)
            5 => string ' ' (length=1)
            6 => string 'c' (length=1)

说明：使用[]分组时，如果使用^非指定字符匹配时，整个分组里的都是不要匹配的。

即：/[^ab]/ 表示不匹配a，也不匹配b。

（7）示例，匹配html网页里的所有图片：

$str = file_get_contents('http://localhost/index.html');
$pattern = '/<img[^>]*?src=[\'|"]([^\'">]*?)[\'"][^>]*?>/';
$res = preg_match_all($pattern,$str,$matches);
var_dump($res);//结果：int 2
var_dump($matches);

结果：

array (size=2)
    0 => 
        array (size=2)
            0 => string '<img width="180" height="100" src='http://localhost/img/1.png' >'
            1 => string '<img width="180" src='http://localhost/img/2.png' height="100">'
    1 => 
        array (size=2)
            0 => string 'http://localhost/img/1.png'
            1 => string 'http://localhost/img/2.png'

（8）示例：匹配div的内容：

$str = '<div class="content">hello</div>';
$pattern = '#<div[^>]*?>([^<]*)<\/div>#';
$res = preg_match_all($pattern,$str,$matches);
var_dump($res);//1
var_dump($matches);

结果：

array (size=2)
  0 => 
    array (size=1)
      0 => string '<div class="content">hello</div>' (length=32)
  1 => 
    array (size=1)
      0 => string 'hello' (length=5)

（9）匹配中文：

$pattern = '/^[\x{4e00}-\x{9fa5}]+$/u';

PHP正则表达式

一、PHP有两套正则函数：

二、正则表达式的组成：

三、测试工具：

四、常用的pcre函数：

常用函数一：preg_match()和preg_match_all()：

常用函数二：preg_filter和preg_replace

常用函数四：preg_grep($pattern,$arr,$flags)

五、正则表达式中的元字符：

六、转义：

七、反义：

八、分支：

九、分组：

十、常用模式：

十一、环视：

十二、运算符优先级：

十三、关于分隔符：

十四、附加：

（1）\b示例：

（2）等同写法：

（3）关于^的使用：

（4）贪婪和懒惰匹配模式：

（5）可能发生的错误：

（6）分组[^]的使用示例：

（7）示例，匹配html网页里的所有图片：

（8）示例：匹配div的内容：

（9）匹配中文：

相关推荐

html输入框中各种正则表达式设置

C# 去掉HTML标记的正则表达式

php 正则表达式中的 .*? 表示什么意思?？

php preg_match中正则表达式后面的 /u，/s，/i分别是什么意思？

【javascript基础】JS正则表达式的实例属性

PHP正则表达式基础语法

PHP常用正则表达式汇总

java String、StringBuilder 、正则表达式