`
yysct2005
  • 浏览: 87584 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

Java 正则表达式全攻略(三)

    博客分类:
  • java
阅读更多

Java 正则表达式全攻略(三)

[ 2010-04-23 12:44:39.0 | 作者: 随想 类别: 基础强化 ] 来源:网络收集     浏览 2057
labels:Java 正则表达式全攻略(三) java正则表达式 数量词/限定符 Greedy 贪婪 Reluctant 懒惰 Possessive 独占 支配

数量词/限定符

从前面的例子中,我们可以了解到数量词,是用来指定正则表达式的一个给定字符集必须要出现多少次才能满 足匹配。有 * 或 + 或 ? 或 {n} 或 {n,} 或 {n,m} 共6种。每种都有Greedy、Reluctant、Possessive三种匹配方式,Greedy是默认的匹配方式。*、+和?限定符都是贪婪的,因 为它们会尽可能多的匹配文字,只有在它们的后面加上一个?就可以实现懒惰或最小匹配。不同的匹配方式,对正则表达式的执行方式和性能影响都是十分重要的。

Greedy 贪婪

Greedy量词被看作“贪婪”,因为它们在试图搜索第一个匹配之前读完(或者说吃掉)整个输入字符 串。如果第一个匹配尝试(整个输入字符串)失败,匹配器就会在输入字符串中后退一个字符并且再次尝试,重复这个过程,直到找到匹配或者没有更多剩下的字符 可以后退为止。以下面代码为例(它的输出结果为“xfooxxxxxxfoo”)。

   1:


 Pattern p = Pattern.compile(".*foo"
);

   2:


 Matcher m = p.matcher("xfooxxxxxxfoo"
);

   3:


 while
 (m.find()) {

   4:


     System.out.print(m.group() + "\t"
);

   5:


 }

假设你想用一个正则表达式匹配一个HTML标签。你知道输入将会是一个有效的HTML文件,因此正则表达式不需要排除那些无效的标签。所以如果是在两个尖括号之间的内容,就应该是一个HTML标签。 许多正则表达式的新手会首先想到用正则表达式 <.+> ,他们会很惊讶的发现,对于测试字符串,“This is a first test”,你可能期望会返回,然后继续进行匹配的时候,返回 。 但事实是不会。正则表达式将会匹配“first ”。 很显然这不是我们想要的结果。原因在于Greedy(贪婪)是默认的配置方式。也就是说,“+”会导致正则表达式引擎试图尽可能的重复前导字符。只有当这 种重复会引起整个正则表达式匹配失败的情况下,引擎会进行回溯。也就是说,它会放弃最后一次的“重复”,然后处理正则表达式余下的部分。

Reluctant 懒惰

与Greedy完全相反,Reluctant量词被看作“懒惰”:它们从输入字符串的开头开始,然后逐步地一次读取一个字符搜索匹配。它们最后试图匹配的内容是整个输入字符串。以下面代码为例(它的输出结果为“xfoo??? xxxxxxfoo”)。

   1:


 Pattern p = Pattern.compile(".*?foo"
);

   2:


 Matcher m = p.matcher("xfooxxxxxxfoo"
);

   3:


 while
 (m.find()) {

   4:


     System.out.print(m.group() + "\t"
);

   5:


 }

一个用于修正前面HTML问题的可能方案就是使用惰性代替贪婪性。你可以使用 <.+?> 来完成HTML标签的提取。除此以外可以用一个贪婪重复与一个取反字符集:“ <[^>]+> ”。这是一个更好的方案,它利用了Greedy的特性来提高匹配效率。

Possessive 独占

最后,Possessive量词总是读完整个输入字符串,尝试一次(而且只有一次)匹配。和Greedy量词不同,Possessive从不后退,即使这样做能允许整体匹配成功。继续以代码为例(这次没有任何输出,因为匹配失败)

   1:


 Pattern p = Pattern.compile(".*+foo"
);

   2:


 Matcher m = p.matcher("xfooxxxxxxfoo"
);

   3:


 while
 (m.find()) {

   4:


     System.out.print(m.group() + "\t"
);

   5:


 }

这种情况下,.*+消耗整个输入字符串,在表达式的结尾没有剩下满足“foo”的内容。Possessive量词用于处理所有内容,但是从不后退的情况;在没有立即发现匹配的情况下,它的性能优于功能相同的Greedy量词。

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics