正則表達(dá)式通常包含字母文本(Literal text)和元字符(metacharacter)
字母文本指的是普通文本如"abcde"可匹配字符串中任何包含"abcde"的字符串。
元字符則更加靈活運(yùn)用通用的表達(dá)式匹配所有符合此表達(dá)式規(guī)律的字符串。
一、匹配單個(gè)字符
[ ]——從中選擇一個(gè)字符匹配
中間支持的類型:?jiǎn)卧~字符([ae])、非單詞字符([!?,;@#$*])、字母范圍([A-Z])、數(shù)字范圍([0])
eg. 正則表達(dá)式 可匹配字符串
[ae]ffect affect,effect
(此例中"[ae]"為元字符,"ffect"為字母文本)
注意:1.要在字符類中匹配連字符,那么把連字符號(hào)作為第一個(gè)字符列出即可。
2.可以在單個(gè)正則表達(dá)式中包含多個(gè)字符類。
eg. [01][0-9]:[0-5][0-9][ap]m 可以用來(lái)匹配如12:59pm格式的所有時(shí)間
^——排除某些字符(在[ ]中表此意,還可表示字符串的開(kāi)頭)
eg. 正則表達(dá)式 可匹配字符串 不可匹配字符串
m[^a]t met,mit,m&t…… mat
二、匹配特殊字符
可以使用的特殊字符:
\t ——匹配制表符
\r ——匹配硬回車符
\f ——匹配換頁(yè)符
\n——匹配換行符
描述表示字符類的元字符:
. ——匹配任何除了\n以外的字符(或者在單行模式中的任何字符)
\w ——匹配任何單詞字符(任何字母或數(shù)字)
\W ——匹配任何非單詞字符(除了字母和數(shù)字以外的任何字符)
\s ——匹配任何空白字符(包括空格、換行、制表符等)
\S ——匹配任何非空白字符(除了空格、換行、制表符等的任何字符)
\d ——匹配任何數(shù)字字符(0~9的數(shù)字)
\D——匹配任何非數(shù)字字符(除了0~9以外的任何字符)
表示字符串中字符位置:
^ ——匹配字符串的開(kāi)頭(或者多行模式下行的開(kāi)頭)。
$ ——匹配字符串的結(jié)尾,或者是字符串結(jié)尾“\n”之前的最后一個(gè)字符,或者是多行模式中的行結(jié)尾。
\A——匹配字符串的開(kāi)頭(忽略多行模式)
\Z——匹配字符串的結(jié)尾或字符串結(jié)尾“\n”之前的最后一個(gè)字符(忽略多行模式)。
\z——匹配字符串的結(jié)尾。
\G——匹配當(dāng)前搜索開(kāi)始的位置。
\b——匹配單詞的邊界。
\B——匹配單詞的非邊界。
注意:
1.句點(diǎn)字符(.)特別有用??梢杂盟鼇?lái)表示任何一個(gè)字符。
eg. 正則表達(dá)式 可匹配字符串
01.17.84 01/17/84 , 01-17-84 , 01 17 84 , 01.17.84
2.可以使用\b匹配單詞的邊界
eg. 正則表達(dá)式 可匹配字符串 不可匹配字符串
\blet\b let letter,hamlet
3.\A和\z在確保字符串所包含的是某個(gè)表達(dá)式,而不是其他內(nèi)容時(shí)很用。
eg.要判斷Text控件是否包含單詞"sophia",而不含任何額外的字符、換行符或者空白。
\Asophia\z
4.句點(diǎn)字符( . )具有特殊的含義,若要表示字母字符本身的含義,在前面加一個(gè)反斜杠:\.
三、匹配而選一的字符序列
|——匹配二選一
eg. 正則表達(dá)式 可匹配字符串
col(o|ou)r color,colour
注意: \b(bill|ted)和\bbill|ted是不同的。
后者還可以匹配"malted"因?yàn)閈b元字符只應(yīng)用于"bill"。
四、用量詞匹配
* ——匹配0次或多次
+ ——匹配1次或多次
——匹配0次或1次
{n} ——恰好匹配n次
{n,} ——至少匹配n次
{n,m}——至少匹配n次,但不多于m次
eg. 正則表達(dá)式 可匹配字符串
brothers? brother,brothers
eg. 正則表達(dá)式 可匹配字符串
\bp\d{3,5}\b 以p開(kāi)頭,且后跟3~5個(gè)數(shù)字結(jié)尾
注意:也可以把量詞與()一起使用,以便把該量詞應(yīng)用到整個(gè)字母序列。
eg. 正則表達(dá)式 可匹配字符串
(The)?school is beautiful. school is beautiful,The school is beautiful.
五、識(shí)別正則表達(dá)式和貪婪
有些量詞是貪婪的(greedy).他們會(huì)盡可能多的匹配字符。
如量詞* 匹配0個(gè)或多個(gè)字符。假設(shè)要匹配字符串中任何HTML標(biāo)簽。你可能會(huì)用如下正則表達(dá)式:
<.*>
現(xiàn)有字符串A <i>quantifier</i> can be <big> greedy</big>
結(jié)果<.*>把 <i>quantifier</i> can be <big> greedy</big>都匹配上了。
要解決該問(wèn)題,需要與量詞一起使用一個(gè)特殊的非貪婪字符“?”,因此表達(dá)式變化如下:
<.*?>
這樣就可以正確匹配<i>、</i>、<big>、</big>。
能強(qiáng)制量詞盡可能少地匹配字符,?還可以用在以下幾個(gè)量詞中:
*? ——非貪婪的量詞*
+? ——非貪婪的量詞+
——非貪婪的量詞?
{n}? ——非貪婪的量詞{n}
{n,}? ——非貪婪的量詞{n,}
{n,m}?——非貪婪的量詞{n,m}
六、捕獲和反向引用
捕獲組(capture group)就像是正則表達(dá)式中的變量。捕獲組可以捕獲正則表達(dá)式中的字符模式,并且由正則表達(dá)式后面的編號(hào)或名稱來(lái)引用改模式。
( ) ——用來(lái)捕獲其中的字符串
\數(shù)字——用編號(hào)來(lái)引用
eg.
正則表達(dá)式 可匹配字符串
(\w)(\w)\2\1 abba
注意:1.反向引用用來(lái)匹配html標(biāo)簽非常有效如<(\w+)></\1>可以匹配<table></table>等類似格式的標(biāo)簽。
2.默認(rèn)情況下,只要使用圓括號(hào),就會(huì)捕獲圓括號(hào)內(nèi)所包含的字符,可以使用n選項(xiàng)來(lái)禁用這個(gè)默認(rèn)行為(在第7條里會(huì)詳細(xì)介紹),或者添加?:到圓括號(hào)中。eg. (?:sophia) 或 (?n:sophia)此時(shí)不會(huì)捕獲sophia。
(?<捕獲組名稱>)\k<捕獲組名稱>——用名稱來(lái)引用
eg.
正則表達(dá)式 可匹配字符串
(?<sophia>\w)abc\k<sophia> xabcx
注意:在替換模式中使用捕獲組的格式略有不同,要用$1、$2等來(lái)按數(shù)值引用捕獲,用${sophia}等名稱來(lái)按名稱引用捕獲組
七、設(shè)置正則表達(dá)式的選項(xiàng)
eg.
string str = "<h4>sophia</h4>"
RegEx objRegEx = new RegEx("<h(d)>(.*?)</h1>");
Response.Write(objRegEx.Replace(str,"<font size = $1>$2</font>"));
i ——所執(zhí)行的匹配是不區(qū)分大小寫(xiě)的(.net中的屬性為IgnoreCase)
m——指定多行模式(.net中的屬性為Multiline)
n ——只捕獲顯示命名或編號(hào)的組(.net中的屬性為ExplicitCapture)
c ——編譯正則表達(dá)式,這樣會(huì)產(chǎn)生較快的執(zhí)行速度,但啟動(dòng)會(huì)變慢(.net中的屬性為Compiled)
s ——指定單行模式(.net中的屬性為SingleLine)
x ——消除非轉(zhuǎn)義空白字符和注釋(.net中的屬性為IgnorePatternWhitespace)
r ——搜索從右到左進(jìn)行(.net中的屬性為RightToLeft)
- ——表示禁用。
eg. (?im-r:sophia) 允許不區(qū)分大小寫(xiě)匹配sophia,使用多行模式,但禁用了從右到左的匹配。
注意:1.m會(huì)影響如何解析起始元字符(^)和結(jié)束元字符($)。在默認(rèn)情況^和$只匹配整個(gè)字符串的開(kāi)頭,即使字符串包含多行文本。如果啟用了m,那么它們就可以匹配每行文本的開(kāi)頭和結(jié)尾。
2.s會(huì)影響如何解析句點(diǎn)元字符(.)。通常一個(gè)句點(diǎn)能匹配除了換行符以外的所有字符。但在單行模式下,句點(diǎn)也能匹配一個(gè)換行符。