1. 程式人生 > >正則表示式 linux shell

正則表示式 linux shell

正則表示式

熱身

正則表示式(regular expression)描述了一種字串匹配的模式,可以用來檢查一個串是否含有某種子串、將匹配的子串做替換或者從某個串中取出符合某個條件的子串等。

例如 grep, expr, sed , awk. 或Vi中經常會使用到正則表示式,為了充分發揮 shell 程式設計的威力,需要精通正則表示式。

下面先舉個簡單例子來讓大家對正則表示式有個直觀的感受。ls命令是linux下最常用的命令。ls命令是list的縮寫,預設下ls用來打印出當前目錄的清單。

現在,我們只希望列出以d開頭的檔案或目錄,可以用ls d* 命令,這裡*是萬用字元,它表示匹配重複零次或多次前一字元。

舉一反三,列出以che 開頭的檔案或目錄,就可以用ls che* 命令。

是不是覺得有些覺得過於簡單了啊??!!好吧,打完小怪,現在升下級。

開始……

如何列出當前目錄下的所有目錄(不包含下面的子目錄)

思考……

到了使出正則表示式殺手鐗的時候了,在這裡,我們還是使用ls 命令,但是加了個 -l選項(-l選項作用是列出檔案的詳細資訊),使用正則表示式列出當前目錄下的所有目錄,我們給出了兩種方法(聰明的你當然會想到也可以用find命令,呵呵,這屬於第三種祕笈了)。且看:

這樣列出來的內容有些多,沒完全截下來所有顯示結果,但這並不妨礙本文的講解。

考慮到普通檔案是以-開頭,如dataf1.txt

檔案;目錄是以開頭的,如 adv_shell 是目錄,即第一個字母會不小心暴露出檔案的身份屬性。

所以我們就從d這裡作為突破口,這時,你會想到,有多少個“開頭”的d就應該有多少個目錄,太聰明瞭,好吧,我們按照你的思路實踐下。

現在,問題出來了,怎麼統計出來有多少個“開頭”的d?你想到了linuxgrep命令,還想到了正則表示式,於是grep正則表示式開始粉墨登場了……

ls -l |grep "^d"

這條簡單的命令就輕鬆解決了我們的問題,。"^d"???你納悶了,這個小東西配合起來怎麼會有那麼大的威力呢?這好比玩三國殺時劉備、司馬懿、香香之間配合的威力……"^d",就是正則表示式的用法,

"^"表示匹配行首,"^d"合起來就表示以d開頭的一行,grep "^d" 就是過濾出以d開頭的那些行,表示目錄,也就過濾出了當前目錄中的所有目錄。

謎底解開。現在你又想到,前面不是說還有一種方法的麼,既然如此迫不及待,那就只好順水推舟了。

第二種方法還是基於ls命令,但是用了-F 選項,-F 選項能列出檔案型別的指示符號,如下圖所示:

仔細觀察我們發現,在檔名後面,會多出了一些符號,如目錄adv_shell名字後多了條斜扛(/),可執行檔案checkhost.sh名字後多了個星號(*)……在此,如果想更多瞭解這些符號意義,可以檢視ls 命令的詳細資訊。

我們現在把注意力集中到目錄adv_shell名字後多了條斜扛(/)這條資訊上。很快聯想到,有多少個斜扛(/)就應該對應多少目錄,而且斜扛(/)會跟在每個目錄名的最後。我們又想到了grep命令,還想到了應該怎樣用正則表示式表示出匹配行尾,答案已經很接近了……

ls -F | grep "/$" 

這條短命令又一切成全了我們的夢想。"/$" 也是正則表示式的用法,"$"表示匹配行尾,"/$"合起來就表示匹配以/結尾的行,grep "/$" 就是過濾出以/結尾的那些行,/表示目錄,也就過濾出了當前目錄中的所有目錄。

在此基礎上,我們發散一下思維,比如說想統計當前目錄下的檔案個數及目錄個數,就可以使用以下命令:

ls -l * |grep "^-"|wc -l 

ls -l * |grep "^d"|wc -l 

好了,暫且休息,下面我們開始介紹更多關於正則表示式的知識。

蓄勢

前面我們初識了$ * 這些個正則表示式的用法,下面我們將進行更高一級的升煉。

正則表示式是一個字元或和元字元組合成的字符集,它們匹配(或指定)一個模式。字元即普通字元(例如字元 到 z),元字元即特殊字元(例如前面提到的字元 $ *)。正則表示式作為一個模板,將某個字元模式與所搜尋的字串進行匹配。

在這裡,為簡單見,我們不會介紹所有的正則表示式知識,只介紹常用的一些正則表示式知識。

一個正則表示式包含下面一個或多個項:

1.一個字符集

這裡的字符集裡的字元表示的就是它們字面上的意思.正則表示式最簡單的情況就是僅僅由字符集組成,而沒有其他的元字元。

2.

一個錨指明瞭正則表示式在一行文字中要匹配的位置,例如^$就是錨。

3.修飾符

它們用於展開或縮小(即是修改了)正則表示式匹配文字行的範圍.修飾符包括了星號、括號和反斜槓符號。

* 匹配重複零次或多次前一字符 

+ 匹配一個或多個前面的字元.它的作用和*很相似,唯一的區別是它不匹配零個字 符的情

? 匹配零或一個前面的字元。它一般用於匹配單個字元 

. 匹配任意字元除換行符 

^ 匹配一行的開頭,但依賴於上下文環境,可能在正則表示式中表示否定一個字元 集的意思
[...] 匹配集合中任意字元 如"[xyz]" 匹配字元 x, y, z
[^...] 匹配不屬集合 中 任意字元 
^, $ 匹配 行首、行尾 
\<, \> 用於表示單詞的邊界。\< 匹配詞首,\>詞尾,如"\<the\>" 匹配單詞"the"
\(...\) 正則表示式分組。進行子字串提取(substring extraction)一起使用很有用
\n 第 個分組內容  

\ 轉義(escapes) 一個特殊的字元,使這個字元表示原來字面上的意思。"\$"表示 了原來的字面意思"$",而不是在正則表示式中表達的匹配行尾的意思."\\"也被 解釋成了字面上的意思"\"

\{ \} 指示前面正則表示式匹配的次數

要轉義是因為不轉義的話大括號只是表示他們字面上的意思.這個用法只是技巧上 的而不是基本正則表示式的內容."[0-9]\{5\}" 精確匹配5個數字(09的數字). 

| "",正則操作符用於匹配一組可選的字元

{n} n是一個非負整數。匹配確定的n次。例如,''o{2}'' 不能匹配 "Bob"中的''o'',但是能匹配"food" 中的兩個o

{n,} n是一個非負整數。至少匹配n次。例如,''o{2,}'' 不能匹配"Bob"中的'o'',但能匹配 "foooood"中的所有o''o{1,}''等價於''o+''''o{0,}''則等價於''o*''

{n,m} mn均為非負整數,其中n<=m。最少匹配n次且最多匹配m次。例如,"o{1,3}"將匹配 "fooooood"中的前三個o''o{0,1}''等價於''o?''。請注意在逗號和兩個數之間不能有空格。

\b 匹配一個單詞邊界,也就是指單詞和空格間的位置。例如,''er\b'' 可以匹配"never" 中的''er'',但不能匹配 "verb"中的 ''er''。 

\B 匹配非單詞邊界。''er\B''能匹配"verb"中的''er'',但不能匹配"never"中的 ''er''

\w 匹配包括下劃線的任何單詞字元。等價於''[A-Za-z0-9_]''

\W 匹配任何非單詞字元。等價於''[^A-Za-z0-9_]''

\d 匹配一個數字字元。等價於[0-9]

\D 匹配一個非數字字元。等價於[^0-9]

\f 匹配一個換頁符。等價於\x0c\cL

\n 匹配一個換行符。等價於\x0a\cJ

\r 匹配一個回車符。等價於\x0d\cM

\s 匹配任何空白字元,包括空格、製表符、換頁符等等。等價於[\f\n\r\t\v]

\S 匹配任何非空白字元。等價於[^\f\n\r\t\v]

\t 匹配一個製表符。等價於\x09 和 \cI

\v 匹配一個垂直製表符。等價於\x0b\cK

常用的就介紹到這裡,其它的需要進一步瞭解可以查閱手冊或資料。

翱翔

部分例子 

/\b([a-z]+)\1\b/gi 一個單詞連續出現的位置 

/(\w+):\/\/([^/:]+)(:\d*)?([^# ]*)/ 將一個URL解析為協議、域、埠及相對路徑

/^(?:Chapter|Section) [1-9][0-9]{0,1}$/定位章節的位置 

/[-a-z]/ Az26個字母再加一個-號。

/ter\b/ 可匹配chapter,而不能terminal

/\Bapt/ 可匹配chapter,而不能aptitude

/Windows(?=95 |98 |NT )/ 可匹配Windows95Windows98WindowsNT,當找到一個匹配後,從Windows後面開始進行下一次的檢索匹配。

下面來些更加高階些的例子。

對於vi 中命令的分析

s/\(^.*$\)\n^.*$/\1/g

初一看,會傻眼,眼前感覺全是$^.*/\……這些符號的閃動。

不要緊,下面慢慢道來。

先給出vi中替換命令的格式。

s/re/string  用string替換正則表示式re

如果在後面加了個如: s/re/string/g

表示表示對該行內符合模式的進行全部替換。

例如,s/\//_/g 這個正則表示式就表示,對行內所有的斜扛(/)替成下劃線(_),\ /即替換命令格式中的re,用反斜扛\是為了轉義,\ /即表示 的本意;_即替換命令格式中的string

好了,瞭解vi中替換命令的格式後,我們再對細節進行分析。

前面介紹到 \(...\) 表示正則表示式分組,\n表示第 個分組內容,於是對於

s/\(^.*$\)\n^.*$/\1/g 

中的 \1 ,就表示第一個正則表示式分組即\(^.*$\),我們暫將第一個正則表示式分組\(^.*$\)其記為:A

類推,\2就應該表示第二個正則表示式分組,即 \n^.*$  實際上 也應該寫在括號內比較好:\(\n^.*$\) ,我們也暫將第二個正則表示式分組 \n^.*$ 記為:B

好了,

%s/\(^.*$\)\n^.*$/\1/g

就可以寫為:

s/AB/A/g

作用就是將行內所有的AB都替換成A

現在我們來分別分析AB的作用。

A=\(^.*$\)

抽取出來實際上是\(...\),表示正則表示式 分組,再分析括號內的^.*$^代表行首,點號(.)匹配任意字元(除換行符),星號(*)匹配重複零次或多次前一字元,$代表匹配到行尾,綜合起來就是:匹配這一行

B=\n^.*$

分析: \n換行,^.*$同上,表示匹配這一行,綜合起來就是:下一行(即上行結束後開始的另一行)。

再於是就有:%s/AB/A/g 即將所有AB都替換成B  ,代入AB各自意思得到:

將兩行(如行1和行)內容替換為第一行內容(即行1的內容),加上/g,就是對全文進行前述替換,也就是隔行刪除,如果是從檔案第一行開始進行的操作,就意味著是刪除所有偶數行、保留所有奇數行操作。

從上面的分析過程中,我們總結出兩條有用的正則表示式:

%s/\(^.*$\)\n^.*$/\1/g 刪除偶數行

%s/^.*$\n\(^.*$\)/\1/g 刪除奇數行

不過癮的話,還可以再看看另一例子:

sed 's/\(.*\)\(.\)$/\2/'

\2就應該表示第二個正則表示式分組

同上,也將A=/\(.*\)B=\(.\)$,表示式變為's/AB/B',將AB都替換成

分析AB作用。

A=/\(.*\)

抽取出來實際上是\(...\),表示正則表示式 分組,再分析括號內的 .*,表示匹配任意零個或多個字元 除換行符 

B=\(.\)$

括號內的 ,表示匹配任意字元(除換行符) ,括號外的$表示匹配到行尾,即表示行尾的最後一個字元;那上述的A /\(.*\)  就表示該行最後一個字元前的所有字元。

於是sed 's/\(.*\)\(.\)$/\2/' 作用就是:刪除該行除最後一個字元外的所有字元,保留最後一個字元,也即取得該行最後一個字元。

好了,正則表示式的介紹就告一段落,知識點比較多,需要平時反覆的積累,遇到複雜的正則表示式時首先要克服恐懼的心理,然後按照上面的方法化繁為簡,抓住其本質的東西,有如探囊取物,必手到擒來。