1. 程式人生 > >Shell學習之正則表示式-----grep

Shell學習之正則表示式-----grep

grep

1. 作用

Linux系統中grep命令是一種強大的文字搜尋工具,它能使用正則表示式搜尋文字,並把匹 配的行打印出來。grep全稱是Global Regular Expression Print,表示全域性正則表示式版本,它的使用許可權是所有使用者。

grep家族包括grepegrepfgrepegrepfgrep的命令只跟grep有很小不同。egrepgrep的擴充套件,支援更多的re元字元, fgrep就是fixed grepfast grep,它們把所有的字母都看作單詞,也就是說,正則表示式中的元字元表示回其自身的字面意義,不再特殊。linux使用GNU

版本的grep。它功能更強,可以通過-G-E-F命令列選項來使用egrepfgrep的功能。

2. 格式及主要引數

grep [options]

主要引數:  grep --help可檢視

-c:只輸出匹配行的計數。

-i:不區分大小寫。

-h:查詢多檔案時不顯示檔名。

-l:查詢多檔案時只輸出包含匹配字元的檔名。

-n:顯示匹配行及 行號。

-s:不顯示不存在或無匹配文字的錯誤資訊。

-v:顯示不包含匹配文字的所有行。

--color=auto :可以將找到的關鍵詞部分加上顏色的顯示。

pattern正則表示式主要引數:

\: 忽略正則表示式中特殊字元的原有含義。

^:匹配正則表示式的開始行。

$: 匹配正則表示式的結束行。

\<:從匹配正則表達 式的行開始。

\>:到匹配正則表示式的行結束。

[ ]:單個字元,如[A]即A符合要求 。

[ - ]:範圍,如[A-Z],即A、B、C一直到Z都符合要求 。

.:所有的單個字元。

*:所有字元,長度可以為0。

3. grep命令使用簡單例項

itcast$ grep ‘test’ d*

顯示所有以d開頭的檔案中包含 test的行 

itcast $ grep ‘test’ aa bb cc

顯示在aa,bb,cc檔案中匹配test的行。

itcast $ grep ‘[a-z]\{5\}’ aa

顯示所有包含每個字串至少有5個連續小寫字元的字串的行。

itcast $ grep ‘w\(es\)t.*\1′ aa

如果west被匹配,則es就被儲存到記憶體中,並標記為1,然後搜尋任意個字元(.*),這些字元後面緊跟著 另外一個es(\1),找到就顯示該行。
如果用egrep或grep -E,就不用”\”號進行轉義,直接寫成’w(es)t.*\1′就可以了。

4. grep命令使用複雜例項

明確要求搜尋子目錄:

grep -r

或忽略子目錄

grep -d skip

如果有很多輸出時,您可以通過管道將其轉到less’上閱讀:

itcast$ grep magic /usr/src/Linux/Documentation/* | less

這樣,您就可以更方便地閱讀。

有一點要注意,您必需提供一個檔案過濾方式(搜尋全部檔案的話用 *)。如果您忘了,’grep’會一直等著,直到該程式被中斷。如果您遇到了這樣的情況,按 ,然後再試。

下面還有一些有意思的命令列引數:

grep -i pattern files :不區分大小寫地搜尋。預設情況區分大小寫,

grep -l pattern files :只列出匹配的檔名,

grep -L pattern files :列出不匹配的檔名,

grep -w pattern files :只匹配整個單詞,而不是字串的一部分(如匹配’magic’,而不是’magical’),

grep -C number pattern files :匹配的上下文分別顯示[number]行,

grep pattern1 | pattern2 files :顯示匹配 pattern1 或 pattern2 的行,

例如:grep "abc\|xyz" testfile 表示過濾包含abc或xyz的行

grep pattern1 files | grep pattern2 :顯示既匹配 pattern1 又匹配 pattern2 的行。

grep -n pattern files 即可顯示行號資訊

grep -c pattern files 即可查詢總行數

還有些用於搜尋的特殊符號:\< \> 分別標註單詞的開始與結尾。

例如:

grep man * 會匹配 ‘Batman’、’manic’、’man’等,

grep ‘\<man’ * 匹配’manic’和’man’,但不是’Batman’,

grep ‘\<man\>’ 只匹配’man’,而不是’Batman’或’manic’等其他的字串。

‘^’: 指匹配的字串在行首,

‘$’: 指匹配的字串在行 尾,