1. 程式人生 > >Linux 系統之文字處理命令

Linux 系統之文字處理命令

---恢復內容開始---

 

Linux 系統之文字處理命令

(一)基於關鍵字搜尋

(二)基於列處理文字

(三)文字統計

(四)文字排序

(五)刪除重複行

(六)文字比較

(七)處理文字內容

(八)搜尋替換

 

 

 

(一)基於關鍵字搜尋

 

grep命令

用以基於關鍵字搜尋文字

  

語法

grep [OPTIONS] [關鍵字] [FILE]

 

OTPIONS

-i 在搜尋的時候忽略大小寫

-n 顯示結果所在行數

-v 輸出不帶關鍵字的行

-Ax 在輸出的時候包含結果所在行之後的指定行數
-Bx 在輸出的時候包含結果所在行之前的指定行數

  

應用舉例

在 /root/test/test1檔案中搜索含有read關鍵字的內容並輸出

grep "read" /root/test/test1

 

下面這條命令也可以完成上條命令的功能(這裡關鍵字不加雙引號也行)

cat /root/test/test1 | grep "read"

 

在根目錄下查詢使用者為hadoop的檔案,只輸出含有haige關鍵字的內容

find / -user hadoop | grep haige

  

 

 

 

(二)基於列處理文字

 

cut命令

用以基於列處理文字內容

 

語法

cut [OPTIONS] [FILE]

  

OPTIONS

 -d 指定欄位的分隔符,預設的欄位分隔符為“TAB”

-b 按位元組切割,僅顯示行中指定直接範圍的內容

-c 按字元切割,僅顯示行中指定範圍的字元

-f  顯示指定欄位的內容(對-c與 -b引數同樣適用指定)

#:第#欄位

#,#[,#]:離散的多個欄位,例如1,3,6

混合使用:1-3,7

#- :從#開始欄位、位元組、位元組之後的所有欄位

-# :從開始到#字元、欄位、位元組

 

-n 與“-b” 選項連用,不分割多位元組字元

-complement 選項提取指定欄位之外的列

--out-delimiter=<欄位分隔符> 指定輸出內容是的欄位分割符

--version 顯示指令的版本資訊

  

 

應用舉例

test檔案

No Name Mark Percent

01 tom 69 91

02 jack 71 87

03 alex 68 98

 

 

輸出test2檔案每一行的前三個字元

cut -c1-3 test2

 

輸出test2檔案每一行的前五個字元

cut -c-5 test2

 

輸出test2檔案每一行的前五個位元組

cut -b1-5 test2

 
 

  

 

 

 

 

 (三)文字統計

 

wc命令

收集文字統計資料。
計數單詞總數,行總數,位元組總數和字元總數

 

語法

wc [OPTIONS] [FILE]

 

OPTIONS

-l 只計數行數
-w 只計數單詞總數
-c 只計數字節總數
-m 只計數字符總數
-L 顯示檔案中最長行的長度

  

 

應用舉例

wc -l test2

wc -w test2

wc -c test2

wc -m test2

wc -L test2

  

 

 

 

(四)文字排序

sort命令

把整理過的文字顯示在STDOUT,不改變原始檔案

 

語法

 sort [OPTIONS] files

 

OPTIONS

-r : 執行反方向(由上至下)整理

-n : 執行按數字大小整理

-f : 選項忽略(FOLD)字串中的字元大小寫

-u : 選項(獨特,unique)刪除輸出中的重複行

-t c : 選項使用c作為欄位界定符

-k x : 選項按照使用c字元分隔X列來整理能夠使用

-c : 檢查檔案是否已經按照順序排序

  

 

應用舉例

按字母順序排序

sort test2

 

按字母順序的反方向排序

sort -r test2

  

 

 

 

 (五)刪除重複行

uniq命令

用於檢查及刪除文字檔案中重複出現的行列

  

語法

uniq [OPTION] [FILE]

 

OPTIONS

-c:顯示每行重複出現的次數
-d:僅顯示重複過的行
-u:僅顯示不曾重複的行

常和sort 命令一起配合使用:
sort userlist.txt | uniq -c

  

應用舉例

兩種刪除重複行的方法:
1.命令 sort -u 可以用以刪除重複行

2.命令uniq 用以刪除重複的相鄰行

  

 

 

(六)文字比較

diff命令

用以比較兩個檔案的區別

 

語法 

diff [OPTIONS] [FILE] [FILE]

 

 

OPTIONS

-<行數> 指定要顯示多少行的文字。此引數必須與-c或-u引數一併使用

-b 忽略空格造成的不同 -B 忽略空行造成的不同 -r 比較子目錄中的檔案 -u 以合併的方式來顯示檔案內容的不同。多用於補丁 -y 可以將螢幕分成左右兩部分,來比較兩個檔案之間的差異。 -a diff預設只會逐行比較文字檔案; -c 顯示全部內容,並標出不同之處; -n或–rcs 將比較結果以RCS的格式來顯示 -N或–new-file 在比較目錄時,若檔案A僅出現在某個目錄中,預設會顯示:Only in目錄,檔案A 若使用-N引數,則diff會將檔案A 與一個空白的檔案比較; -p 若比較的檔案為C語言的程式碼檔案時,顯示差異所在的函式名稱-q或–brief 僅顯示有無差異,不顯示詳細的資訊
-q或–brief 僅顯示有無差異,不顯示詳細的資訊; -x<檔名或目錄>或–exclude<檔名或目錄> 不比較選項中所指定的檔案或目錄; -X<檔案>或–exclude-from<檔案> 您可以將檔案或目錄型別存成文字檔案,然後在=<檔案>中指定此文字檔案; -e 將比較的結果儲存成一個ed指令碼,之後ed程式可以執行該指令碼檔案,從而將file1修改成與file2的內容相同,這一般在patch的時候有用

  

 

 

 

 應用舉例

diff test1 test2

diff -y test1 test2

 

 

 

 (七)處理文字內容

 

 tr命令

用以處理文字內容,可以非常容易地實現 sed 的許多最基本功能。您可以將 tr 看作為 sed 的(極其)簡化的變體:它可以用一個字元來替換另一個字元,或者可以完全除去一些字元。您也可以用它來除去重複字元

  

語法

tr [OPTIONS] ["string1_to_translate_from"] ["string2_to_translate_to"] < input_file

  

OPTIONS

-c 用字串1中字符集的補集替換此字符集,要求字符集為ASCII。
-d 刪除字串1中所有輸入字元。
-s 刪除所有重複出現字元序列,只保留第一個;即將重複出現字串壓縮為一個字串。
input-file是轉換檔名。雖然可以使用其他格式輸入,但這種格式最常用

  

字元範圍

指定字串1或字串2的內容時,只能使用單字元或字串範圍或列表。
[a-z] a-z內的字元組成的字串。
[A-Z] A-Z內的字元組成的字串。
[0-9] 數字串。
\octal 一個三位的八進位制數,對應有效的ASCII字元。
[O*n] 表示字元O重複出現指定次數n。因此[O*2]匹配OO的字串。
tr中特定控制字元的不同表達方式
速記符含義八進位制方式
\a Ctrl-G  鈴聲\007
\b Ctrl-H  退格符\010
\f Ctrl-L  走行換頁\014
\n Ctrl-J  新行\012
\r Ctrl-M  回車\015
\t Ctrl-I  tab鍵\011
\v Ctrl-X  \030

  

 

應用舉例

1.刪除
刪除指定字元
tr -d 'TMD' < file
或者
cat file | tr -d 'TMD' >new_file

刪除檔案file中出現的換行'\n'、製表'\t'字元
cat file | tr -d "\n\t" > new_file

刪除“連續著的”重複字母,只保留第一個
cat file | tr -s [a-zA-Z] > new_file

刪除空行
cat file | tr -s "\n" > new_file

刪除Windows檔案“造成”的'^M'字元
# cat file | tr -d "\r" > new_file
或者
# cat file | tr -s "\r" "\n" > new_file
【注意】這裡-s後面是兩個引數"\r"和"\n",用後者替換前者


2.替換
(小寫 --> 大寫)
cat file | tr [a-z] [A-Z] > new_file

(大寫 --> 小寫)
cat file | tr [A-Z] [a-z] > new_file

(數字 --> 小寫)
cat file | tr [0-9] [a-j] > new_file

用空格符\040替換製表符\011
cat file | tr -s "\011" "\040" > new_file

把路徑變數中的冒號":",替換成換行符"\n"
echo $PATH | tr -s ":" "\n"

  

 

(八)搜尋替換

sed命令

用以搜尋並替換文字,sed是非互動式的編輯器。它不會修改檔案,除非使用shell重定向來儲存結果。預設情況下,所有的輸出行都被列印到螢幕上。

  

命令與選項

sed命令告訴sed如何處理由地址指定的各輸入行,如果沒有指定地址則處理所有的輸入行。

  

 選項

 -e	 進行多項編輯,即對輸入行應用多條sed命令時使用
 -n	 取消預設的輸出
 -f	 指定sed指令碼的檔名

  

 

 sed命令

 a\  在當前行後新增一行或多行。多行時除最後一行外,每行末尾需用“\”續行

 c\ 用此符號後的新文字替換當前行中的文字。多行時除最後一行外,每行末尾需用"\"續行

 i\ 在當前行之前插入文字。多行時除最後一行外,每行末尾需用"\"續行

d  刪除行

 h 把模式空間裡的內容複製到暫存緩衝區

H 把模式空間裡的內容追加到暫存緩衝區

g 把暫存緩衝區裡的內容複製到模式空間,覆蓋原有的內容

G 把暫存緩衝區的內容追加到模式空間裡,追加在原有內容的後面

 l 列出非列印字元

p 列印行

n 讀入下一輸入行,並從下一條命令而不是第一條命令開始對其的處理

 q  結束或退出sed

 r  從檔案中讀取輸入行

 !  對所選行以外的所有行應用命令

s  用一個字串替換另一個

 g 在行內進行全域性替換

 w 將所選的行寫入檔案

 x 交換暫存緩衝區與模式空間的內容

 y 將字元替換為另一字元(不能對正則表示式使用y命令)

  

 

正則表示式元字元

注意:與grep一樣,sed也支援特殊元字元,來進行模式查詢、替換。不同的是,sed使用的正則表示式是括在斜槓線"/"之間的模式

 ^	     行首定位符	             /^my/  匹配所有以my開頭的行

 $       行尾定位符               /my$/  匹配所有以my結尾的行

 .     匹配除換行符以外的單個字元            /m..y/  匹配包含字母m,後跟兩個任意字元,再跟字母y的行

 *     匹配零個或多個前導字元              /my*/  匹配包含字母m,後跟零個或多個y字母的行
 []       匹配指定字元組內的任一字元            /[Mm]y/  匹配包含My或my的行
 [^]      匹配不在指定字元組內的任一字元                /[^Mm]y/  匹配包含y,但y之前的那個字元不是M或m的行

 \(..\) 儲存已匹配的字元1,20s/\(you\)self/\1r/  標記元字元之間的模式,並將其儲存為標籤1,之後可以使用\1來引用它。最多可以定義9個標籤,從左邊開始編
號,最左邊的是第一個。此例中,對第1到第20行進行處理,you被儲存為標籤1,如果發現youself,則替換為your。

 &  儲存查詢串以便在替換串中引用  s/my/**&**/  符號&代表查詢串。my將被替換為**my**

 \<  詞首定位符  /\<my/  匹配包含以my開頭的單詞的行

 \> 詞尾定位符  /my\>/  匹配包含以my開頭的單詞的行
 x\{m\}   連續m個x                                  /9\{5\}/ 匹配包含連續5個9的行

 x\{m,\}  至少m個x /9\{5,\}/  匹配包含至少連續5個9的行

 x\{m,n\} 至少m個,但不超過n個x  /9\{5,7\}/  匹配包含連續5到7個9的行

  

 

應用舉例

 

 p命令

 命令p用於顯示模式空間的內容。預設情況下,sed把輸入行列印在螢幕上,選項-n用於取消預設的列印操作。當選項-n和命令p同時出現時,sed可列印選定的內容。

sed '/my/p' datafile
#預設情況下,sed把所有輸入行都列印在標準輸出上。如果某行匹配模式my,p命令將把該行另外列印一遍。

sed -n '/my/p' datafile
#選項-n取消sed預設的列印,p命令把匹配模式my的行列印一遍。

  

 

d命令

命令d用於刪除輸入行。sed先將輸入行從檔案複製到模式空間裡,然後對該行執行sed命令,最後將模式空間裡的內容顯示在螢幕上。如果發出的是命令d,當前模式空間裡的輸入行會被刪除,不被顯示。

sed '$d' datafile
#刪除最後一行,其餘的都被顯示

sed '/my/d' datafile
#刪除包含my的行,其餘的都被顯示

 

s命令

sed 's/^My/You/g' datafile
#命令末端的g表示在行內進行全域性替換,也就是說如果某行出現多個My,所有的My都被替換為You。

sed -n '1,20s/My$/You/gp' datafile
#取消預設輸出,處理1到20行裡匹配以My結尾的行,把行內所有的My替換為You,並列印到螢幕上。
  
sed 's#My#Your#g' datafile
#緊跟在s命令後的字元就是查詢串和替換串之間的分隔符。分隔符預設為正斜槓,但可以改變。無論什麼字元(換行符、反斜線除外),只要緊跟s命令,就成了新的串分隔符。

  

e選項

-e是編輯命令,用於sed執行多個編輯任務的情況下。在下一行開始編輯前,所有的編輯動作將應用到模式緩衝區中的行上。

sed -e '1,10d' -e 's/My/Your/g' datafile
#選項-e用於進行多重編輯。第一重編輯刪除第1-3行。第二重編輯將出現的所有My替換為Your。因為是逐行進行這兩項編輯(即這兩個命令都在模式空間的當前行上執行),所以編輯命令的順序會影響結果。

  

r命令

r命令是讀命令。sed使用該命令將一個文字檔案中的內容加到當前檔案的特定位置上。

sed '/My/r introduce.txt' datafile
#如果在檔案datafile的某一行匹配到模式My,就在該行後讀入檔案introduce.txt的內容。如果出現My的行不止一行,則在出現My的各行後都讀入introduce.txt檔案的內容。

  

w命令

sed -n '/hrwang/w me.txt' datafile

  

a\ 命令

a\ 命令是追加命令,追加將新增新文字到檔案中當前行(即讀入模式緩衝區中的行)的後面。所追加的文字行位於sed命令的下方另起一行。如果要追加的內容超過一行,則每一行都必須以反斜線結束,最後一行除外。最後一行將以引號和檔名結束。

sed '/^hrwang/a\
>hrwang and mjfan are husband\
>and wife' datafile
#如果在datafile檔案中發現匹配以hrwang開頭的行,則在該行下面追加hrwang and mjfan are husband and wife

  

 

 i\ 命令

i\ 命令是在當前行的前面插入新的文字。

 

 

 c\ 命令

sed使用該命令將已有文字修改成新的文字。

 

n命令

sed使用該命令獲取輸入檔案的下一行,並將其讀入到模式緩衝區中,任何sed命令都將應用到匹配行緊接著的下一行上。

sed '/hrwang/{n;s/My/Your/;}' datafile

注:如果需要使用多條命令,或者需要在某個地址範圍內巢狀地址,就必須用花括號將命令括起來,每行只寫一條命令,或這用分號分割同一行中的多條命令。

 

y命令

該命令與UNIX/Linux中的tr命令類似,字元按照一對一的方式從左到右進行轉換。例如,y/abc/ABC/將把所有小寫的a轉換成A,小寫的b轉換成B,小寫的c轉換成C。

sed '1,20y/hrwang12/HRWANG^$/' datafile
#將1到20行內,所有的小寫hrwang轉換成大寫,將1轉換成^,將2轉換成$。
#正則表示式元字元對y命令不起作用。與s命令的分隔符一樣,斜線可以被替換成其它的字元。

 

 

q命令

q命令將導致sed程式退出,不再進行其它的處理。

sed '/hrwang/{s/hrwang/HRWANG/;q;}' datafile

  

h命令和g命令

#cat datafile
My name is hrwang.
Your name is mjfan.
hrwang is mjfan's husband.
mjfan is hrwang's wife.
  
sed -e '/hrwang/h' -e '$G' datafile
sed -e '/hrwang/H' -e '$G' datafile
#通過上面兩條命令,你會發現h會把原來暫存緩衝區的內容清除,只儲存最近一次執行h時儲存進去的模式空間的內容。而H命令則把每次匹配hrwnag的行都追加儲存在暫存緩衝區。
sed -e '/hrwang/H' -e '$g' datafile
sed -e '/hrwang/H' -e '$G' datafile
#通過上面兩條命令,你會發現g把暫存緩衝區中的內容替換掉了模式空間中當前行的內容,此處即替換了最後一行。而G命令則把暫存緩衝區的內容追加到了模式空間的當前行後。此處即追加到了末尾。

  

sed指令碼

sed指令碼就是寫在檔案中的一列sed命令。指令碼中,要求命令的末尾不能有任何多餘的空格或文字。如果在一行中有多個命令,要用分號分隔。執行指令碼時,sed先將輸入檔案中第一行復制到模式緩衝區,然後對其執行指令碼中所有的命令。每一行處理完畢後,sed再複製檔案中下一行到模式緩衝區,對其執行指令碼中所有命令。使用sed指令碼時,不再用引號來確保sed命令不被shell解釋。例如sed指令碼script:

#handle datafile
3i\
~~~~~~~~~~~~~~~~~~~~~
3,$s/\(hrwang\) is \(mjfan\)/\2 is \1/
$a\
We will love eachother forever!! 
 

  

 

#sed -f script datafile
My name is hrwang
Your name is mjfan
~~~~~~~~~~~~~~~~~~~~~
mjfan is hrwang's husband.         
mjfan is hrwang's wife.
We will love eachother forever!!