Linux 系統之文字處理命令
---恢復內容開始---
Linux 系統之文字處理命令
(一)基於關鍵字搜尋
(二)基於列處理文字
(三)文字統計
(四)文字排序
(五)刪除重複行
(六)文字比較
(七)處理文字內容
(八)搜尋替換
(一)基於關鍵字搜尋
grep命令
用以基於關鍵字搜尋文字
語法
grep [OPTIONS] [關鍵字] [FILE]
OTPIONS
-i 在搜尋的時候忽略大小寫 -n 顯示結果所在行數 -v 輸出不帶關鍵字的行 -Ax 在輸出的時候包含結果所在行之後的指定行數
-Bx 在輸出的時候包含結果所在行之前的指定行數
應用舉例
在 /root/test/test1檔案中搜索含有read關鍵字的內容並輸出
grep "read" /root/test/test1
下面這條命令也可以完成上條命令的功能(這裡關鍵字不加雙引號也行)
cat /root/test/test1 | grep "read"
在根目錄下查詢使用者為hadoop的檔案,只輸出含有haige關鍵字的內容
find / -user hadoop | grep haige
(二)基於列處理文字
cut命令
用以基於列處理文字內容
語法
cut [OPTIONS] [FILE]
OPTIONS
-d 指定欄位的分隔符,預設的欄位分隔符為“TAB”
-b 按位元組切割,僅顯示行中指定直接範圍的內容
-c 按字元切割,僅顯示行中指定範圍的字元
-f 顯示指定欄位的內容(對-c與 -b引數同樣適用指定)
#:第#欄位
#,#[,#]:離散的多個欄位,例如1,3,6
混合使用:1-3,7
#- :從#開始欄位、位元組、位元組之後的所有欄位
-# :從開始到#字元、欄位、位元組
-n 與“-b” 選項連用,不分割多位元組字元
-complement 選項提取指定欄位之外的列
--out-delimiter=<欄位分隔符> 指定輸出內容是的欄位分割符
--version 顯示指令的版本資訊
應用舉例
test檔案
No Name Mark Percent
01 tom 69 91
02 jack 71 87
03 alex 68 98
輸出test2檔案每一行的前三個字元
cut -c1-3 test2
輸出test2檔案每一行的前五個字元
cut -c-5 test2
輸出test2檔案每一行的前五個位元組
cut -b1-5 test2
(三)文字統計
wc命令
收集文字統計資料。
計數單詞總數,行總數,位元組總數和字元總數
語法
wc [OPTIONS] [FILE]
OPTIONS
-l 只計數行數 -w 只計數單詞總數 -c 只計數字節總數 -m 只計數字符總數 -L 顯示檔案中最長行的長度
應用舉例
wc -l test2
wc -w test2
wc -c test2
wc -m test2
wc -L test2
(四)文字排序
sort命令
把整理過的文字顯示在STDOUT,不改變原始檔案
語法
sort [OPTIONS] files
OPTIONS
-r : 執行反方向(由上至下)整理 -n : 執行按數字大小整理 -f : 選項忽略(FOLD)字串中的字元大小寫 -u : 選項(獨特,unique)刪除輸出中的重複行 -t c : 選項使用c作為欄位界定符 -k x : 選項按照使用c字元分隔X列來整理能夠使用 -c : 檢查檔案是否已經按照順序排序
應用舉例
按字母順序排序
sort test2
按字母順序的反方向排序
sort -r test2
(五)刪除重複行
uniq命令
用於檢查及刪除文字檔案中重複出現的行列
語法
uniq [OPTION] [FILE]
OPTIONS
-c:顯示每行重複出現的次數 -d:僅顯示重複過的行 -u:僅顯示不曾重複的行
常和sort 命令一起配合使用:
sort userlist.txt | uniq -c
應用舉例
兩種刪除重複行的方法: 1.命令 sort -u 可以用以刪除重複行 2.命令uniq 用以刪除重複的相鄰行
(六)文字比較
diff命令
用以比較兩個檔案的區別
語法
diff [OPTIONS] [FILE] [FILE]
OPTIONS
-<行數> 指定要顯示多少行的文字。此引數必須與-c或-u引數一併使用
-b 忽略空格造成的不同 -B 忽略空行造成的不同 -r 比較子目錄中的檔案 -u 以合併的方式來顯示檔案內容的不同。多用於補丁 -y 可以將螢幕分成左右兩部分,來比較兩個檔案之間的差異。 -a diff預設只會逐行比較文字檔案; -c 顯示全部內容,並標出不同之處; -n或–rcs 將比較結果以RCS的格式來顯示 -N或–new-file 在比較目錄時,若檔案A僅出現在某個目錄中,預設會顯示:Only in目錄,檔案A 若使用-N引數,則diff會將檔案A 與一個空白的檔案比較; -p 若比較的檔案為C語言的程式碼檔案時,顯示差異所在的函式名稱-q或–brief 僅顯示有無差異,不顯示詳細的資訊
-q或–brief 僅顯示有無差異,不顯示詳細的資訊; -x<檔名或目錄>或–exclude<檔名或目錄> 不比較選項中所指定的檔案或目錄; -X<檔案>或–exclude-from<檔案> 您可以將檔案或目錄型別存成文字檔案,然後在=<檔案>中指定此文字檔案; -e 將比較的結果儲存成一個ed指令碼,之後ed程式可以執行該指令碼檔案,從而將file1修改成與file2的內容相同,這一般在patch的時候有用
應用舉例
diff test1 test2
diff -y test1 test2
(七)處理文字內容
tr命令
用以處理文字內容,可以非常容易地實現 sed 的許多最基本功能。您可以將 tr 看作為 sed 的(極其)簡化的變體:它可以用一個字元來替換另一個字元,或者可以完全除去一些字元。您也可以用它來除去重複字元
語法
tr [OPTIONS] ["string1_to_translate_from"] ["string2_to_translate_to"] < input_file
OPTIONS
-c 用字串1中字符集的補集替換此字符集,要求字符集為ASCII。 -d 刪除字串1中所有輸入字元。 -s 刪除所有重複出現字元序列,只保留第一個;即將重複出現字串壓縮為一個字串。 input-file是轉換檔名。雖然可以使用其他格式輸入,但這種格式最常用
字元範圍
指定字串1或字串2的內容時,只能使用單字元或字串範圍或列表。 [a-z] a-z內的字元組成的字串。 [A-Z] A-Z內的字元組成的字串。 [0-9] 數字串。 \octal 一個三位的八進位制數,對應有效的ASCII字元。 [O*n] 表示字元O重複出現指定次數n。因此[O*2]匹配OO的字串。 tr中特定控制字元的不同表達方式 速記符含義八進位制方式 \a Ctrl-G 鈴聲\007 \b Ctrl-H 退格符\010 \f Ctrl-L 走行換頁\014 \n Ctrl-J 新行\012 \r Ctrl-M 回車\015 \t Ctrl-I tab鍵\011 \v Ctrl-X \030
應用舉例
1.刪除
刪除指定字元
tr -d 'TMD' < file
或者
cat file | tr -d 'TMD' >new_file
刪除檔案file中出現的換行'\n'、製表'\t'字元
cat file | tr -d "\n\t" > new_file
刪除“連續著的”重複字母,只保留第一個
cat file | tr -s [a-zA-Z] > new_file
刪除空行
cat file | tr -s "\n" > new_file
刪除Windows檔案“造成”的'^M'字元
# cat file | tr -d "\r" > new_file
或者
# cat file | tr -s "\r" "\n" > new_file
【注意】這裡-s後面是兩個引數"\r"和"\n",用後者替換前者
2.替換
(小寫 --> 大寫)
cat file | tr [a-z] [A-Z] > new_file
(大寫 --> 小寫)
cat file | tr [A-Z] [a-z] > new_file
(數字 --> 小寫)
cat file | tr [0-9] [a-j] > new_file
用空格符\040替換製表符\011
cat file | tr -s "\011" "\040" > new_file
把路徑變數中的冒號":",替換成換行符"\n"
echo $PATH | tr -s ":" "\n"
(八)搜尋替換
sed命令
用以搜尋並替換文字,sed是非互動式的編輯器。它不會修改檔案,除非使用shell重定向來儲存結果。預設情況下,所有的輸出行都被列印到螢幕上。
命令與選項
sed命令告訴sed如何處理由地址指定的各輸入行,如果沒有指定地址則處理所有的輸入行。
選項
-e 進行多項編輯,即對輸入行應用多條sed命令時使用 -n 取消預設的輸出 -f 指定sed指令碼的檔名
sed命令
a\ 在當前行後新增一行或多行。多行時除最後一行外,每行末尾需用“\”續行
c\ 用此符號後的新文字替換當前行中的文字。多行時除最後一行外,每行末尾需用"\"續行
i\ 在當前行之前插入文字。多行時除最後一行外,每行末尾需用"\"續行
d 刪除行
h 把模式空間裡的內容複製到暫存緩衝區
H 把模式空間裡的內容追加到暫存緩衝區
g 把暫存緩衝區裡的內容複製到模式空間,覆蓋原有的內容
G 把暫存緩衝區的內容追加到模式空間裡,追加在原有內容的後面
l 列出非列印字元
p 列印行
n 讀入下一輸入行,並從下一條命令而不是第一條命令開始對其的處理
q 結束或退出sed
r 從檔案中讀取輸入行
! 對所選行以外的所有行應用命令
s 用一個字串替換另一個
g 在行內進行全域性替換
w 將所選的行寫入檔案
x 交換暫存緩衝區與模式空間的內容
y 將字元替換為另一字元(不能對正則表示式使用y命令)
正則表示式元字元
注意:與grep一樣,sed也支援特殊元字元,來進行模式查詢、替換。不同的是,sed使用的正則表示式是括在斜槓線"/"之間的模式
^ 行首定位符 /^my/ 匹配所有以my開頭的行
$ 行尾定位符 /my$/ 匹配所有以my結尾的行
. 匹配除換行符以外的單個字元 /m..y/ 匹配包含字母m,後跟兩個任意字元,再跟字母y的行
* 匹配零個或多個前導字元 /my*/ 匹配包含字母m,後跟零個或多個y字母的行
[] 匹配指定字元組內的任一字元 /[Mm]y/ 匹配包含My或my的行
[^] 匹配不在指定字元組內的任一字元 /[^Mm]y/ 匹配包含y,但y之前的那個字元不是M或m的行
\(..\) 儲存已匹配的字元1,20s/\(you\)self/\1r/ 標記元字元之間的模式,並將其儲存為標籤1,之後可以使用\1來引用它。最多可以定義9個標籤,從左邊開始編
號,最左邊的是第一個。此例中,對第1到第20行進行處理,you被儲存為標籤1,如果發現youself,則替換為your。
& 儲存查詢串以便在替換串中引用 s/my/**&**/ 符號&代表查詢串。my將被替換為**my**
\< 詞首定位符 /\<my/ 匹配包含以my開頭的單詞的行
\> 詞尾定位符 /my\>/ 匹配包含以my開頭的單詞的行
x\{m\} 連續m個x /9\{5\}/ 匹配包含連續5個9的行
x\{m,\} 至少m個x /9\{5,\}/ 匹配包含至少連續5個9的行
x\{m,n\} 至少m個,但不超過n個x /9\{5,7\}/ 匹配包含連續5到7個9的行
應用舉例
p命令
命令p用於顯示模式空間的內容。預設情況下,sed把輸入行列印在螢幕上,選項-n用於取消預設的列印操作。當選項-n和命令p同時出現時,sed可列印選定的內容。
sed '/my/p' datafile #預設情況下,sed把所有輸入行都列印在標準輸出上。如果某行匹配模式my,p命令將把該行另外列印一遍。 sed -n '/my/p' datafile #選項-n取消sed預設的列印,p命令把匹配模式my的行列印一遍。
d命令
命令d用於刪除輸入行。sed先將輸入行從檔案複製到模式空間裡,然後對該行執行sed命令,最後將模式空間裡的內容顯示在螢幕上。如果發出的是命令d,當前模式空間裡的輸入行會被刪除,不被顯示。
sed '$d' datafile #刪除最後一行,其餘的都被顯示 sed '/my/d' datafile #刪除包含my的行,其餘的都被顯示
s命令
sed 's/^My/You/g' datafile #命令末端的g表示在行內進行全域性替換,也就是說如果某行出現多個My,所有的My都被替換為You。 sed -n '1,20s/My$/You/gp' datafile #取消預設輸出,處理1到20行裡匹配以My結尾的行,把行內所有的My替換為You,並列印到螢幕上。 sed 's#My#Your#g' datafile #緊跟在s命令後的字元就是查詢串和替換串之間的分隔符。分隔符預設為正斜槓,但可以改變。無論什麼字元(換行符、反斜線除外),只要緊跟s命令,就成了新的串分隔符。
e選項
-e是編輯命令,用於sed執行多個編輯任務的情況下。在下一行開始編輯前,所有的編輯動作將應用到模式緩衝區中的行上。
sed -e '1,10d' -e 's/My/Your/g' datafile #選項-e用於進行多重編輯。第一重編輯刪除第1-3行。第二重編輯將出現的所有My替換為Your。因為是逐行進行這兩項編輯(即這兩個命令都在模式空間的當前行上執行),所以編輯命令的順序會影響結果。
r命令
r命令是讀命令。sed使用該命令將一個文字檔案中的內容加到當前檔案的特定位置上。
sed '/My/r introduce.txt' datafile #如果在檔案datafile的某一行匹配到模式My,就在該行後讀入檔案introduce.txt的內容。如果出現My的行不止一行,則在出現My的各行後都讀入introduce.txt檔案的內容。
w命令
sed -n '/hrwang/w me.txt' datafile
a\ 命令
a\ 命令是追加命令,追加將新增新文字到檔案中當前行(即讀入模式緩衝區中的行)的後面。所追加的文字行位於sed命令的下方另起一行。如果要追加的內容超過一行,則每一行都必須以反斜線結束,最後一行除外。最後一行將以引號和檔名結束。
sed '/^hrwang/a\ >hrwang and mjfan are husband\ >and wife' datafile #如果在datafile檔案中發現匹配以hrwang開頭的行,則在該行下面追加hrwang and mjfan are husband and wife
i\ 命令
i\ 命令是在當前行的前面插入新的文字。
c\ 命令
sed使用該命令將已有文字修改成新的文字。
n命令
sed使用該命令獲取輸入檔案的下一行,並將其讀入到模式緩衝區中,任何sed命令都將應用到匹配行緊接著的下一行上。
sed '/hrwang/{n;s/My/Your/;}' datafile
注:如果需要使用多條命令,或者需要在某個地址範圍內巢狀地址,就必須用花括號將命令括起來,每行只寫一條命令,或這用分號分割同一行中的多條命令。
y命令
該命令與UNIX/Linux中的tr命令類似,字元按照一對一的方式從左到右進行轉換。例如,y/abc/ABC/將把所有小寫的a轉換成A,小寫的b轉換成B,小寫的c轉換成C。
sed '1,20y/hrwang12/HRWANG^$/' datafile #將1到20行內,所有的小寫hrwang轉換成大寫,將1轉換成^,將2轉換成$。 #正則表示式元字元對y命令不起作用。與s命令的分隔符一樣,斜線可以被替換成其它的字元。
q命令
q命令將導致sed程式退出,不再進行其它的處理。
sed '/hrwang/{s/hrwang/HRWANG/;q;}' datafile
h命令和g命令
#cat datafile My name is hrwang. Your name is mjfan. hrwang is mjfan's husband. mjfan is hrwang's wife. sed -e '/hrwang/h' -e '$G' datafile sed -e '/hrwang/H' -e '$G' datafile #通過上面兩條命令,你會發現h會把原來暫存緩衝區的內容清除,只儲存最近一次執行h時儲存進去的模式空間的內容。而H命令則把每次匹配hrwnag的行都追加儲存在暫存緩衝區。 sed -e '/hrwang/H' -e '$g' datafile sed -e '/hrwang/H' -e '$G' datafile #通過上面兩條命令,你會發現g把暫存緩衝區中的內容替換掉了模式空間中當前行的內容,此處即替換了最後一行。而G命令則把暫存緩衝區的內容追加到了模式空間的當前行後。此處即追加到了末尾。
sed指令碼
sed指令碼就是寫在檔案中的一列sed命令。指令碼中,要求命令的末尾不能有任何多餘的空格或文字。如果在一行中有多個命令,要用分號分隔。執行指令碼時,sed先將輸入檔案中第一行復制到模式緩衝區,然後對其執行指令碼中所有的命令。每一行處理完畢後,sed再複製檔案中下一行到模式緩衝區,對其執行指令碼中所有命令。使用sed指令碼時,不再用引號來確保sed命令不被shell解釋。例如sed指令碼script:
#handle datafile 3i\ ~~~~~~~~~~~~~~~~~~~~~ 3,$s/\(hrwang\) is \(mjfan\)/\2 is \1/ $a\ We will love eachother forever!!
#sed -f script datafile My name is hrwang Your name is mjfan ~~~~~~~~~~~~~~~~~~~~~ mjfan is hrwang's husband. mjfan is hrwang's wife. We will love eachother forever!!