1. 程式人生 > >sed原理及sed命令格式 ,快取區,模式空間

sed原理及sed命令格式 ,快取區,模式空間

4.1            Sed工作原理

sed是一個非互動式的流編輯器。所謂非互動式,是指使用sed只能在命令列下輸入編輯命令來編輯文字,然後在螢幕上檢視輸出;而所謂流編輯器,是指sed每次只從檔案(或輸入)讀入一行,然後對該行進行指定的處理,並將結果輸出到螢幕(除非取消了螢幕輸出又沒有顯式地使用列印命令),接著讀入下一行。整個檔案像流水一樣被逐行處理然後逐行輸出。

下面我們看一下sed的工作過程。

sed不是在原輸入上直接進行處理的,而是先將讀入的行放到緩衝區中,對緩衝區裡的內容進行處理,處理完畢後也不會寫回原檔案(除非用shell的輸出重定向來儲存結果),而是直接輸出到螢幕上。sed

執行過程中維護著兩個緩衝區,一個是活動的“模式空間(pattern space)”,另一個是起輔助作用的“暫存緩衝區(holding space)”。一般情況下,每當執行sedsed首先把第一行裝入模式空間,進行處理後輸出到螢幕,然後將第二行裝入模式空間替換掉模式空間裡原來的內容,然後進行處理,以此類推。

一般情況下暫存緩衝區是用不到的,但有特殊的命令可以在模式空間與暫存緩衝區之間交換資料,後文將有介紹。由於sed對文字的所有操作都是在緩衝區裡進行的,所以不會對原檔案造成任何破壞。

4.2            Sed命令格式

sed的命令格式如下:

sed [-Options

] [‘Commands’] filename

其中,Command是一個sed命令,sed命令一定要被包含在一對單引號中,以免被shell解釋,其格式如下:

[address-range][sed-command]或

[Pattern-to-match][sed-command]

address-range是指要處理的行的範圍,又叫地址範圍;pattern-to-match是一個要匹配的模式,是一個正則表示式,sed-command是一個sed命令,用來對指定的行進行處理。下面是一個簡單的例子:

sed –n ‘1,3p’ students

這個命令將檔案students

中的第13行列印到螢幕。注意,地址範圍和sed命令之間沒有空格,如果加入空格,sed也會將其忽略。引數-n用來取消預設輸出。預設情況下,sed每讀入一行到模式空間,無論是否對其進行處理,在讀入下一行之前多要將模式空間中的內容輸出到螢幕上。引數-n可以用來取消這種預設的輸出,只有當用戶用命令p時才將指定的行輸出到螢幕。如果沒有用引數-n而又對指定行執行了p命令,那麼這些行將會被列印兩次。

地址範圍可以是一個數字,這個數字代表了一個行號;也可以是一個用逗號分隔的兩個數字表示的範圍(包括這兩行)。範圍可以是數字,正則表示式,或是兩者的組合。

pattern-to-match是一個要匹配的模式,sed將會對所有匹配的行執行sed-command。其實,這裡的pattern-to-match也可以看作是一個地址,這個地址是所有與指定模式匹配的行的行號。因此sed的格式可以歸納為一種:

sed [-Options] ‘[address-range][sed-command]’ filename

看不明白的接著看下面的示例解釋:
sed -n '1,3 p' a.txt  #sed 命令 -n(sed的命令列選項----取消標準輸出) 1,3 (讀到緩衝區處理的地址範圍) p(sed命令--這個命令表示要怎樣處理緩衝區的內容,p是列印輸出快取區內容)

sed -n '1,3 s/11/88/p;' a.txt #把1,3行讀到緩衝區,處理緩衝區操作是 s/11/88/p 即替換其中的第一個11為88 p是列印結果。

sed -n '1,3 s/11/88/gp;' a.txt #把1,3行讀到緩衝區,處理緩衝區操作是 s/11/88/gp 即替換其中的所有的(g命令表示所有,正則的全域性匹配)11為88 p是列印結果。

sed -n 's/11/88/gp' a.txt  #這個命令,由於沒有定義範圍,sed預設逐行讀內容到緩衝區,並使用s/11/88/gp 命令處理。即:每讀一行處理一次。

下面看個複雜的:
sed -n ':lb; /start/,/end/{/end/! {$! {N;b lb}}}; s/333.*555/8888/; p;' a.txt 

#上面的解釋:

{}是sed命令裡的語句塊

:lb  是send的label 功能,類似,c語言裡的goto lable功能。  lb 是label名稱可以自已隨便起

:lb; /start/,/end/{/end/! {$! {N;b lb}}}; 可以簡化成:lb; /start/,{/end/! {$! {N;b lb}}}; 表示範圍是/start/開始,{/end/! {$! {N;b lb}}};結束的內容讀到緩衝區。

s/333.*555/8888/; p; 使用這個命令處理緩衝區的內容。

其中:

/end/! {$! {N;b lb}}  中,/end/! 如果不end 那麼就 執行這個塊{$! {N;b lb}},$!表示如果也不是結尾,就是N迴圈lb 的label塊。 即:只要沒有遇見end字串(/end/!),也沒到文件結尾($!),就是一至一行一行讀內容到緩衝區。

1.簡介

sed是非互動式的編輯器。它不會修改檔案,除非使用shell重定向來儲存結果預設情況下,所有的輸出行都被列印到螢幕上。 sed編輯器逐行處理檔案(或輸入),並將結果傳送到螢幕。具體過程如下:首先sed把當前正在處理的行儲存在一個臨時快取區中(也稱為模式空間),然後處理臨時緩衝區中的行,完成後把該行傳送到螢幕上。sed每處理完一行就將其從臨時緩衝區刪除,然後將下一行讀入,進行處理和顯示。處理完輸入檔案的最後一行後,sed便結束執行。sed把每一行都存在臨時緩衝區中,對這個副本進行編輯,所以不會修改原檔案。 2.定址

定址用於決定對哪些行進行編輯。地址的形式可以是數字、正則表示式、或二者的結合。如果沒有指定地址,sed將處理輸入檔案的所有行。 地址是一個數字,則表示行號;是“$"符號,則表示最後一行。例如: 

sed -n'3p' datafile
只打印第三行

 只顯示指定行範圍的檔案內容,例如:

# 只檢視檔案的第100行到第200行
sed -n '100,200p' mysql_slow_query.log

地址是逗號分隔的,那麼需要處理的地址是這兩行之間的範圍(包括這兩行在內)。範圍可以用數字、正則表示式、或二者的組合表示。例如:

sed'2,5d' datafile
#刪除第二到第五行
sed '/My/,/You/d' datafile
#刪除包含"My"行到包含"You"行之間的行
sed '/My/,10d' datafile
#刪除包含"My"行到第十行的內容

3.命令與選項

sed命令告訴sed如何處理由地址指定的各輸入行,如果沒有指定地址則處理所有的輸入行

3.1 sed命令

 命令  功能
 a\

 在當前行後新增一行或多行。多行時除最後一行外,每行末尾需用“\”續行

 c\  用此符號後的新文字替換當前行中的文字。多行時除最後一行外,每行末尾需用"\"續行
 i\  在當前行之前插入文字。多行時除最後一行外,每行末尾需用"\"續行
 d  刪除行
 h  把模式空間裡的內容複製到暫存緩衝區
 H  把模式空間裡的內容追加到暫存緩衝區
 g  把暫存緩衝區裡的內容複製到模式空間,覆蓋原有的內容
 G  把暫存緩衝區的內容追加到模式空間裡,追加在原有內容的後面
 l  列出非列印字元
 p  列印行
 n  讀入下一輸入行,並從下一條命令而不是第一條命令開始對其的處理
 q  結束或退出sed
 r  從檔案中讀取輸入行
 !  對所選行以外的所有行應用命令
 s  用一個字串替換另一個
 g  在行內進行全域性替換
 w  將所選的行寫入檔案
 x  交換暫存緩衝區與模式空間的內容
 y  將字元替換為另一字元(不能對正則表示式使用y命令)

3.2 sed選項

 選項  功能
 -e  進行多項編輯,即對輸入行應用多條sed命令時使用
 -n  取消 預設的輸出
 -f  指定sed指令碼的檔名
 -i        |  決定不是不將sed的操作作用在原始檔上
------------------------------------------------------------------------
-r     |    想少用\  那你就用-r
------------------------------------------------------------------



4.退出狀態
sed不像grep一樣,不管是否找到指定的模式,它的退出狀態都是0。只有當命令存在語法錯誤時,sed的退出狀態才不是0。


5.正則表示式元字元
 與grep一樣,sed也支援特殊元字元,來進行模式查詢、替換。不同的是,sed使用的正則表示式是括在斜槓線"/"之間的模式。 如果要把正則表示式分隔符"/"改為另一個字元,比如o,只要在這個字元前加一個反斜線,在字元後跟上正則表示式,再跟上這個字元即可。例如:sed -n '\o^Myop' datafile
 元字元  功能  示例
 ^  行首定位符  /^my/  匹配所有以my開頭的行
 $  行尾定位符  /my$/  匹配所有以my結尾的行
 .  匹配除換行符以外的單個字元  /m..y/  匹配包含字母m,後跟兩個任意字元,再跟字母y的行
 *  匹配零個或多個前導字元  /my*/  匹配包含字母m,後跟零個或多個y字母的行
 []  匹配指定字元組內的任一字元  /[Mm]y/  匹配包含My或my的行
 [^]  匹配不在指定字元組內的任一字元  /[^Mm]y/  匹配包含y,但y之前的那個字元不是M或m的行
 ..  儲存已匹配的字元  1,20s/youself/\1r/  標記元字元之間的模式,並將其儲存為標籤1,之後可以使用\1來引用它。最多可以定義9個標籤,從左邊開始編號,最左邊的是第一個。此例中,對第1到第20行進行處理,you被儲存為標籤1,如果發現youself,則替換為your。
 &  儲存查詢串以便在替換串中引用  s/my/**&**/  符號&代表查詢串。my將被替換為**my**
 \<  詞首定位符  /\<my/  匹配包含以my開頭的單詞的行
 \>  詞尾定位符  /my\>/  匹配包含以my結尾的單詞的行
 x\{m\}  連續m個x  /9\{5\}/ 匹配包含連續5個9的行
 x\{m,\}  至少m個x  /9\{5,\}/  匹配包含至少連續5個9的行
 x\{m,n\}  至少m個,但不超過n個x  /9\{5,7\}/  匹配包含連續5到7個9的行
6.範例 6.1 p命令 命令p用於顯示模式空間的內容。預設情況下,sed把輸入行列印在螢幕上,選項-n用於取消預設的列印操作。當選項-n和命令p同時出現時,sed可列印選定的內容。

sed '/my/p' datafile
#預設情況下,sed把所有輸入行都列印在標準輸出上。如果某行匹配模式my,p命令將把該行另外列印一遍。


sed -n '/my/p' datafile
#選項-n取消sed預設的列印,p命令把匹配模式my的行列印一遍。

定行的範圍:逗號
  • $ sed -n '/test/,/check/p' example  所有在模板test和check所確定的範圍內的行都被列印。

  • $ sed -n '5,/^test/p' example  列印從第五行開始到第一個包含以test開始的行之間的所有行。

  • sed '/test/,/check/s/$/sed test/' example-----對於模板test和west之間的行,每行的末尾用字串sed test替換。


6.2 d命

命令d用於刪除輸入行。sed先將輸入行從檔案複製到模式空間裡,然後對該行執行sed命令,最後將模式空間裡的內容顯示在螢幕上。如果發出的是命令d,當前模式空間裡的輸入行會被刪除,不被顯示。

例項

刪除:d命令
  • $ sed '2d' example-----刪除example檔案的第二行。

  • $ sed '2,$d' example-----刪除example檔案的第二行到末尾所有行。

  • $ sed '$d' example-----刪除example檔案的最後一行,其餘的都被顯示

  • $ sed '/test/'d example-----刪除example檔案所有包含test的行。

sed'/my/d' datafile
#刪除包含my的行,其餘的都被顯示,注意:d可以在引號裡,也也可以在引號外。

sed'/my$/d' datafile
#刪除以my結尾 的行,

sed'/^my/d' datafile
#刪除以my開頭 的行,

6.3 s命令

例項

替換:s命令
  • $ sed 's/test/mytest/g' example  在example 所有行範圍內把test替換為mytest。如果沒有g標記,則只有每行第一個匹配的test被替換成mytest。

  • $ sed -n 's/^test/mytest/p' example  (-n)選項和p標誌一起使用表示只打印那些發生替換的行。也就是說,如果某一行開頭的test被替換成mytest,就列印它。

  • $ sed 's/^192.168.0.1/&localhost/' example  &符號表示替換換字串中被找到的部份。所有以192.168.0.1開頭的行都會被替換成它自已加localhost,變成192.168.0.1localhost。

  • $ sed 's#10#100#g' example  不論什麼字元,緊跟著s命令的都被認為是新的分隔符,所以,“#”在這裡是分隔符,代替了預設的“/”分隔符。表示把所有10替換成100。

  • sed-n'1,20s/My$/You/gp' datafile
    #取消預設輸出,處理1到20行裡匹配以My結尾的行,把行內所有的My替換為You,並列印到螢幕上。



6.4 e選項

-e是編輯命令,用於sed執行多個編輯任務的情況下。在下一行開始編輯前,所有的編輯動作將應用到模式緩衝區中的行上。

sed-e'1,3d'-e's/My/Your/g' datafile

#選項-e用於進行多重編輯。第一重編輯刪除第1-3行。第二重編輯將出現的所有My替換為Your。因為是逐行進行這兩項編輯(即這兩個命令都在模式空間的當前行上執行),所以編輯命令的順序會影響結果。

6.5 r命令

r命令是讀命令。sed使用該命令將一個文字檔案中的內容加到當前檔案的特定位置上。

sed'/My/r introduce.txt' datafile
#如果在檔案datafile的某一行匹配到模式My,就在該行後讀入檔案introduce.txt的內容。如果出現My的行不止一行,則在出現My的各行後都讀入introduce.txt檔案的內容。

6.6 w命令

sed-n'/hrwang/w me.txt' datafile

6.7 a\ 命令

a\ 命令是追加命令,追加將新增新文字到檔案中當前行(即讀入模式緩衝區中的行)的後面。所追加的文字行位於sed命令的下方另起一行。如果要追加的內容超過一行,則每一行都必須以反斜線結束,最後一行除外。最後一行將以引號和檔名結束。

sed'/^hrwang/a\
>
hrwang and mjfan are husband\
and wife'
 datafile

#如果在datafile檔案中發現匹配以hrwang開頭,則在該行下面追加 如下 兩行

hrwang and mjfan are husband

and wife

6.8 i\ 命令

i\ 命令是在當前行的前面插入新的文字。

$ sed '/test/i\

new line' example

如果test被匹配,則把反斜槓後面的文字newline 插入到匹配行的前面

6.9 c\ 命令

sed使用該命令將已有文字修改成新的文字。

6.10 n命令

sed使用該命令獲取輸入檔案的下一行,並將其讀入到模式緩衝區中,任何sed命令都將應用到匹配行緊接著的下一行上。

sed'/hrwang/{n;s/My/Your/;}' datafile

注:如果需要使用 多條命令,或者需要 在某個地址範圍內巢狀地址,就必須用花括號將命令括起來,每行只寫一條命令,或者用分號分割同一行中的多條命令。 6.11 y命令 該命令與UNIX/Linux中的tr命令類似,字元按照一對一的方式從左到右進行轉換。例如,y/abc/ABC/將把所有小寫的a轉換成A,小寫的b轉換成B,小寫的c轉換成C。

sed'1,20y/hrwang12/HRWANG^$/' datafile
#將1到20行內,所有的小寫hrwang轉換成大寫,將1轉換成^,將2轉換成$

#正則表示式元字元對y命令不起作用。與s命令的分隔符一樣,斜線可以被替換成其它的字元。

6.12 q命令

q命令將導致sed程式退出,不再進行其它的處理。

sed'/hrwang/{s/hrwang/HRWANG/;q;}' datafile

6.13 h命令和g命令

#cat datafile

My name is hrwang.

Your name is mjfan.

hrwang is mjfan's husband.

mjfan is hrwang's wife.

sed-e'/hrwang/h'-e'$G' datafile

sed -e '/hrwang/H' -e '$G' datafile

#通過上面兩條命令,你會發現h會把原來暫存緩衝區的內容清除,只儲存最近一次執行h時儲存進去的模式空間的內容。而H命令則把每次匹配hrwnag的行都追加儲存在暫存緩衝區。

sed -e '/hrwang/H' -e '$g' datafile

sed -e '/hrwang/H' -e '$G' datafile

#通過上面兩條命令,你會發現g把暫存緩衝區中的內容替換掉了模式空間中當前行的內容,此處即替換了最後一行。而G命令則把暫存緩衝區的內容追加到了模式空間的當前行後。此處即追加到了末尾。

7. sed指令碼

sed指令碼就是寫在檔案中的一列sed命令。指令碼中,要求命令的末尾不能有任何多餘的空格或文字。如果在一行中有多個命令,要用分號分隔。執行指令碼時,sed先將輸入檔案中第一行復制到模式緩衝區,然後對其執行指令碼中所有的命令。每一行處理完畢後,sed再複製檔案中下一行到模式緩衝區,對其執行指令碼中所有命令。使用sed指令碼時,不再用引號來確保sed命令不被shell解釋。

==================================

下一個:n命令
  • $ sed '/test/{ n; s/aa/bb/; }' example-----如果test被匹配,則移動到匹配行的下一行,替換這一行的aa,變為bb,並列印該行,然後繼續。

變形:y命令
  • $ sed '1,10y/abcde/ABCDE/' example-----把1--10行內所有abcde轉變為大寫,注意,正則表示式元字元不能使用這個命令。

退出:q命令
  • $ sed '10q' example-----列印完第10行後,退出sed。

保持和獲取:h命令和G命令
  • $ sed -e '/test/h' -e '$G example-----在sed處理檔案的時候,每一行都被儲存在一個叫模式空間的臨時緩衝區中,除非行被刪除或者輸出被取消,否則所有被處理的行都將列印在螢幕上。接著模式空間被清空,並存入新的一行等待處理。在這個例子裡,匹配test的行被找到後,將存入模式空間,h命令將其複製並存入一個稱為保持快取區的特殊緩衝區內。第二條語句的意思是,當到達最後一行後,G命令取出保持緩衝區的行,然後把它放回模式空間中,且追加到現在已經存在於模式空間中的行的末尾。在這個例子中就是追加到最後一行。簡單來說,任何包含test的行都被複制並追加到該檔案的末尾

保持和互換:h命令和x命令
  • $ sed -e '/test/h' -e '/check/x' example -----互換模式空間和保持緩衝區的內容。也就是把包含test與check的行互換