1. 程式人生 > >大資料基礎知識(二):Shell命令

大資料基礎知識(二):Shell命令

Shell命令

Shell是系統的使用者介面,提供了使用者與核心進行互動操作的一種介面。它接收使用者輸入的命令並把它送入核心去執行 [1] 。實際上Shell是一個命令直譯器,它解釋由使用者輸入的命令並且把它們送到核心。不僅如此,Shell有自己的程式語言用於對命令的編輯,它允許使用者編寫由shell命令組成的程式。Shell程式語言具有普通程式語言的很多特點,比如它也有迴圈結構和分支控制結構等,用這種程式語言編寫的Shell程式與其他應用程式具有同樣的效果。編寫Shell指令碼是一個大資料工程師必備的技能,所以每一個學習大資料的程式猿應該掌握項基本的技能。

Sed命令

    1. Sed簡介

        sed 是一種線上編輯器,它一次處理一行內容。處理時,把當前處理的行儲存在臨時緩衝區中,稱為“模式空間”(pattern space),接著用sed命令處理緩衝區中的內容,處理完成後,把緩衝區的內容送往螢幕。接著處理下一行,這樣不斷重複,直到檔案末尾。檔案內容並沒有 改變,除非你使用重定向儲存輸出。Sed主要用來自動編輯一個或多個檔案;簡化對檔案的反覆操作;編寫轉換程式等。以下介紹的是Gnu版本的Sed 3.02。

    2. 定址

        可以通過定址來定位你所希望編輯的行,該地址用數字構成,用逗號分隔的兩個行數表示以這兩行為起止的行的範圍(包括行數表示的那兩行)。如1,3表示1,2,3行,美元符號($)表示最後一行。範圍可以通過資料,正則表示式或者二者結合的方式確定 。

    3. Sed命令

        呼叫sed命令有兩種形式:
        *
        sed [options] 'command' file(s)
        *
        sed [options] -f scriptfile file(s)
        a\
        在當前行後面加入一行文字。
        b lable
        分支到指令碼中帶有標記的地方,如果分支不存在則分支到指令碼的末尾。
        c\
        用新的文字改變本行的文字。
        d
        從模板塊(Pattern space)位置刪除行。
        D
        刪除模板塊的第一行。
        i\
        在當前行上面插入文字。
        h
        拷貝模板塊的內容到記憶體中的緩衝區。
        H
        追加模板塊的內容到記憶體中的緩衝區
        g
        獲得記憶體緩衝區的內容,並替代當前模板塊中的文字。
        G
        獲得記憶體緩衝區的內容,並追加到當前模板塊文字的後面。
        l
        列表不能列印字元的清單。
        n
        讀取下一個輸入行,用下一個命令處理新的行而不是用第一個命令。
        N
        追加下一個輸入行到模板塊後面並在二者間嵌入一個新行,改變當前行號碼。
        p
        列印模板塊的行。
        P(大寫)
        列印模板塊的第一行。
        q
        退出Sed。
        r file
        從file中讀行。
        t label
        if分支,從最後一行開始,條件一旦滿足或者T,t命令,將導致分支到帶有標號的命令處,或者到指令碼的末尾。
        T label
        錯誤分支,從最後一行開始,一旦發生錯誤或者T,t命令,將導致分支到帶有標號的命令處,或者到指令碼的末尾。
        w file
         寫並追加模板塊到file末尾。
        W file
        寫並追加模板塊的第一行到file末尾。
        !
        表示後面的命令對所有沒有被選定的行發生作用。
        s/re/string
        用string替換正則表示式re。
        =
        列印當前行號碼。
        #
        把註釋擴充套件到下一個換行符以前。
        以下的是替換標記
        *
        g表示行內全面替換。
        *
        p表示列印行。
        *
        w表示把行寫入一個檔案。
        *
        x表示互換模板塊中的文字和緩衝區中的文字。
        *
        y表示把一個字元翻譯為另外的字元(但是不用於正則表示式)

    4. 選項

        -e command, --expression=command
        允許多臺編輯。
        -h, --help
        列印幫助,並顯示bug列表的地址。
        -n, --quiet, --silent
        取消預設輸出。
        -f, --filer=script-file
        引導sed指令碼檔名。
        -V, --version
        列印版本和版權資訊。

    5. 元字符集

      ^

        錨定行的開始 如:/^sed/匹配所有以sed開頭的行。 
        $
        錨定行的結束 如:/sed$/匹配所有以sed結尾的行。 
        .
        匹配一個非換行符的字元 如:/s.d/匹配s後接一個任意字元,然後是d。 
        *
        匹配零或多個字元 如:/*sed/匹配所有模板是一個或多個空格後緊跟sed的行。 
        []
        匹配一個指定範圍內的字元,如/[Ss]ed/匹配sed和Sed。 
        [^]
        匹配一個不在指定範圍內的字元,如:/[^A-RT-Z]ed/匹配不包含A-R和T-Z的一個字母開頭,緊跟ed的行。 
        \(..\)
        儲存匹配的字元,如s/\(love\)able/\1rs,loveable被替換成lovers。 
        &
            儲存搜尋字元用來替換其他字元,如s/love/**&**/,love這成**love**。 
        \<
        錨定單詞的開始,如:/\<love/匹配包含以love開頭的單詞的行。 
        \>
        錨定單詞的結束,如/love\>/匹配包含以love結尾的單詞的行。 
        x\{m\}
        重複字元x,m次,如:/o\{5\}/匹配包含5個o的行。 
        x\{m,\}
        重複字元x,至少m次,如:/o\{5,\}/匹配至少有5個o的行。 
        x\{m,n\}
        重複字元x,至少m次,不多於n次,如:/o\{5,10\}/匹配5--10個o的行。

    6. 例項

        刪除:d命令
        *
        $ sed '2d' example-----刪除example檔案的第二行。
        *
        $ sed '2,$d' example-----刪除example檔案的第二行到末尾所有行。
        *
        $ sed '$d' example-----刪除example檔案的最後一行。
        *
        $ sed '/test/'d example-----刪除example檔案所有包含test的行。
        替換:s命令
        *
        $ sed 's/test/mytest/g' example-----在整行範圍內把test替換為mytest。如果沒有g標記,則只有每行第一個匹配的test被替換成mytest。
        *
        $ sed -n 's/^test/mytest/p' example-----(-n)選項和p標誌一起使用表示只打印那些發生替換的行。也就是說,如果某一行開頭的test被替換成mytest,就列印它。
        *
        $ sed 's/^192.168.0.1/&localhost/' example-----&符號表示替換換字串中被找到的部份。所有以192.168.0.1開頭的行都  會被替換成它自已加 localhost,變成192.168.0.1localhost。
        *
        $ sed -n 's/\(love\)able/\1rs/p' example-----love被標記為1,所有loveable會被替換成lovers,而且替換的行會被打印出來。
        *
        $ sed 's#10#100#g' example-----不論什麼字元,緊跟著s命令的都被認為是新的分隔符,所以,“#”在這裡是分隔符,代替了預設的“/”分隔符。表示把所有10替換成100。
        選定行的範圍:逗號
        *    
        $ sed -n '/test/,/check/p' example-----所有在模板test和check所確定的範圍內的行都被列印。
        *
        $ sed -n '5,/^test/p' example-----列印從第五行開始到第一個包含以test開始的行之間的所有行。
        *
        $ sed '/test/,/check/s/$/sed test/' example-----對於模板test和west之間的行,每行的末尾用字串sed test替換。
多點編輯:e命令
        *
        $ sed -e '1,5d' -e 's/test/check/' example-----(-e)選項允許在同一行裡執行多條命令。如例子所示,第一條命令刪除1至5行,第二條命令用check替換test。命令的執 行順序對結果有影響。如果兩個命令都是替換命令,那麼第一個替換命令將影響第二個替換命令的結果。
        *
        $ sed --expression='s/test/check/' --expression='/love/d' example-----一個比-e更好的命令是--expression。它能給sed表示式賦值。
從檔案讀入:r命令
        *
        $ sed '/test/r file' example-----file裡的內容被讀進來,顯示在與test匹配的行後面,如果匹配多行,則file的內容將顯示在所有匹配行的下面。
寫入檔案:w命令
        *
        $ sed -n '/test/w file' example-----在example中所有包含test的行都被寫入file裡。
追加命令:a命令
        *
        $ sed '/^test/a\\--->this is a example' example    '----->this is a example'被追加到以test開頭的行後面,sed要求命令a後面有一個反斜槓。
        插入:i命令
        $ sed '/test/i\\
        new line
-------------------------' example
        如果test被匹配,則把反斜槓後面的文字插入到匹配行的前面。
 下一個:n命令
        *
        $ sed '/test/{ n; s/aa/bb/; }' example-----如果test被匹配,則移動到匹配行的下一行,替換這一行的aa,變為bb,並列印該行,然後繼續。
變形:y命令
        *
        $ sed '1,10y/abcde/ABCDE/' example-----把1--10行內所有abcde轉變為大寫,注意,正則表示式元字元不能使用這個命令。
退出:q命令
        *
        $ sed '10q' example-----列印完第10行後,退出sed。
保持和獲取:h命令和G命令
        *
        $ sed -e '/test/h' -e '$G example-----在sed處理檔案的時候,每一行都被儲存在一個叫模式空間的臨時緩衝區中,除非行被刪除或者輸出被取消,否則所有被處理的行都將 列印在螢幕上。接著模式空間被清空,並存入新的一行等待處理。在這個例子裡,匹配test的行被找到後,將存入模式空間,h命令將其複製並存入一個稱為保 持快取區的特殊緩衝區內。第二條語句的意思是,當到達最後一行後,G命令取出保持緩衝區的行,然後把它放回模式空間中,且追加到現在已經存在於模式空間中 的行的末尾。在這個例子中就是追加到最後一行。簡單來說,任何包含test的行都被複制並追加到該檔案的末尾。
保持和互換:h命令和x命令
        *
        $ sed -e '/test/h' -e '/check/x' example -----互換模式空間和保持緩衝區的內容。也就是把包含test與check的行互換。

7. 指令碼

        Sed指令碼是一個sed的命令清單,啟動Sed時以-f選項引導指令碼檔名。Sed對於指令碼中輸入的命令非常挑剔,在命令的末尾不能有任何空白或文字,如果在一行中有多個命令,要用分號分隔。以#開頭的行為註釋行,且不能跨行。

AWK

    簡介

        awk是一個強大的文字分析工具,相對於grep的查詢,sed的編輯,awk在其對資料分析並生成報告時,顯得尤為強大。簡單來說awk就是把檔案逐行的讀入,以空格為預設分隔符將每行切片,切開的部分再進行各種分析處理。

        awk有3個不同版本: awk、nawk和gawk,未作特別說明,一般指gawk,gawk 是 AWK 的 GNU 版本。

        awk其名稱得自於它的創始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首個字母。實際上 AWK 的確擁有自己的語言: AWK 程式設計語言 , 三位建立者已將它正式定義為“樣式掃描和處理語言”。它允許您建立簡短的程式,這些程式讀取輸入檔案、為資料排序、處理資料、對輸入執行計算以及生成報表,還有無數其他的功能。

使用方法

        awk '{pattern + action}' {filenames}
        儘管操作可能會很複雜,但語法總是這樣,其中 pattern 表示 AWK 在資料中查詢的內容,而 action 是在找到匹配內容時所執行的一系列命令。花括號({})不需要在程式中始終出現,但它們用於根據特定的模式對一系列指令進行分組。 pattern就是要表示的正則表示式,用斜槓括起來。
        awk語言的最基本功能是在檔案或者字串中基於指定規則瀏覽和抽取資訊,awk抽取資訊後,才能進行其他文字操作。完整的awk指令碼通常用來格式化文字檔案中的資訊。
        通常,awk是以檔案的一行為處理單位的。awk每接收檔案的一行,然後執行相應的命令,來處理文字。

呼叫awk

        有三種方式呼叫awk

1.命令列方式

        awk [-F  field-separator]  'commands'  input-file(s)
        其中,commands 是真正awk命令,[-F域分隔符]是可選的。 input-file(s) 是待處理的檔案。
        在awk中,檔案的每一行中,由域分隔符分開的每一項稱為一個域。通常,在不指名-F域分隔符的情況下,預設的域分隔符是空格。

2.shell指令碼方式

        將所有的awk命令插入一個檔案,並使awk程式可執行,然後awk命令直譯器作為指令碼的首行,一遍通過鍵入指令碼名稱來呼叫。
        相當於shell指令碼首行的:#!/bin/sh
        可以換成:#!/bin/awk

3.將所有的awk命令插入一個單獨檔案,然後呼叫:

        awk -f awk-script-file input-file(s)
        其中,-f選項載入awk-script-file中的awk指令碼,input-file(s)跟上面的是一樣的。 
         本章重點介紹命令列方式。

入門例項

        假設last -n 5的輸出如下
[[email protected] ~]# last -n 5 <==僅取出前五行
root     pts/1   192.168.1.100  Tue Feb 10 11:21   still logged in
root     pts/1   192.168.1.100  Tue Feb 10 00:46 - 02:28  (01:41)
root     pts/1   192.168.1.100  Mon Feb  9 11:41 - 18:30  (06:48)
dmtsai   pts/1   192.168.1.100  Mon Feb  9 11:41 - 11:41  (00:00)
root     tty1                   Fri Sep  5 14:09 - 14:10  (00:01)
如果只是顯示最近登入的5個帳號
#last -n 5 | awk  '{print $1}'
root
root
root
dmtsai
root
awk工作流程是這樣的:讀入有'\n'換行符分割的一條記錄,然後將記錄按指定的域分隔符劃分域,填充域,$0則表示所有域,$1表示第一個域,$n表示第n個域。預設域分隔符是"空白鍵" 或 "[tab]鍵",所以$1表示登入使用者,$3表示登入使用者ip,以此類推。
如果只是顯示/etc/passwd的賬戶
#cat /etc/passwd |awk  -F ':'  '{print $1}'  
root
daemon
bin
sys
        這種是awk+action的示例,每行都會執行action{print $1}。
-F指定域分隔符為':'。
        如果只是顯示/etc/passwd的賬戶和賬戶對應的shell,而賬戶與shell之間以tab鍵分割
#cat /etc/passwd |awk  -F ':'  '{print $1"\t"$7}'
root    /bin/bash
daemon  /bin/sh
bin     /bin/sh
sys     /bin/sh
        如果只是顯示/etc/passwd的賬戶和賬戶對應的shell,而賬戶與shell之間以逗號分割,而且在所有行新增列名name,shell,在最後一行新增"blue,/bin/nosh"。
cat /etc/passwd |awk  -F ':'  'BEGIN {print "name,shell"}  {print $1","$7} END {print "blue,/bin/nosh"}'
name,shell
root,/bin/bash
daemon,/bin/sh
bin,/bin/sh
sys,/bin/sh
....
blue,/bin/nosh
 
        awk工作流程是這樣的:先執行BEGING,然後讀取檔案,讀入有/n換行符分割的一條記錄,然後將記錄按指定的域分隔符劃分域,填充域,$0則表示所有域,$1表示第一個域,$n表示第n個域,隨後開始執行模式所對應的動作action。接著開始讀入第二條記錄······直到所有的記錄都讀完,最後執行END操作。
        搜尋/etc/passwd有root關鍵字的所有行


        #awk -F: '/root/' /etc/passwd
        root:x:0:0:root:/root:/bin/bash
        這種是pattern的使用示例,匹配了pattern(這裡是root)的行才會執行action(沒有指定action,預設輸出每行的內容)。


        搜尋支援正則,例如找root開頭的: awk -F: '/^root/' /etc/passwd

        搜尋/etc/passwd有root關鍵字的所有行,並顯示對應的shell


        # awk -F: '/root/{print $7}' /etc/passwd             
        /bin/bash
         這裡指定了action{print $7}


 


        awk內建變數
        awk有許多內建變數用來設定環境資訊,這些變數可以被改變,下面給出了最常用的一些變數。


 
         ARGC               命令列引數個數
        ARGV               命令列引數排列
        ENVIRON            支援佇列中系統環境變數的使用
        FILENAME           awk瀏覽的檔名
        FNR                瀏覽檔案的記錄數
        FS                 設定輸入域分隔符,等價於命令列 -F選項
        NF                 瀏覽記錄的域的個數
        NR                 已讀的記錄數
        OFS                輸出域分隔符
        ORS                輸出記錄分隔符
        RS                 控制記錄分隔符
 
         此外,$0變數是指整條記錄。$1表示當前行的第一個域,$2表示當前行的第二個域,......以此類推。

        統計/etc/passwd:檔名,每行的行號,每行的列數,對應的完整行內容:


#awk  -F ':'  '{print "filename:" FILENAME ",linenumber:" NR ",columns:" NF ",linecontent:"$0}' /etc/passwd
filename:/etc/passwd,linenumber:1,columns:7,linecontent:root:x:0:0:root:/root:/bin/bash
filename:/etc/passwd,linenumber:2,columns:7,linecontent:daemon:x:1:1:daemon:/usr/sbin:/bin/sh
filename:/etc/passwd,linenumber:3,columns:7,linecontent:bin:x:2:2:bin:/bin:/bin/sh
filename:/etc/passwd,linenumber:4,columns:7,linecontent:sys:x:3:3:sys:/dev:/bin/sh
     使用printf替代print,可以讓程式碼更加簡潔,易讀


     awk  -F ':'  '{printf("filename:%s,linenumber:%s,columns:%s,linecontent:%s\n",FILENAME,NR,NF,$0)}' /etc/passwd
     print和printf
     awk中同時提供了print和printf兩種列印輸出的函式。


        其中print函式的引數可以是變數、數值或者字串。字串必須用雙引號引用,引數用逗號分隔。如果沒有逗號,引數就串聯在一起而無法區分。這裡,逗號的作用與輸出檔案的分隔符的作用是一樣的,只是後者是空格而已。


        printf函式,其用法和c語言中printf基本相似,可以格式化字串,輸出複雜時,printf更加好用,程式碼更易懂。


        %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%    %%%%%% 


     awk程式設計
     變數和賦值


    除了awk的內建變數,awk還可以自定義變數。


    下面統計/etc/passwd的賬戶人數


    awk '{count++;print $0;} END{print "user count is ", count}' /etc/passwd
    root:x:0:0:root:/root:/bin/bash
    ......
    user count is  40
    count是自定義變數。之前的action{}裡都是隻有一個print,其實print只是一個語句,而action{}可以有多個語句,以;號隔開。
    這裡沒有初始化count,雖然預設是0,但是妥當的做法還是初始化為0:
    awk 'BEGIN {count=0;print "[start]user count is ", count} {count=count+1;print $0;} END{print "[end]user count is ",     count}' /etc/passwd
    [start]user count is  0
    root:x:0:0:root:/root:/bin/bash
    ...
    [end]user count is  40
 


    統計某個資料夾下的檔案佔用的位元組數


    ls -l |awk 'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size}'
    [end]size is  8657198
 


如果以M為單位顯示:


ls -l |awk 'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size/1024/1024,"M"}' 
[end]size is  8.25889 M
注意,統計不包括資料夾的子目錄。


 


條件語句


 awk中的條件語句是從C語言中借鑑來的,見如下宣告方式:


 
if (expression) {
    statement;
    statement;
    ... ...
}


if (expression) {
    statement;
} else {
    statement2;
}


if (expression) {
    statement1;
} else if (expression1) {
    statement2;
} else {
    statement3;
}
 
 


統計某個資料夾下的檔案佔用的位元組數,過濾4096大小的檔案(一般都是資料夾):


ls -l |awk 'BEGIN {size=0;print "[start]size is ", size} {if($5!=4096){size=size+$5;}} END{print "[end]size is ", size/1024/1024,"M"}' 
[end]size is  8.22339 M
 


迴圈語句


awk中的迴圈語句同樣借鑑於C語言,支援while、do/while、for、break、continue,這些關鍵字的語義和C語言中的語義完全相同。


 


陣列


  因為awk中陣列的下標可以是數字和字母,陣列的下標通常被稱為關鍵字(key)。值和關鍵字都儲存在內部的一張針對key/value應用hash的表格裡。由於hash不是順序儲存,因此在顯示陣列內容時會發現,它們並不是按照你預料的順序顯示出來的。陣列和變數一樣,都是在使用時自動建立的,awk也同樣會自動判斷其儲存的是數字還是字串。一般而言,awk中的陣列用來從記錄中收集資訊,可以用於計算總和、統計單詞以及跟蹤模板被匹配的次數等等。


 


顯示/etc/passwd的賬戶


 
awk -F ':' 'BEGIN {count=0;} {name[count] = $1;count++;}; END{for (i = 0; i < NR; i++) print i, name[i]}' /etc/passwd
0 root
1 daemon
2 bin
3 sys
4 sync
5 games
......
 
這裡使用for迴圈遍歷陣列


 


awk程式設計的內容極多,這裡只羅列簡單常用的用法,更多請參考 http://www.gnu.org/software/gawk/manual/gawk.html