1. 程式人生 > >設計shell指令碼選項:getopt

設計shell指令碼選項:getopt

寫shell指令碼的時候,通過while、case、shift來設計指令碼的命令列選項是一件比較麻煩的事,因為Unix命令列的選項和引數自由度很高,支援短選項和長選項,引數可能是可選的,選項順序可能是無所謂的,等等。

bash下的getopt命令可以解析命令列的選項和引數,將散亂、自由的命令列選項和引數進行改造,得到一個完整的、規範化的引數列表,這樣再使用while、case和shift進行處理就簡單的太多了

getopt有不同的版本,本文介紹的是它的增強版(enhanced),相比傳統的getopt(也成為相容版本的getopt),它提供了引號保護的能力。另外,除了不同版本的getopt,bash還有一個內建命令getopts(注意,有個尾隨的字元s),也用來解析命令列選項,但只能解析短選項。

要驗證安裝的getopt是增強版的還是傳統版的,使用getopt -T判斷即可。如果它什麼都不輸出,則是增強版,此時它的退出狀態碼為4。如果輸出"--",則是傳統版的getopt,此時它的退出狀態碼為0。如果想在指令碼中進行版本檢查,可以參考如下程式碼:

getopt -T &>/dev/null;[ $? -ne 4 ] && { echo "not enhanced version";exit 1; }

1.命令列選項的那些事

在學習getopt如何使用之前,必須先知道命令列的一些常識。這些,都可以通過getopt來實現,但有些實現起來可能會比較複雜。

1.區分option、parameter、argument、option argument和non-option parament

parameter和argument都表示引數,前者通常表示獨立性的引數,後者通常表示依賴於其它實體的引數。parameter的含義更廣,argument可以看作parameter的一種。

例如,定義函式時function foo(x,y){CODE},函式的引數x和y稱為parameter。呼叫函式並傳遞引數時,foo(arg1,arg2)中的arg1和arg2都是依賴於函式的,稱為argument更合適,當然也可以稱為更廣泛的parameter。

再例如,一個命令列:

tar -zcf a.tar.gz /etc/pki

粗分的話,-z-c-fa.tar.gz/etc/pki都可以稱為parameter。細分的話:

  • "-z -c -f"稱為選項,即option
  • a.tar.gz是選項"-f"的選項引數(傳遞給選項的引數),依賴於選項,稱為argument更合適,更嚴格的稱呼是option argument
  • /etc/pki既不屬於選項,也不屬於某個選項的引數,它稱為非選項型別的引數,對應的名稱為non-option parameter

本文要介紹的是getopt,所以只考慮命令列引數的情況。

2.短選項和長選項以及它們的"潛規則"

Linux中絕大多數命令都提供了短選項和長選項。一般來說,短選項是隻使用一個"-"開頭,選項部分只使用一個字元,長選項是使用兩個短橫線(即"--")開頭的。

例如"-a"是短選項,"--append"是長選項。

一般來說,選項的順序是無所謂的,但並非絕對如此,有時候某些選項必須放在前面,必須放在某些選項的前面、後面。

一般來說,短選項:

  • 可以通過一個短橫線"-"將多個短選項連線在一起,但如果連在一起的短選項有引數的話,則必須作為串聯的最後一個字元。

    例如"-avz"其實會被解析為"-a -v -z",tar -zcf a.tar.gz串聯了多個短選項,但"-f"選項有引數a.tar.gz,所以它必須作為串聯選項的最後一個字元。

  • 短選項的引數可以和選項名稱連在一起,也可以是用空白分隔。例如-n 3-n3是等價的,數值3都是"-n"選項的引數值。
  • 如果某個短選項的引數是可選的,那麼它的引數必須緊跟在選項名後面,不能使用空格分開。至於為什麼,見下面的第3項。

一般來說,長選項:

  • 可以使用等號或空白連線兩種方式提供選項引數。例如--file=FILE--file FILE
  • 如果某個長選項的引數是可選的,那麼它的引數必須使用"="連線。至於為什麼,見下面的第3項。
  • 長選項一般可以縮寫,只要不產生歧義即可。

例如,ls命令,以"a"開頭的長選項有3個。

$ ls --help | grep -- '--a' 
  -a, --all                  do not ignore entries starting with .
  -A, --almost-all           do not list implied . and ..
      --author               with -l, print the author of each file

如果想要指定--almost-all,可以縮寫為--alm;如果想要指定--author,可以縮寫為--au。如果只縮寫為"--a",bash將給出錯誤提示,長選項出現歧義:

$ ls --a
ls: option '--a' is ambiguous; possibilities: '--all' '--author' '--almost-all'
Try 'ls --help' for more information.

3.不帶引數的選項、可選引數的選項和帶引數的選項

有不同型別的命令列選項,這些選項可能不需要引數,也可能引數是可選的,也可能是強制要求引數的。

前面說了,如果某個選項的引數是可選的,那麼它的引數必須不能使用空格將引數和選項分開。如果使用空格分隔,則無法判斷它的下一個元素是該選項的引數還是非選項型別的引數。

例如,-c--config選項的引數是可選的,要向這兩個選項提供引數,必須寫成-cFILE--config=FILE,如果寫成-c FILE--config FILE,那麼getopt無法判斷這個FILE是提供給選項的引數,還是非選項型別的引數。

一般來說,使用可選引數的情況非常少,至少我目前回憶不起來這樣的命令。

4.使用"--"將選項(及它們的選項引數)與非選項型別引數進行分隔

unix的命令列中,總是可以在非選項型別的引數之前加上"--",表示選項和選項引數到此為止,後面的都是非選項型別的引數。

例如:

seq -w -- 3
seq -w -- 1 3

分別表示3和"1 3"是seq的非選項型別引數,而"--"前面的一定是選項或選項引數。

5.命令列引數中的短橫線開頭的並不一定總是短選項,也可能是負數引數

例如seq命令:

seq -w -5 -1 5

其中-5和-1都是負數非選項型別的引數。

6.選項的依賴性和互斥性

有些命令的選項是有依賴性和互斥性的。比如某個選項要和另一個選項一起使用,某個選項不能和另一個選項一起使用。

例如--manage --remove,只有在使用了--manage的前提下才能使用--remove,否則就應該報錯。

7.模式化(模組化)型別的選項

很多unix命令都將選項進行模組化設計。例如ip命令,address模式、route模式、link模式等等。

ip addr OPTIONS
ip route OPTIONS
ip link OPTIONS 
ip neigh OPTIONS

8.其他特性的選項

有些命令還有比較個性化的選項,比如head命令,-n NUM選項,即可以指定為-3,也可以指定為-n 3-n3

2.getopt解析選項的工作機制

bash的getopt命令經常用在shell指令碼內部或函式內部,用來解析指令碼執行或函式執行時傳遞的選項、引數。

下面都以命令列為例解釋getopt是如何解析引數的,但用來解析函式引數是一樣的。

2.1 getopt選項

下面這個是最常用的getopt解析方式(有這個命令就夠了)。如果要了解getopt更完整的語法,見man getopt。

getopt -o SHORT_OPTIONS -l LONG_OPTIONS -n "$0" -- "[email protected]"

其中: -o SHORT_OPTIONS --options SHORT_OPTIONS getopt通過"-o"選項收集命令列傳遞的短選項和它們對應的引數。關於SHORT_OPTIONS的格式見下一小節。

-l LONG_OPTIONS --longoptions LONG_OPTIONS getopt通過"-l"選項收集命令列傳遞的長選項和它們對應的引數。可能從別人的指令碼中經常看到"--long",是等價的,前文已經解釋過,長選項只要不產生歧義,是可以進行縮寫的。關於LONG_OPTIONS的格式見下一小節。

-n NAME getopt在解析命令列時,如果解析出錯(例如要求給引數的選項沒帶引數,使用了無法解析的選項等)將會報告錯誤資訊,getopt將使用該NAME作為報錯的指令碼名稱。

-- "[email protected]" 其中--表示getopt命令自身的選項到此結束,後面的元素都是要被getopt解析的命令列引數。這裡使用"[email protected]",表示所有的命令列引數。注意,不能省略雙引號。

2.2 getopt如何解析選項和引數

getopt使用"-o"或"-l"解析短、長選項和引數時,將會對每個解析到的選項、引數進行輸出,然後不斷放進一個字串中。這個字串的內容就是完整的、規範化的選項和引數。

getopt使用"-o"選項解析短選項時:

  • 多個短選項可以連在一起
  • 如果某個要解析的選項需要一個引數,則在選項名後面跟一個冒號
  • 如果某個要解析的選項的引數可選,則在選項名後面跟兩個冒號
  • 例如,getopt -o ab:c::中,將解析為-a -b arg_b -c [arg_c],arg_b是-b選項必須的,arg_c是-c選項可選的引數,"-a"選項無需引數

getopt使用"-l"選項解析長選項時:

  • 可以一次性指定多個選項名稱,需要使用逗號分隔它們
  • 可以多次使用-l選項,多次解析長選項
  • 如果某個要解析的選項需要一個引數,則在選項名後面跟一個冒號
  • 如果某個要解析的選項的引數可選,則在選項名後面跟兩個冒號
  • 例如,getopt -l add:,remove::,show中,將解析為--add arg_add --remove [arg_rem] --show,其中arg_add是--add選項必須的,--remove選項的引數arg_rem是可選的,--show無需引數

如果解析的是帶引數的選項,則getopt生成的字串中,會將選項的引數值作為該選項的下一個引數。如果解析的是可選引數的選項,如果為該選項設定了引數,則會將這個引數放在選項的下一個引數位置,如果沒有為該選項設定引數,則會生成一個用引號包圍的空字串作為選項的下一個引數。

getopt解析完選項和選項的引數後,將解析非選項型別的引數(non-option parameter)。getopt為了讓非選項型別的引數和選項、選項引數區分開,將在解析第一個非選項型別引數時加上一個"--"到字串中,表示選項和選項引數到此結束,然後將所有的非選項型別引數放在這個"--"引數之後。

預設情況下,該加強版本的getopt會將所有引數值(包括選項引數、非選項型別的引數)使用引號進行包圍,以便保護空白字元和特殊字元。如果是相容版本的getopt,則不會用引號保護,所以會破壞引數解析。

看後面的示例就很容易理解了。

2.3 示例分析getopt的解析方式

例如在指令碼test.sh中,下面的getopt的結果儲存到變數parameters中,然後輸出getopt解析完成後得到的完整引數列表。

#!/usr/bin/env bash

parameters=`getopt -o ab:c:: --long add:,remove::,show -n "$0" -- "[email protected]"`
echo "$parameters"

如果還不知道這裡的-o--long解析了什麼東西,請回頭仔細再看一遍。

執行這個指令碼,並給這個指令碼傳遞一些選項和引數,這些指令碼引數將被收集到[email protected],然後被getopt解析。

$ ./test.sh -a non-op_arg1 -b b_short_arg non-op_arg2 --rem --add /path --show -c non-op_arg3
 -a -b 'b_short_arg' --remove '' --add '/path' --show -c '' -- 'non-op_arg1' 'non-op_arg2' 'non-op_arg3'

首先可以看出,傳遞給指令碼的引數都是無序的:

  • 長選項有:
    • --rem:是--remove的縮寫形式,它的引數是可選的,但沒有為它傳遞引數
    • --add:並設定了該選項的引數/path
    • --show:沒有任何引數
  • 短選項有:
    • -a:它是無需引數的選項,所以它後面的non-op_arg1是一個非選項型別的引數
    • -b:它是必須帶引數的選項,所以b_short_arg是它的引數
    • -c:它的引數是可選的,這裡沒有給它提供引數(前面解釋過,要給引數可選的選項提供引數,短選項時,引數和選項名稱必須連在一起)。
  • 非選項型別的引數有:
    • non-op_arg1
    • non-op_arg2
    • non-op_arg3

從getopt的輸出結果中,可以看出:

  • 先解析選項和選項引數
  • 選項和選項引數是按照從左向右的方式進行解析的
  • 引數都使用引號包圍
  • 那些引數可選的選項,當沒有為它們提供引數時,將生成一個引號包圍的空字串引數
  • 解析完所有的選項和選項引數後,開始解析非選項型別的引數
  • 非選項型別的引數前面,會生成一個"--"字串,它將選項(以及選項引數)與非選項型別的引數隔開了

3.處理getopt解析的結果

getopt解析得到了完整、規範化的結果,當然要拿來應用。例如直接傳遞個函式,或者根據while、case、shift將選項、引數進行分割單獨儲存。

如果要進行分割,由於getopt的解析結果通常儲存在一個變數中,要解析這個結果字串,需要使用eval函式將變數的內容進行還原,一般來說會將其設定為一個位置引數(因為shift只能操作位置變數)。

一般來說,整個處理流程是這樣的:

parameters=$(getopt -o SHORT_OPTIONS -l LONG_OPTIONS -n "$0" -- "[email protected]")
[ $? != 0 ] && exit 1
eval set -- "$parameters"   # 將$parameters設定為位置引數
while true ; do             # 迴圈解析位置引數
    case "$1" in
        -a|--longa) ...;shift ;;    # 不帶引數的選項-a或--longa
        -b|--longb) ...;shift 2;;   # 帶引數的選項-b或--longb
        -c|--longc)                 # 引數可選的選項-c或--longc
            case "$2" in 
                "")...;shift 2;;  # 沒有給可選引數
                *) ...;shift 2;;  # 給了可選引數
            esac;;
        --) ...; break ;;       # 開始解析非選項型別的引數,break後,它們都保留在[email protected]中
        *) echo "wrong";exit 1;;
    esac
done

需要注意,getopt解析既可以放在指令碼中解析命令列引數,也可以放在某個函式中解析函式引數。

4.getopt的兩種掃描模式

getopt提供了兩種掃描模式,只要在getopt的短選項前加上加號或負號,就能指定兩種掃描模式,即getopt -o [+-]SHORT_OPTS

  • +掃描模式:只要解析完選項、選項引數,解析到第一個非選項型別的引數後,就會停止解析,它會將所有沒有解析的內容都當作非選項型別引數。所以這種情況下,非選項型別的引數都必須放在尾部,而不能放在某個待解析選項的前面。這種模式在區別負數和短選項時,非常有用。
  • -掃描模式:會按照原始位置引數解析,並保留原始位置。這種模式一般用不上,因為破壞了getopt的優勢:讓選項完整、規範化。

例如,對於命令列引數-w -s -5 3 -2,要將-5識別為-s的引數,3和-2為非選項型別的引數,則:

$ set -- -w -s -5 3 -2  # 設定位置引數
$ getopt -o +s:w -n "$0" -- "[email protected]"
 -w -s '-5' -- '3' '-2'      # 解析結果

注意,上面的-5是被解析成了-s的引數,而不是選項或非選項型別的引數,因為-s選項必須要指定一個引數。

上面的3必須不能是負數,因為getopt必須先掃描到一個正常的非選項型引數,才能將它後面的所有負數都當作非選項型引數。至於如何將-w -s -5 -3 -2中的-3和-2都解析為非選項型引數,目前我也不知道。

使用-掃描模式:

$ set -- 3 -w 4 -s -5 a 3
$ getopt -o -s:w -n "$0" -- "[email protected]"
 '3' -w '4' -s '-5' 'a' '3' --    # 解析結果

可以看到,上面的所有引數位置都是保持原樣的,且將分隔符號"--"補在了最尾部。

5.如何實現命令列選項的各種個性功能

在前面命令列選項的那些事中介紹了幾種有"個性"的選項功能,包括:

  • 選項依賴:例如"-a"或"--add"要依賴於"-m"或"--manage"選項
  • 選項互斥:例如"-a"或"--add"與"-r"或"--remove"是互斥的
  • 識別負數引數:例如-w -5 -3 5,其中-5和-3不是短選項,而是負數引數
  • 模式化選項:例如script_name MODE OPTIONS的MODE部分,可以是manage模式(--manage,-m),也可以使用add模式(--add,-a)
  • 選項引數替代選項:例如head -n 3可以替換為head -3

這裡介紹下用getopt解析引數後實現它們的思路。

在getopt解析完成後,假設返回結果儲存到了$parameters變數中。

1.選項依賴性

這個其實很好實現,只需使用grep對$parameters變數進行篩選一下即可。

例如實現依賴性,只需:

{ echo "$parameters" | grep -E '\-\-add|\-a ' | grep -E '\-\-manage|\-m '; } &>/dev/null
[ $? -ne 0 ] && exit

2.選項互斥性

要實現互斥性,只需:

or_op=`echo "$parameters" | grep -Eo '\-\-add|\-a | \-\-remove|\-r ' | wc -l`
[ "$or_op" = "2" ] && exit

3.識別負數引數

前面解釋過,getopt提供了兩種掃描模式,只要使用+掃描模式,就能輕鬆區別負數引數和短選項。

4.模式化選項

一般來說,模式化選項都是命令列的第一個引數。所以,只需將$parameter中"--"後面的第一個非選項型別的引數提取出來,就是所謂的模式了。當然,還得對這個引數進行一些判斷,避免它不是模式引數。

例如,要提供addr、show、route三種模式,那麼其它的非選項型別引數值都不應該是模式引數。

eval set -- "$parameters"
while true ; do
    case "$1" in
            ...
        --) 
            shift
            [ "$x" = "addr" -o "$x" = "route" -o "$x" = "show" ] && MODE=$1
            shift
            break ;;
        *) echo "wrong";exit 1;;
    esac
done

5.選項引數替代選項

就以-n3-3為例,它的通用格式是-n NUM-NUM。這個並不好實現,我能想到的方法是將這個-NUM先從[email protected]中篩選出來,然後賦值。

NUM=`echo "[email protected]" | grep -Eo "\-[0-9]+"`
ARGS=`echo "[email protected]" | sed -nr 's!(.*)-[0-9]+(.*)!\1\2!'p`
eval set -- "$ARGS"

6.使用getopt設計shell指令碼選項示例

這裡提供一個和seq命令功能相同的指令碼seq.sh,然後設計這個指令碼的選項。

先看一下seq命令的各個選項說明:

seq [OPTION]... LAST                  # 語法1
seq [OPTION]... FIRST LAST            # 語法2
seq [OPTION]... FIRST INCREMENT LAST  # 語法3

選項:
-s, --separator=STRING
使用指定的STRING分隔各數值,預設值為"\n"u

-w, --equal-width
使用0填充在字首使所有數值長度相同

--help
顯示幫助資訊並退出

--version
輸出版本資訊並退出

以下是指令碼內容:和seq相比,只有兩個問題:第一個起點數值FIRST不能為負數;不支援小數功能。其它功能完全相同

#!/usr/bin/env bash
###########################################################
#  author     : 駿馬金龍                                   #
#  blog       : http://www.cnblogs.com/f-ck-need-u/       #
###########################################################

usage(){
cat <<'EOF'
Usage: $0 [OPTION]... LAST
  or:  $0 [OPTION]... FIRST LAST
  or:  $0 [OPTION]... FIRST INCREMENT LAST
EOF
}

# getopt的版本是增強版嗎
getopt -T &>/dev/null;[ $? -ne 4 ] && { echo "not enhanced version";exit 1; }

# 引數解析
parameters=`getopt -o +s:w --long separator:,equal-width,help,version -n "$0" -- "[email protected]"`
[ $? -ne 0 ] && { echo "Try '$0 --help' for more information."; exit 1; }

eval set -- "$parameters"

while true;do
    case "$1" in
        -w|--equal-width) ZERO_PAD="true"; shift ;;
        -s|--separator) SEPARATOR=$2; shift 2 ;;
        --version) echo "$0 version V1.0"; exit ;;
        --help) usage;exit ;;
        --)
            shift
            FIRST=$1
            INCREMENT=$2
            LAST=$3
            break ;;
        *) usage;exit 1;;
    esac
done


# 用於生成序列數
function seq_func(){

    # 是否要使用printf填充0位?
    [ "x$1" = "xtrue" ] && zero_pad="true" && shift
    
    # 設定first、step、last
    if [ $# -eq 1 ];then
        first=1
        step=1
        last=$1
    elif [ $# -eq 2 ];then
        first=$1
        step=1
        last=$2
    elif [ $# -eq 3 ]; then
        first=$1
        step=$2
        last=$3
    else
        echo "$FUNCNAME: ARGS wrong..."
        exit 1
    fi
    
    # 最後一個要輸出的元素及其長度,決定要填充多少個0
    last_output=$[ last - ( last-first ) % step ]
    zero_pad_len=`[ ${#last_output} -gt ${#first} ] && echo ${#last_output} || echo ${#first}`

    # 生成序列數
    if [ "x$zero_pad" = "xtrue" ];then
        # 填充0
        if [ $step -gt 0 ];then
            # 遞增,填充0
            for((i=$first;i<=$last;i+=$step)){
                [ $last_output -eq $i ] && { printf "%0${zero_pad_len}i\n" "$i";return; }
                printf "%0${zero_pad_len}i " $i
            }
        else
            # 遞減,填充0
            for((i=$first;i>=$last;i+=$step)){
                [ $last_output -eq $i ] && { printf "%0${zero_pad_len}i\n" "$i";return; }
                printf "%0${zero_pad_len}i " $i
            }
        fi
    else
        # 不填充0
        if [ $step -gt 0 ];then
            # 遞增,不填充0
            for((i=$first;i<=$last;i+=$step)){
                [ $last_output -eq $i ] && { printf "%i\n" "$i";return; }
                printf "%i " $i
            }
        else
            # 遞減,不填充0
            for((i=$first;i>=$last;i+=$step)){
                [ $last_output -eq $i ] && { printf "%i\n" "$i";return; }
                printf "%i " $i
            }
        fi
    fi
}

# 指定輸出分隔符
: ${SEPARATOR="\n"}

# 輸出結果
seq_func $ZERO_PAD $SEPARATOR $FIRST $INCREMENT $LAST | tr " " "$SEPARATOR"

上面解析選項的指令碼缺陷在於無法解析FIRST為負數的情況,例如./seq.sh -w -5 3將報錯。但可以寫為標準的./seq.sh -w -- -5 -3語法。