1. 程式人生 > >3-3.8 Dockerfile 指令詳解之一

3-3.8 Dockerfile 指令詳解之一

Dockerfile提供了一種模板檔案形式來建立docker映象的方式,有其特有的指令,本篇詳解其用法。

目錄

FROM 指定基礎映象

RUN 執行命令

COPY 複製檔案

ADD 更高階的複製檔案

CMD 容器啟動命令

ENTRYPOINT 入口點

ENV 設定環境變數


FROM 指定基礎映象

所謂定製映象,那一定是以一個映象為基礎,在其上進行定製。而FROM  就是指定基礎映象,因此一個  Dockerfile  中  FROM  是必備的指令,並且必須是第一條指令。如果同一個DockerFile建立多個映象時,可使用多個From指令(每個映象一次)。

在 Docker Hub 上有非常多的高質量的官方映象, 有可以直接拿來使用的服務類的映象,如nginx  、 redis  、 mongo  、 mysql  、 httpd  、 php  、 tomcat  等; 也有一些方便開發、構建、執行各種語言應用的映象,如node  、 openjdk  、 python  、 ruby  、 golang  等。 可以在其中尋找一個最符合我們最終目標的映象為基礎映象進行定製。 如果沒有找到對應服務的映象,官方映象中還提供了一些更為基礎的作業系統映象,如ubuntu  、 debian  、 centos  、 fedora  、 alpine  等,這些作業系統的軟體庫為我們提供了更廣闊的擴充套件空間。除了選擇現有映象為基礎映象外,Docker 還存在一個特殊的映象,名為scratch  。這個映象是虛擬的概念,並不實際存在,它表示一個空白的映象。

FROM scratch
...

如果你以  scratch  為基礎映象的話,意味著你不以任何映象為基礎,接下來所寫的指令將作為映象第一層開始存在。

不以任何系統為基礎,直接將可執行檔案複製進映象的做法並不罕見,比如swarm  、 coreos/etcd  。對於 Linux 下靜態編譯的程式來說,並不需要有作業系統提供執行時支援,所需的一切庫都已經在可執行檔案裡了,因此直接  FROM scratch  會讓映象體積更加小巧。使用 Go 語言 開發的應用很多會使用這種方式來製作映象,這也是為什麼有人認為 Go 是特別適合容器微服務架構的語言的原因之一。

RUN 執行命令

RUN  指令是用來執行命令列命令的。由於命令列的強大能力, RUN  指令在定製映象時是最常用的指令之一。其格式有兩種:

  • shell 格式: RUN <命令>  ,就像直接在命令列中輸入的命令一樣。剛才寫的

Dockrfile 中的  RUN  指令就是這種格式。

RUN echo '<h1>Hello, Docker!</h1>' > /usr/share/nginx/html/index
.html
  • exec 格式: RUN ["可執行檔案", "引數1", "引數2"]  ,這更像是函式呼叫中的格式。

既然  RUN  就像 Shell 指令碼一樣可以執行命令,那麼我們是否就可以像 Shell 指令碼一樣把每個命令對應一個 RUN 呢?比如這樣:

FROM debian:jessie
RUN apt-get update
RUN apt-get install -y gcc libc6-dev make
RUN wget -O redis.tar.gz "http://download.redis.io/releases/redi
s-3.2.5.tar.gz"
RUN mkdir -p /usr/src/redis
RUN tar -xzf redis.tar.gz -C /usr/src/redis --strip-components=1
RUN make -C /usr/src/redis
RUN make -C /usr/src/redis install

之前說過,Dockerfile 中每一個指令都會建立一層, RUN  也不例外。每一個RUN  的行為,就和剛才我們手工建立映象的過程一樣:新建立一層,在其上執行這些命令,執行結束後, commit  這一層的修改,構成新的映象。

而上面的這種寫法,建立了 7 層映象。這是完全沒有意義的,而且很多執行時不需要的東西,都被裝進了映象裡,比如編譯環境、更新的軟體包等等。結果就是產生非常臃腫、非常多層的映象,不僅僅增加了構建部署的時間,也很容易出錯。 這是很多初學 Docker 的人常犯的一個錯誤。

Union FS 是有最大層數限制的,比如 AUFS,曾經是最大不得超過 42 層,現在是不得超過 127 層。

上面的  Dockerfile  正確的寫法應該是這樣:

FROM debian:jessie
RUN buildDeps='gcc libc6-dev make' \
&& apt-get update \
&& apt-get install -y $buildDeps \
&& wget -O redis.tar.gz "http://download.redis.io/releases/r
edis-3.2.5.tar.gz" \
&& mkdir -p /usr/src/redis \
&& tar -xzf redis.tar.gz -C /usr/src/redis --strip-component
s=1 \
&& make -C /usr/src/redis \
&& make -C /usr/src/redis install \
&& rm -rf /var/lib/apt/lists/* \
&& rm redis.tar.gz \
&& rm -r /usr/src/redis \
&& apt-get purge -y --auto-remove $buildDeps

首先,之前所有的命令只有一個目的,就是編譯、安裝 redis 可執行檔案。因此沒有必要建立很多層,這只是一層的事情。因此,這裡沒有使用很多個  RUN  對一一對應不同的命令,而是僅僅使用一個  RUN  指令,並使用  &&  將各個所需命令串聯起來。將之前的 7 層,簡化為了 1 層。在撰寫 Dockerfile 的時候,要經常提醒自己,這並不是在寫 Shell 指令碼,而是在定義每一層該如何構建。

並且,這裡為了格式化還進行了換行。Dockerfile 支援 Shell 類的行尾新增  \  的命令換行方式,以及行首  #  進行註釋的格式。良好的格式,比如換行、縮排、註釋等,會讓維護、排障更為容易,這是一個比較好的習慣。

此外,還可以看到這一組命令的最後添加了清理工作的命令,刪除了為了編譯構建所需要的軟體,清理了所有下載、展開的檔案,並且還清理了  apt  快取檔案。這是很重要的一步,我們之前說過,映象是多層儲存,每一層的東西並不會在下一層被刪除,會一直跟隨著映象。因此映象構建時,一定要確保每一層只新增真正需要新增的東西,任何無關的東西都應該清理掉。

很多人初學 Docker 製作出了很臃腫的映象的原因之一,就是忘記了每一層構建的最後一定要清理掉無關檔案。

COPY 複製檔案

格式:

  • COPY <源路徑>... <目標路徑>
  • COPY ["<源路徑1>",... "<目標路徑>"]

和  RUN  指令一樣,也有兩種格式,一種類似於命令列,一種類似於函式呼叫。COPY  指令將從構建上下文目錄中  <源路徑>  的檔案/目錄複製到新的一層的映象內的  <目標路徑>  位置。比如:

COPY package.json /usr/src/app/

<源路徑>  可以是多個,甚至可以是萬用字元,其萬用字元規則要滿足 Go 的filepath.Match  規則,如:

COPY hom* /mydir/
COPY hom?.txt /mydir/

<目標路徑>  可以是容器內的絕對路徑,也可以是相對於工作目錄的相對路徑(工作目錄可以用  WORKDIR  指令來指定)。目標路徑不需要事先建立,如果目錄不存在會在複製檔案前先行建立缺失目錄。此外,還需要注意一點,使用  COPY  指令,原始檔的各種元資料都會保留。比如讀、寫、執行許可權、檔案變更時間等。這個特性對於映象定製很有用。特別是構建相關檔案都在使用 Git 進行管理的時候。

ADD 更高階的複製檔案

ADD  指令和  COPY  的格式和性質基本一致。但是在  COPY  基礎上增加了一些功能。

比如  <源路徑>  可以是一個  URL  ,這種情況下,Docker 引擎會試圖去下載這個連結的檔案放到  <目標路徑>  去。下載後的檔案許可權自動設定為  600  ,如果這並不是想要的許可權,那麼還需要增加額外的一層  RUN  進行許可權調整,另外,如果下載的是個壓縮包,需要解壓縮,也一樣還需要額外的一層  RUN  指令進行解壓縮。所以不如直接使用  RUN  指令,然後使用  wget  或者  curl  工具下載,處理許可權、解壓縮、然後清理無用檔案更合理。因此,這個功能其實並不實用,而且不推薦使用。

如果  <源路徑>  為一個  tar  壓縮檔案的話,壓縮格式為  gzip  ,  bzip2  以及xz  的情況下, ADD  指令將會自動解壓縮這個壓縮檔案到  <目標路徑>  去。在某些情況下,這個自動解壓縮的功能非常有用,比如官方映象  ubuntu  中:

FROM scratch
ADD ubuntu-xenial-core-cloudimg-amd64-root.tar.gz /
...

但在某些情況下,如果我們真的是希望複製個壓縮檔案進去,而不解壓縮,這時就不可以使用  ADD  命令了。在 Docker 官方的最佳實踐文件中要求,儘可能的使用  COPY  ,因為  COPY  的語義很明確,就是複製檔案而已,而  ADD  則包含了更復雜的功能,其行為也不一定很清晰。最適合使用  ADD  的場合,就是所提及的需要自動解壓縮的場合。另外需要注意的是, ADD  指令會令映象構建快取失效,從而可能會令映象構建變得比較緩慢。因此在  COPY  和  ADD  指令中選擇的時候,可以遵循這樣的原則,所有的檔案複製均使用  COPY  指令,僅在需要自動解壓縮的場合使用  ADD  。

CMD 容器啟動命令

CMD  指令的格式和  RUN  相似,也是兩種格式:

  • shell  格式: CMD <命令>
  • exec  格式: CMD ["可執行檔案", "引數1", "引數2"...]
  • 引數列表格式: CMD ["引數1", "引數2"...]  。在指定了  ENTRYPOINT  指令後,用  CMD  指定具體的引數。

之前介紹容器的時候曾經說過,Docker 不是虛擬機器,容器就是程序。既然是進
程,那麼在啟動容器的時候,需要指定所執行的程式及引數。 CMD  指令就是用於
指定預設的容器主程序的啟動命令的。

在執行時可以指定新的命令來替代映象設定中的這個預設命令,比如, ubuntu映象預設的  CMD  是  /bin/bash  ,如果我們直接  docker run -it ubuntu  的話,會直接進入  bash  。我們也可以在執行時指定執行別的命令,如  docker run -it ubuntu cat /etc/os-release  。這就是用  cat /etc/os-release 命令替換了預設的  /bin/bash  命令了,輸出了系統版本資訊。

在指令格式上,一般推薦使用  exec  格式,這類格式在解析時會被解析為 JSON陣列,因此一定要使用雙引號  "  ,而不要使用單引號。如果使用  shell  格式的話,實際的命令會被包裝為  sh -c  的引數的形式進行執行。比如:

CMD echo $HOME

在實際執行中,會將其變更為:

CMD [ "sh", "-c", "echo $HOME" ]

這就是為什麼我們可以使用環境變數的原因,因為這些環境變數會被 shell 進行解析處理。

提到  CMD  就不得不提容器中應用在前臺執行和後臺執行的問題。這是初學者常出現的一個混淆。

Docker 不是虛擬機器,容器中的應用都應該以前臺執行,而不是像虛擬機器、物理機裡面那樣,用 upstart/systemd 去啟動後臺服務,容器內沒有後臺服務的概念。一些初學者將  CMD  寫為:

CMD service nginx start

然後發現容器執行後就立即退出了。甚至在容器內去使用  systemctl  命令結果卻發現根本執行不了。這就是因為沒有搞明白前臺、後臺的概念,沒有區分容器和虛擬機器的差異,依舊在以傳統虛擬機器的角度去理解容器。對於容器而言,其啟動程式就是容器應用程序,容器就是為了主程序而存在的,主程序退出,容器就失去了存在的意義,從而退出,其它輔助程序不是它需要關心的東西。

而使用  service nginx start  命令,則是希望 upstart 來以後臺守護程序形式啟動  nginx  服務。而剛才說了  CMD service nginx start  會被理解為  CMD ["sh", "-c", "service nginx start"]  ,因此主程序實際上是  sh  。那麼當service nginx start  命令結束後, sh  也就結束了, sh  作為主程序退出了,自然就會令容器退出。

正確的做法是直接執行  nginx  可執行檔案,並且要求以前臺形式執行。比如:

CMD ["nginx", "-g", "daemon off;"]

ENTRYPOINT 入口點

ENTRYPOINT  的格式和  RUN  指令格式一樣,分為  exec  格式和  shell  格式。

ENTRYPOINT  的目的和  CMD  一樣,都是在指定容器啟動程式及引數。 ENTRYPOINT  在執行時也可以替代,不過比  CMD  要略顯繁瑣,需要通過docker run  的引數  --entrypoint  來指定。

當指定了  ENTRYPOINT  後, CMD  的含義就發生了改變,不再是直接的執行其命令,而是將  CMD  的內容作為引數傳給  ENTRYPOINT  指令,換句話說實際執行時,將變為:

<ENTRYPOINT> "<CMD>"

那麼有了  CMD  後,為什麼還要有  ENTRYPOINT  呢?這種  <ENTRYPOINT> " <CMD>"  有什麼好處麼?讓我們來看幾個場景。

場景一:讓映象變成像命令一樣使用
假設我們需要一個得知自己當前公網 IP 的映象,那麼可以先用  CMD  來實現:

FROM ubuntu:16.04
RUN apt-get update \
&& apt-get install -y curl \
&& rm -rf /var/lib/apt/lists/*
CMD [ "curl", "-s", "http://ip.cn" ]

假如我們使用  docker build -t myip .  來構建映象的話,如果我們需要查詢當
前公網 IP,只需要執行:

$ docker run myip

嗯,這麼看起來好像可以直接把映象當做命令使用了,不過命令總有引數,如果我們希望加引數呢?比如從上面的  CMD  中可以看到實質的命令是  curl  ,那麼如果我們希望顯示 HTTP 頭資訊,就需要加上  -i  引數。那麼我們可以直接加  -i 引數給  docker run myip  麼?

$ docker run myip -i
docker: Error response from daemon: invalid header field value "
oci runtime error: container_linux.go:247: starting container pr
ocess caused \"exec: \\\"-i\\\": executable file not found in $P
ATH\"\n".

我們可以看到可執行檔案找不到的報錯, executable file not found  。之前我們說過,跟在映象名後面的是  command  ,執行時會替換  CMD  的預設值。因此這裡的  -i  替換了原來的  CMD  ,而不是新增在原來的  curl -s http://ip.cn  後面。而  -i  根本不是命令,所以自然找不到。

那麼如果我們希望加入  -i  這引數,我們就必須重新完整的輸入這個命令:

$ docker run myip curl -s http://ip.cn -i

這顯然不是很好的解決方案,而使用  ENTRYPOINT  就可以解決這個問題。現在我
們重新用  ENTRYPOINT  來實現這個映象:

FROM ubuntu:16.04
RUN apt-get update \
&& apt-get install -y curl \
&& rm -rf /var/lib/apt/lists/*
ENTRYPOINT [ "curl", "-s", "http://ip.cn" ]

這次我們再來嘗試直接使用  docker run myip -i  :

$ docker run myip
當前 IP:61.148.226.66 來自:北京市 聯通
$ docker run myip -i
HTTP/1.1 200 OK
Server: nginx/1.8.0
Date: Tue, 22 Nov 2016 05:12:40 GMT
Content-Type: text/html; charset=UTF-8
Vary: Accept-Encoding
X-Powered-By: PHP/5.6.24-1~dotdeb+7.1
X-Cache: MISS from cache-2
X-Cache-Lookup: MISS from cache-2:80
X-Cache: MISS from proxy-2_6
Transfer-Encoding: chunked
Via: 1.1 cache-2:80, 1.1 proxy-2_6:8006
Connection: keep-alive
當前 IP:61.148.226.66 來自:北京市 聯通

可以看到,這次成功了。這是因為當存在  ENTRYPOINT  後, CMD  的內容將會作為引數傳給  ENTRYPOINT  ,而這裡  -i  就是新的  CMD  ,因此會作為引數傳給curl  ,從而達到了我們預期的效果。

場景二:應用執行前的準備工作

啟動容器就是啟動主程序,但有些時候,啟動主程序前,需要一些準備工作。比如  mysql  類的資料庫,可能需要一些資料庫配置、初始化的工作,這些工作要在最終的 mysql 伺服器執行之前解決。

此外,可能希望避免使用  root  使用者去啟動服務,從而提高安全性,而在啟動服務前還需要以  root  身份執行一些必要的準備工作,最後切換到服務使用者身份啟動服務。或者除了服務外,其它命令依舊可以使用  root  身份執行,方便除錯等。

這些準備工作是和容器  CMD  無關的,無論  CMD  為什麼,都需要事先進行一個預處理的工作。這種情況下,可以寫一個指令碼,然後放入  ENTRYPOINT  中去執行,而這個指令碼會將接到的引數(也就是  <CMD>  )作為命令,在指令碼最後執行。比如官方映象  redis  中就是這麼做的:

FROM alpine:3.4
...
RUN addgroup -S redis && adduser -S -G redis redis
...
ENTRYPOINT ["docker-entrypoint.sh"]
EXPOSE 6379
CMD [ "redis-server" ]

可以看到其中為了 redis 服務建立了 redis 使用者,並在最後指定了  ENTRYPOINT
為  docker-entrypoint.sh  指令碼。

#!/bin/sh
...
# allow the container to be started with `--user`
if [ "$1" = 'redis-server' -a "$(id -u)" = '0' ]; then
chown -R redis .
exec su-exec redis "$0" "[email protected]"
fi
exec "[email protected]"

該指令碼的內容就是根據  CMD  的內容來判斷,如果是  redis-server  的話,則切
換到  redis  使用者身份啟動伺服器,否則依舊使用  root  身份執行。比如:

$ docker run -it redis id
uid=0(root) gid=0(root) groups=0(root)

ENV 設定環境變數

格式有兩種:

  • ENV <key> <value>
  • ENV <key1>=<value1> <key2>=<value2>...

這個指令很簡單,就是設定環境變數而已,無論是後面的其它指令,如  RUN  ,還是執行時的應用,都可以直接使用這裡定義的環境變數。

ENV VERSION=1.0 DEBUG=on \
NAME="Happy Feet"

這個例子中演示瞭如何換行,以及對含有空格的值用雙引號括起來的辦法,這和Shell 下的行為是一致的。
定義了環境變數,那麼在後續的指令中,就可以使用這個環境變數。比如在官方
node  映象  Dockerfile  中,就有類似這樣的程式碼:

ENV NODE_VERSION 7.2.0
RUN curl -SLO "https://nodejs.org/dist/v$NODE_VERSION/node-v$NOD
E_VERSION-linux-x64.tar.xz" \
&& curl -SLO "https://nodejs.org/dist/v$NODE_VERSION/SHASUMS25
6.txt.asc" \
&& gpg --batch --decrypt --output SHASUMS256.txt SHASUMS256.tx
t.asc \
&& grep " node-v$NODE_VERSION-linux-x64.tar.xz\$" SHASUMS256.t
xt | sha256sum -c - \
&& tar -xJf "node-v$NODE_VERSION-linux-x64.tar.xz" -C /usr/loc
al --strip-components=1 \
&& rm "node-v$NODE_VERSION-linux-x64.tar.xz" SHASUMS256.txt.as
c SHASUMS256.txt \
&& ln -s /usr/local/bin/node /usr/local/bin/nodejs

在這裡先定義了環境變數  NODE_VERSION  ,其後的  RUN  這層裡,多次使用$NODE_VERSION  來進行操作定製。可以看到,將來升級映象構建版本的時候,只需要更新  7.2.0  即可, Dockerfile  構建維護變得更輕鬆了。
下列指令可以支援環境變數展開:
ADD  、 COPY  、 ENV  、 EXPOSE  、 LABEL  、 USER  、 WORKDIR  、 VOLUME  、
STOPSIGNAL  、 ONBUILD  。

可以從這個指令列表裡感覺到,環境變數可以使用的地方很多,很強大。通過環境變數,我們可以讓一份  Dockerfile  製作更多的映象,只需使用不同的環境變數即可。

Dockerfile 指令詳解之二