1. 程式人生 > >【轉】Expires / Cache-Control / Last-Modified / If-Modified-Since / ETag / If-None-

【轉】Expires / Cache-Control / Last-Modified / If-Modified-Since / ETag / If-None-

本文主要講解web快取的應用.

Expires / Cache-Control / Last-Modified / If-Modified-Since / ETag / If-None-Match 的區別以及使用詳解

為了演示體現快取的作用,先刪除所有的瀏覽器快取,然後以如下四種方式訪問baidu網站,期間使用Pagetest作為測試軟體,這是一個搭配IE使用的軟體,功能上類似HttpWatch,不過它是免費的,有關Pagetest的用法可以參考官方文章提供的教程

1. 開啟IE,鍵入百度網址,按回車:
========================================================================================


========================================================================================
在此次訪問中,因為客戶端沒有相應快取,所以瀏覽器向每一個Web元件發出請求。

2. 開啟IE,鍵入百度網址,按回車:
========================================================================================

========================================================================================在此次訪問中,因為客戶端已有部分快取,所以瀏覽器的請求數明顯減少。

3. 在一個已經開啟百度網址的瀏覽器窗口裡,按F5重新整理:

========================================================================================

========================================================================================在此次訪問中,客戶端重新整理,服務端判斷快取未過期便返回304(黃色部分),客戶端繼續使用快取。在重新整理過程中,瀏覽器在請求的時候,如果有快取,會通過傳送If-Modified-Since或If-None-Match到伺服器去驗證快取是否有效。

4. 在一個已經開啟百度網址的瀏覽器窗口裡,按Ctrl+F5強制重新整理:
========================================================================================
========================================================================================在此次訪問中,客戶端強制重新整理,不管客戶端有沒有快取,每一個Web元件都重新請求。在強制重新整理過程中,瀏覽器在請求的時候,即便有快取,也不會發送If-Modified-Since或If-None-Match,這樣,任何Web元件都必須從伺服器重新下載才能顯示。
Expires / Cache-Control:

當伺服器發出響應的時候,可以通過兩種方式來告訴客戶端快取請求:

第一種是Expires,比如:

Expires: Sun, 16 Oct 2016 05:43:02 GMT

在此日期之前,客戶端都會認為快取是有效的。

不過Expires有缺點,比如說,服務端和客戶端的時間設定可能不同,這就會使快取的失效可能並不能精確的按伺服器的預期進行。

第二種是Cache-Control,比如:

Cache-Control: max-age=315360000

這裡宣告的是一個相對的秒數,表示從現在起,315360000秒內快取都是有效的,這樣就避免了服務端和客戶端時間不一致的問題。

但是Cache-Control是HTTP1.1才有的,不適用與HTTP1.0,而Expires既適用於HTTP1.0,也適用於HTTP1.1,所以說在大多數情況下同時傳送這兩個頭會是一個更好的選擇,當客戶端兩種頭都能解析的時候,會優先使用Cache-Control。

參考Apache相關文件

條件GET:Last-Modified / If-Modified-Since和ETag / If-None-Match

Last-Modified / If-Modified-Since

Last-Modified是響應頭,If-Modified-Since是請求頭。Last-Modified把Web元件的最後修改時間告訴客戶端,客戶端在下次請求此Web元件的時候,會把上次服務端響應的最後修改時間作為If-Modified-Since的值傳送給伺服器,伺服器可以通過這個值來判斷是否需要重新發送,如果不需要,就簡單的傳送一個304狀態碼,客戶端將從快取裡直接讀取所需的Web元件。

ETag / If-None-Match

ETag是響應頭,If-None-Match是請求頭。Last-Modified / If-Modified-Since的主要缺點就是它只能精確到秒的級別,一旦在一秒的時間裡出現了多次修改,那麼Last-Modified / If-Modified-Since是無法體現的。相比較,ETag / If-None-Match沒有使用時間作為判斷標準,而是使用一個特徵串。Etag把Web元件的特徵串告訴客戶端,客戶端在下次請求此Web元件的時候,會把上次服務端響應的特徵串作為If-None-Match的值傳送給服務端,服務端可以通過這個值來判斷是否需要從重新發送,如果不需要,就簡單的傳送一個304狀態碼,客戶端將從快取裡直接讀取所需的Web元件。

一些建議:

當使用Expires / Cache-Control的時候,儘量給圖片,樣式表,指令碼等設定一個足夠大的快取時間,如果在此期間,快取檔案有過修改,最簡單的更新方式是改名或者設定一個查詢引數,比如開始圖片名是logo.gif,如果做了一個新的圖片,你想更新,可以把圖片改名為logo_v2.gif,或者給圖片設定一個查詢引數logo.gif?foobar,這樣,瀏覽器就會去請求新的圖片了。不過,並不是所有的Web元件都適合有一個大的快取時間,比如html,就不適合使用過大的快取時間,否則你在快取到期前,就沒機會更新任何東西了。

使用Yslow的都知道,它不建議使用ETag,理由是Etag在分散式環境裡,會給伺服器造成不必要的壓力,比如說在Apache裡,Etag預設是由三個因素決定的:INode Size MTime,而同一個圖片,在不同伺服器上的INode是不同的,所以在兩個伺服器上先後請求同一個圖片,會得到兩次200,雖然我們可以通過設定FileETag Size MTime來遮蔽INode,從而達到一次200,一次304的效果,但304也是要通過一次條件GET請求驗證的,所以說,還是通過Expires / Cache-Control來設定一個足夠大的快取時間更划算一些,如此說來,對圖片,樣式表,指令碼等靜態內容而言,設定一個大的過期時間是絕對必要的,而Etag和Last-Modified則不是必要的。

如果你決定禁止ETag的話,簡單的使用FileETag None就能達到目的。

如果你想把Last-Modified也禁止的話,似乎沒有直接的方法,只能通過header模組的方式:

LoadModule headers_module modules/mod_headers.so

<FilesMatch "...">
Header unset Last-Modified
</FilesMatch>


不理解快取可能會讓我們作出很多錯誤的判斷,比如說很多人在估算頻寬的時候一般是按照如下的流程來計算頻寬的(以每天百萬訪問量為例來說明):

如果100萬PV的訪問量在一天內平均分佈的話,摺合到每秒大約12次訪問,如果按平均每次訪問頁面的大小是100K位元組左右計算的話,這12次訪 問總計大約就是1200K位元組,位元組的單位是Byte,而頻寬的單位是bit,它們之間的關係是1Byte = 8bit,所以1200K Byte大致就相當於9600K bit,也就是9Mbps的樣子,實際情況中,我們的網站必須能在峰值流量時保持正常訪問,假設峰值流量是平均流量的5倍,於是得出真實頻寬的需求應該在45Mbps 左右。

如上的計算只在一種情況下是正確的,那就是網站伺服器關閉了快取或者網站的瀏覽者關閉了快取!不過現實情況我們出於效能的考慮肯定要加入快取,使用者在有快取的情況下產生的流量要遠遠小於沒有快取時產生的流量。所以在估算頻寬的時候,我們還得考慮攜帶快取瀏覽的瀏覽者在總瀏覽者中所佔的比例,說白了就是回頭客的比例,這樣才能作出準確的判斷,否則會多花很多冤枉錢。

基礎知識
  1) 什麼是”Last-Modified”?
  在瀏覽器第一次請求某一個URL時,伺服器端的返回狀態會是200,內容是你請求的資源,同時有一個Last-Modified的屬性標記此檔案在服務期端最後被修改的時間,格式類似這樣:
  Last-Modified: Fri, 12 May 2006 18:53:33 GMT
  客戶端第二次請求此URL時,根據 HTTP 協議的規定,瀏覽器會向伺服器傳送 If-Modified-Since 報頭,詢問該時間之後檔案是否有被修改過:
  If-Modified-Since: Fri, 12 May 2006 18:53:33 GMT
  如果伺服器端的資源沒有變化,則自動返回 HTTP 304 (Not Changed.)狀態碼,內容為空,這樣就節省了傳輸資料量。當伺服器端程式碼發生改變或者重啟伺服器時,則重新發出資源,返回和第一次請求時類似。從而保證不向客戶端重複發出資源,也保證當伺服器有變化時,客戶端能夠得到最新的資源。
  2) 什麼是”Etag”?
  HTTP 協議規格說明定義ETag為“被請求變數的實體值” (參見 —— 章節 14.19)。 另一種說法是,ETag是一個可以與Web資源關聯的記號(token)。典型的Web資源可以一個Web頁,但也可能是JSON或XML文件。伺服器單獨負責判斷記號是什麼及其含義,並在HTTP響應頭中將其傳送到客戶端,以下是伺服器端返回的格式:
  ETag: "50b1c1d4f775c61:df3"
  客戶端的查詢更新格式是這樣的:
  If-None-Match: W/"50b1c1d4f775c61:df3"
  如果ETag沒改變,則返回狀態304然後不返回,這也和Last-Modified一樣。本人測試Etag主要在斷點下載時比較有用。
  Last-Modified和Etags如何幫助提高效能?
  聰明的開發者會把Last-Modified 和ETags請求的http報頭一起使用,這樣可利用客戶端(例如瀏覽器)的快取。因為伺服器首先產生 Last-Modified/Etag標記,伺服器可在稍後使用它來判斷頁面是否已經被修改。本質上,客戶端通過將該記號傳回伺服器要求伺服器驗證其(客戶端)快取。


過程如下:
1,客戶端請求一個頁面(A)。

2,伺服器返回頁面A,並在給A加上一個Last-Modified/ETag。

3,客戶端展現該頁面,並將頁面連同Last-Modified/ETag一起快取。

4,客戶再次請求頁面A,並將上次請求時伺服器返回的Last-Modified/ETag一起傳遞給伺服器。

5,伺服器檢查該Last-Modified或ETag,並判斷出該頁面自上次客戶端請求之後還未被修改,直接返回響應304和一個空的響應體。

------------------------------------------------------------------------------------------------

正確使用Etag和Expires標識處理,可以使得頁面更加有效被Cache。
在客戶端通過瀏覽器發出第一次請求某一個URL時,根據 HTTP 協議的規定,瀏覽器會向伺服器傳送報頭(Http Request Header),伺服器端響應同時記錄相關屬性標記(Http Reponse Header),伺服器端的返回狀態會是200,格式類似如下:
HTTP/1.1 200 OK
Date: Tue, 03 Mar 2009 04:58:40 GMT
Content-Type: image/jpeg
Content-Length: 83185
Last-Modified: Mon, 22 Nov 2010 16:29:24 GMT
Cache-Control: max-age=2592000

Expires: Thu, 02 Apr 2009 05:14:08 GMT
Etag: "xok.la-961AA72-4CEA99B4415628″客戶端第二次請求此URL時,根據 HTTP 協議的規定,瀏覽器會向伺服器傳送報頭(Http Request Header),伺服器端響應並記錄相關記錄屬性標記檔案沒有發生改動,伺服器端返回304,直接從快取中讀取:
HTTP/1.x 304 Not Modified
Date: Tue, 03 Mar 2009 05:03:56 GMT
Content-Type: image/jpeg
Content-Length: 83185
Last-Modified: Mon, 22 Nov 2010 16:29:24 GMT
Cache-Control: max-age=2592000
Expires: Thu, 02 Apr 2009 05:14:08 GMT
Etag: "xok.la-961AA72-4CEA99B4415628″其中Last-Modified、Expires和Etag是標記頁面快取標識


一、Last-Modified、Expires和Etag相關工作原理
1、Last-Modified
在瀏覽器第一次請求某一個URL時,伺服器端的返回狀態會是200,內容是你請求的資源,同時有一個Last-Modified的屬性標記 (Http Reponse Header)此檔案在服務期端最後被修改的時間,格式類似這樣:
Last-Modified: Mon, 22 Nov 2010 16:29:24 GMT客戶端第二次請求此URL時,根據 HTTP 協議的規定,瀏覽器會向伺服器傳送 If-Modified-Since 報頭(Http Request Header),詢問該時間之後檔案是否有被修改過:
If-Modified-Since: Mon, 22 Nov 2010 16:29:24 GMT如果伺服器端的資源沒有變化,則自動返回 HTTP 304 (NotChanged.)狀態碼,內容為空,這樣就節省了傳輸資料量。當伺服器端程式碼發生改變或者重啟伺服器時,則重新發出資源,返回和第一次請求時類 似。從而保證不向客戶端重複發出資源,也保證當伺服器有變化時,客戶端能夠得到最新的資源。
注:如果If-Modified-Since的時間比伺服器當前時間(當前的請求時間request_time)還晚,會認為是個非法請求
2、Etag工作原理
HTTP 協議規格說明定義ETag為”被請求變數的實體標記” (參見14.19)。簡單點即伺服器響應時給請求URL標記,並在HTTP響應頭中將其傳送到客戶端,類似伺服器端返回的格式:
Etag: "xok.la-961AA72-4CEA99B4415628″客戶端的查詢更新格式是這樣的:
If-None-Match: "xok.la-961AA72-4CEA99B4415628″如果ETag沒改變,則返回狀態304。
即:在客戶端發出請求 後,Http Reponse Header中包含 Etag: “xok.la-961AA72-4CEA99B4415628″
標識,等於告訴Client端,你拿到的這個的資源有表示 ID:xok.la-961AA72-4CEA99B4415628。當下次需要發Request索要同一個 URI的時候,瀏覽器同時發出一個If-None-Match報頭( Http RequestHeader)此時包頭中資訊包含上次訪問得到的Etag: “xok.la-961AA72-4CEA99B4415628″標識。
If-None-Match: "xok.la-961AA72-4CEA99B4415628",這樣,Client端等於Cache了兩份,伺服器端就會比對2者的etag。如果 If- None-Match為False,不返回200,返回304 (Not Modified) Response。
3、Expires
給出的 日期/時間後,被響應認為是過時。如Expires: Thu, 02 Apr 2009 05:14:08 GMT
需和Last-Modified結合使用。用於控制請求檔案的有效時間,當請求資料在有效期內時客 戶端瀏覽器從快取請求資料而不是伺服器端. 當快取中資料失效或過期,才決定從伺服器更新資料。
4、Last-Modified和Expires
Last- Modified標識能夠節省一點頻寬,但是還是逃不掉髮一個HTTP請求出去,而且要和Expires一起用。而Expires標識卻使得瀏覽器乾脆連 HTTP請求都不用發,比如當用戶F5或者點選Refresh按鈕的時候就算對於有Expires的URI,一樣也會發一個HTTP請求出去,所 以,Last-Modified還是要用的,而 且要和Expires一起用。
5、 Etag和Expires
如果伺服器端同時設定了 Etag和Expires 時,Etag原理同樣,即與Last-Modified/Etag對應的HttpRequest Header:If-Modified-Since和If-None-Match。我們可以看到這兩個Header的值和WebServer發出的 Last-Modified,Etag值完全一樣;在完全匹配If-Modified-Since和If-None-Match即檢查完修改時間和 Etag之後,伺服器才能返回304.
6、Last-Modified和Etag
Last-Modified 和ETags請求的http報頭一起使用,伺服器首先產生 Last-Modified/Etag標記,伺服器可在稍後使用它來判斷頁面是否已經被修改,來決定檔案是否繼續快取
過程如下:
1. 客戶端請求一個頁面(A)。
2. 伺服器返回頁面A,並在給A加上一個Last-Modified/ETag。
3. 客戶端展現該頁面,並將頁面連同Last-Modified/ETag一起快取。
4. 客戶再次請求頁面A,並將上次請求時伺服器返回的Last-Modified/ETag一起傳遞給伺服器。
5. 伺服器檢查該Last-Modified或ETag,並判斷出該頁面自上次客戶端請求之後還未被修改,直接返回響應304和一個空的響應體。
注:
1、Last- Modified和Etag頭都是由Web Server發出的Http Reponse Header,Web Server應該同時支援這兩種頭。
2、Web Server傳送完Last-Modified/Etag頭給客戶端後,客戶端會快取這些頭;
3、客戶端再次發起相同頁面的請求時,將分別傳送與Last-Modified/Etag對應的Http RequestHeader:If-Modified-Since和If-None-Match。我們可以看到這兩個Header的值和 WebServer發出的Last-Modified,Etag值完全一樣;
4、 通過上述值到伺服器端檢查,判斷檔案是否繼續快取;

 二、對於非實時互動動態頁面中Expires和Etag處理
對資料更新並不頻繁、如tag分類歸檔等等,可以考慮對其cache。簡單點就是在非實時互動的動 態程式中輸出expires和etag標識,讓其快取。但需要注意關閉session,防止http response時http header包含session id標識;
3.1、Expires
如expires.php
<?php
 
header('Cache-Control: max-age=86400,must-revalidate');
 
header('Last-Modified: ' .gmdate('D, d M Y H:i:s') . ' GMT' );
 
header("Expires: " .gmdate ('D, d M Y H:i:s', time() + '86400′ ). ' GMT');
 
?>以上資訊表示該檔案自請求後24小時後過期。
其他需要處理的動態頁面直接呼叫即可。
3.2、Etag
根據Http返回狀態來處理。當返回304直接從緩 存中讀取
如etag.php
>
cache();
echo date("Y-m-d H:i:s");
function cache()
{
$etag = "";
if ($_SERVER['HTTP_IF_NONE_MATCH'] == $etag)
{
header('Etag:'.$etag,true,304);
exit;
}
else header('Etag:'.$etag);
}
?>