android網路通訊之-Http(Android操作HTTP實現與伺服器通訊)
一、HTTP協議簡介
HTTP是一個屬於應用層的面向物件的協議,由於其簡捷、快速的方式,適用於分散式超媒體資訊系統。它於1990年提出,經過幾年的使用與發展,得到不斷地完善和擴充套件。目前在WWW中使用的是HTTP/1.0的第六版,
HTTP協議的主要特點可概括如下:
1.支援客戶/伺服器模式。
2.簡單快速:客戶向伺服器請求服務時,只需傳送請求方法和路徑。請求方法常用的有GET、HEAD、POST。每種方法規定了客戶與伺服器聯絡的型別不同。由於HTTP協議簡單,使得HTTP伺服器的程式規模小,因而通訊速度很快。
3.靈活:HTTP允許傳輸任意型別的資料物件。正在傳輸的型別由Content-Type加以標記。
4.無連線:無連線的含義是限制每次連線只處理一個請求。伺服器處理完客戶的請求,並收到客戶的應答後,即斷開連線。採用這種方式可以節省傳輸時間。
5.無狀態:HTTP協議是無狀態協議。無狀態是指協議對於事務處理沒有記憶能力。缺少狀態意味著如果後續處理需要前面的資訊,則它必須重傳,這樣可能導致每次連線傳送的資料量增大。另一方面,在伺服器不需要先前資訊時它的應答就較快。
1.1 URL
HTTP URL (URL是一種特殊型別的URI,包含了用於查詢某個資源的足夠的資訊)的格式如下:
http表示要通過HTTP協議來定位網路資源;
host表示合法的Internet主機域名或者IP地址;
port指定一個埠號,為空則使用預設埠80;
abs_path指定請求資源的URI;
注:如果URL中沒有給出abs_path,那麼當它作為請求URI時,必須以“/”的形式給出,通常這個工作瀏覽器自動幫我們完成。
例如:
1、輸入:
瀏覽器自動轉換成:http://www.guet.edu.cn/2
2、http:192.168.0.116:8080/index.jsp
1.2 請求
http請求由三部分組成,分別是:請求行、訊息報頭、請求正文。
1.2.1 請求行
請求行以一個方法符號開頭,以空格分開,後面跟著請求的URI和協議的版本,格式如下:
Method Request-URI HTTP-Version CRLF
其中:
Method表示請求方法;
Request-URI是一個統一資源識別符號;
HTTP-Version表示請求的HTTP協議版本;
CRLF表示回車和換行(除了作為結尾的CRLF外,不允許出現單獨的CR或LF字元)。
例如:
POST /hello.htm HTTP/1.1(“/r/n”)
1) 請求方法:
請求方法(所有方法全為大寫)有多種,各個方法的解釋如下:
GET 請求獲取Request-URI所標識的資源
POST 在Request-URI所標識的資源後附加新的資料
HEAD 請求獲取由Request-URI所標識的資源的響應訊息報頭
PUT 請求伺服器儲存一個資源,並用Request-URI作為其標識
DELETE 請求伺服器刪除Request-URI所標識的資源
TRACE 請求伺服器回送收到的請求資訊,主要用於測試或診斷
CONNECT 保留將來使用
OPTIONS 請求查詢伺服器的效能,或者查詢與資源相關的選項和需求
2) Request-URI:
用於標識要訪問的網路資源。通常只要給出相對於伺服器的根目錄的相對目錄即可,因此以“/”開頭。
3) 協議版本。
1.2.2 訊息報頭
HTTP訊息由客戶端到伺服器的請求和伺服器到客戶端的響應組成。請求訊息和響應訊息都是由開始行(對於請求訊息,開始行就是請求行,對於響應訊息,開始行就是狀態行),訊息報頭(可選),空行(只有CRLF的行),訊息正文(可選)組成。
1) 普通報頭:
在普通報頭中,有少數報頭域用於所有的請求和響應訊息,但並不用於被傳輸的實體,只用於傳輸的訊息。
Cache-Control:用於指定快取指令,快取指令是單向的(響應中出現的快取指令在請求中未必會出現),且是獨立的(一個訊息的快取指令不會影響另一個訊息處理的快取機制),HTTP1.0使用的類似的報頭域為Pragma。
請求時的快取指令包括:no-cache(用於指示請求或響應訊息不能快取)、no-store、max-age、max-stale、min-fresh、only-if-cached;
響應時的快取指令包括:public、private、no-cache、no-store、no-transform、must-revalidate、proxy-revalidate、max-age、s-maxage 。
Date:普通報頭域表示訊息產生的日期和時間。
Connection:普通報頭域允許傳送指定連線的選項。例如指定連線是連續,或者指定“close”選項,通知伺服器,在響應完成後,關閉連線。
2) 請求報頭:
允許客戶端向伺服器端傳遞請求的附加資訊以及客戶端自身的資訊。常用的請求報頭如下:
Accept:
Accept請求報頭域用於指定客戶端接受哪些型別的資訊。eg:Accept:image/gif,表明客戶端希望接受GIF圖象格式的資源;Accept:text/html,表明客戶端希望接受html文字。
Accept-Charset:
Accept-Charset請求報頭域用於指定客戶端接受的字符集。eg:Accept-Charset:iso-8859-1,gb2312.如果在請求訊息中沒有設定這個域,預設是任何字符集都可以接受。
Accept-Encoding:
Accept-Encoding請求報頭域類似於Accept,但是它是用於指定可接受的內容編碼。eg:Accept-Encoding:gzip.deflate.如果請求訊息中沒有設定這個域伺服器假定客戶端對各種內容編碼都可以接受。
Accept-Language:
Accept-Language請求報頭域類似於Accept,但是它是用於指定一種自然語言。eg:Accept-Language:zh-cn.如果請求訊息中沒有設定這個報頭域,伺服器假定客戶端對各種語言都可以接受。
Authorization:
Authorization請求報頭域主要用於證明客戶端有權檢視某個資源。當瀏覽器訪問一個頁面時,如果收到伺服器的響應程式碼為401(未授權),可以傳送一個包含Authorization請求報頭域的請求,要求伺服器對其進行驗證。
Host(傳送請求時,該報頭域是必需的):
Host請求報頭域主要用於指定被請求資源的Internet主機和埠號,它通常從HTTP URL中提取出來的。
eg:我們在瀏覽器中輸入:http://www.guet.edu.cn/index.html。瀏覽器傳送的請求訊息中,就會包含Host請求報頭域,如下:
Host:www.guet.edu.cn
此處使用預設埠號80,若指定了埠號,則變成:Host:www.guet.edu.cn:指定埠號
User-Agent:
我們上網登陸論壇的時候,往往會看到一些歡迎資訊,其中列出了你的作業系統的名稱和版本,你所使用的瀏覽器的名稱和版本,這往往讓很多人感到很神奇,實際上,伺服器應用程式就是從User-Agent這個請求報頭域中獲取到這些資訊。User-Agent請求報頭域允許客戶端將它的作業系統、瀏覽器和其它屬性告訴伺服器。不過,這個報頭域不是必需的,如果我們自己編寫一個瀏覽器,不使用User-Agent請求報頭域,那麼伺服器端就無法得知我們的資訊了。
請求報頭舉例:
GET /form.html HTTP/1.1 (CRLF)
Accept:image/gif,image/x-xbitmap,image/jpeg,application/x-shockwave-flash,application/vnd.ms-excel,application/vnd.ms-
powerpoint,application/msword,*/* (CRLF)
Accept-Language:zh-cn (CRLF)
Accept-Encoding:gzip,deflate (CRLF)
If-Modified-Since:Wed,05 Jan 2007 11:21:25 GMT (CRLF)
If-None-Match:W/"80b1a4c018f3c41:8317" (CRLF)
User-Agent:Mozilla/4.0(compatible;MSIE6.0;Windows NT 5.0) (CRLF)
Host:www.guet.edu.cn (CRLF)
Connection:Keep-Alive (CRLF)
(CRLF)
3) 響應報頭:
響應報頭允許伺服器傳遞不能放在狀態行中的附加響應資訊,以及關於伺服器的資訊和對Request-URI所標識的資源進行下一步訪問的資訊。
常用的響應報頭:
Location:
Location響應報頭域用於重定向接受者到一個新的位置。Location響應報頭域常用在更換域名的時候。
Server:
Server響應報頭域包含了伺服器用來處理請求的軟體資訊。與User-Agent請求報頭域是相對應的。下面是Server響應報頭域的一個例子:
Server:Apache-Coyote/1.1
WWW-Authenticate:
WWW-Authenticate響應報頭域必須被包含在401(未授權的)響應訊息中,客戶端收到401響應訊息時候,併發送Authorization報頭域請求伺服器對其進行驗證時,服務端響應報頭就包含該報頭域。eg:WWW-Authenticate:Basic realm="Basic Auth Test!" //可以看出伺服器對請求資源採用的是基本驗證機制。
4) 實體報頭:
請求和響應訊息都可以傳送一個實體。一個實體由實體報頭域和實體正文組成,但並不是說實體報頭域和實體正文要在一起傳送,可以只發送實體報頭域。實體報頭定義了關於實體正文(eg:有無實體正文)和請求所標識的資源的元資訊。
常用的實體報頭:
Content-Encoding:
Content-Encoding實體報頭域被用作媒體型別的修飾符,它的值指示了已經被應用到實體正文的附加內容的編碼,因而要獲得Content-Type報頭域中所引用的媒體型別,必須採用相應的解碼機制。Content-Encoding這樣用於記錄文件的壓縮方法。eg:Content-Encoding:gzip
Content-Language:
Content-Language實體報頭域描述了資源所用的自然語言。沒有設定該域則認為實體內容將提供給所有的語言閱讀者。eg:Content-Language:da
Content-Length:
Content-Length實體報頭域用於指明實體正文的長度,以位元組方式儲存的十進位制數字來表示。
Content-Type:
Content-Type實體報頭域用語指明發送給接收者的實體正文的媒體型別。eg:Content-Type:text/html;charset=ISO-8859-1、Content-Type:text/html;charset=GB2312
Last-Modified:
Last-Modified實體報頭域用於指示資源的最後修改日期和時間。
Expires:
Expires實體報頭域給出響應過期的日期和時間。為了讓代理伺服器或瀏覽器在一段時間以後更新快取中(再次訪問曾訪問過的頁面時,直接從快取中載入,縮短響應時間和降低伺服器負載)的頁面,我們可以使用Expires實體報頭域指定頁面過期的時間。eg:Expires:Thu,15 Sep 2006 16:23:12 GMT
HTTP1.1的客戶端和快取必須將其他非法的日期格式(包括0)看作已經過期。eg:為了讓瀏覽器不要快取頁面,我們也可以利用Expires實體報頭域,設定為0,jsp中程式如下:response.setDateHeader("Expires","0");
1.3 響應
在接收和解釋請求訊息後,伺服器返回一個HTTP響應訊息。HTTP響應也是由三個部分組成,分別是:狀態行、訊息報頭、響應正文。
主要說一下狀態行。狀態行格式如下:
HTTP-Version Status-Code Reason-Phrase CRLF
其中:
HTTP-Version表示伺服器HTTP協議的版本;
Status-Code表示伺服器發回的響應狀態程式碼;
Reason-Phrase表示狀態程式碼的文字描述。
狀態程式碼有三位數字組成,第一個數字定義了響應的類別,且有五種可能取值:
1xx:指示資訊--表示請求已接收,繼續處理
2xx:成功--表示請求已被成功接收、理解、接受
3xx:重定向--要完成請求必須進行更進一步的操作
4xx:客戶端錯誤--請求有語法錯誤或請求無法實現
5xx:伺服器端錯誤--伺服器未能實現合法的請求
常見狀態程式碼、狀態描述、說明:
200 OK //客戶端請求成功
400 Bad Request //客戶端請求有語法錯誤,不能被伺服器所理解
401 Unauthorized //請求未經授權,這個狀態程式碼必須和WWW-Authenticate報頭域一起使用
403 Forbidden //伺服器收到請求,但是拒絕提供服務
404 Not Found //請求資源不存在,eg:輸入了錯誤的URL
500 Internal Server Error //伺服器發生不可預期的錯誤
503 Server Unavailable //伺服器當前不能處理客戶端的請求,一段時間後,可能恢復正常
eg:HTTP/1.1 200 OK (CRLF)
二、HTTP協議之下載
在瞭解了HTTP協議的基本規則之後,我們就可以將其應用於檔案的下載了。這一節將介紹的是,通過HTTP協議下載的原理。
2.1 檔案請求
向伺服器傳送如下請求:
GET /Path/FileName HTTP/1.0
Host: www.server.com:80
Accept: */*
User-Agent: GeneralDownloadApplication
Connection: close
每行用一個“回車換行”分隔,末尾再追加一個“回車換行”作為整個請求的結束。
Host欄位表示主機名和埠號,如果埠號是預設的80則可以不寫。
Accept欄位中的*/*表示接收任何型別的資料。
User-Agent表示使用者代理,這個欄位可有可無,但強烈建議加上,因為它是伺服器統計、追蹤以及識別客戶端的依據。
Connection欄位中的close表示使用非持久連線。
2.2 伺服器應答
如果伺服器成功收到該請求,並且沒有出現任何錯誤,則會返回類似下面的資料:
HTTP/1.0 200 OK
Content-Length: 13057672
Content-Type: application/octet-stream
Last-Modified: Wed, 10 Oct 2005 00:56:34 GMT
Accept-Ranges: bytes
ETag: "2f38a6cac7cec51:160c"
Server: Microsoft-IIS/6.0
X-Powered-By: ASP.NET
Date: Wed, 16 Nov 2005 01:57:54 GMT
Connection: close
Content-Length欄位是一個比較重要的欄位,它標明瞭伺服器返回資料的長度,這個長度是不包含HTTP頭長度的。換句話說,我們的請求中並沒有Range欄位(後面會說到),表示我們請求的是整個檔案,所以Content-Length就是整個檔案的大小。其餘各欄位是一些關於檔案和伺服器的屬性資訊。
這段返回資料同樣是以最後一行的結束標誌(回車換行)和一個額外的回車換行作為結束,即“\r\n\r\n”。而“\r\n\r\n”後面緊接的就是檔案的內容了,這樣我們就可以找到“\r\n\r\n”,並從它後面的第一個位元組開始,源源不斷的讀取,再寫到檔案中了。
2.3 斷點續傳
斷點續傳的實現非常簡單,只要在請求中加一個Range欄位就可以了。假如一個檔案有1000個位元組,那麼其範圍就是0-999,則:
Range: bytes=500- 表示讀取該檔案的500-999位元組,共500位元組。
Range: bytes=500-599 表示讀取該檔案的500-599位元組,共100位元組。
Range還有其它幾種寫法,但上面這兩種是最常用的,對於斷點續傳也足矣了。如果HTTP請求中包含Range欄位,那麼伺服器會返回206(Partial Content),同時HTTP頭中也會有一個相應的Content-Range欄位,類似下面的格式:
Content-Range: bytes 500-999/1000
Content-Range欄位說明伺服器返回了檔案的某個範圍及檔案的總長度。這時Content-Length欄位就不是整個檔案的大小了,而是對應檔案這個範圍的位元組數,這一點一定要注意。
2.4 重定向
很多軟體下載網站的檔案下載連結都是通過程式重定向的,比如pchome的ACDSee的HTTP下載地址是:
這種地址並沒有直接標識檔案的位置,而是通過程式進行了重定向。如果向伺服器請求這樣的URL,伺服器就會返回302(Moved Temporarily),意思就是需要重定向,同時在HTTP頭中會包含一個Location欄位,Location欄位的值就是重定向後的目的URL。這時就需要斷開當前的連線,而向這個重定向後的伺服器發請求。
Android中提供的HttpURLConnection和HttpClient介面可以用來開發HTTP程式。以下是本人在學習中的總結與歸納。
三、HttpClient介面
雖然在 JDK 的 java.net 包中已經提供了訪問 HTTP 協議的基本功能,但是對於大部分應用程式來說,JDK 庫本身提供的功能還不夠豐富和靈活。HttpClient 是 Apache Jakarta Common 下的子專案,用來提供高效的、最新的、功能豐富的支援 HTTP 協議的客戶端程式設計工具包,並且它支援 HTTP 協議最新的版本和建議。HttpClient 已經應用在很多的專案中,比如 Apache Jakarta 上很著名的另外兩個開源專案 Cactus 和 HTMLUnit 都使用了 HttpClient。HttpClient 專案非常活躍,使用的人還是非常多的。目前 HttpClient 版本是在 2005.10.11 釋出的 3.0 RC4 。
HttpClient的主要功能有以下一些:
1) 實現了所有 HTTP 的方法(GET,POST,PUT,HEAD 等);
2) 支援自動轉向;
3) 支援 HTTPS 協議;
4) 支援代理伺服器等。
3.1 環境搭建及所需包
需要Java開發環境JDK,需要可以訪問網路。Android程式需要有“android.permission.INTERNET”的permission。
所需包:
1、commons-httpclient-3.1.jar: 包括Http協議所需的類。
2、commons-logging-1.1.jar: 包括記錄程式執行時的活動日誌記錄的類。
3、commons-codec-1.3.jar: 包括編碼解碼的類。
這些包都是Apache的開源專案,可以在Apache開源組織官網http://www.apache.org/上找到。
3.2 HttpClient實現HTTP協議基本通訊操作
在實現所有操作之前必須首先例項化一個HttpClient,即初始化一個客戶端。
HttpClient client =new HttpClient();
3.2.1 請求
以GET請求為例。
a、例項化一個請求方法。
注:
① 雖然Google已經將伺服器搬出了大陸,但是HttpClient可實現自動轉向,即自動重定向。所以當伺服器返回的狀態程式碼為3××時,將自動重定向,知道到達檔案實際位置)。
② GetMethod建構函式中的字串表示的是檔案的URI地址。這裡只是因為之前沒有指定伺服器主機地址,所以需要完整名。其實也可以這樣:
……
HttpMethod method =new GetMethod("/simcard.php?simcard=1330227");
b、新增需要的訊息報頭資訊。
HttpClient會構建必須的訊息報頭資訊,如果沒有特殊要求可以不用修改。但如果需要在訊息報頭新增一些特殊資訊,例如下載時需要斷點續傳等,則可用上述方法修改。
c、發出請求(執行命令)。
此時,程式實際向伺服器發出請求,連線成功後,函式返回,返回值為狀態程式碼。
接上例。
a、返回狀態程式碼。
上例中的“statusCode”即為狀態程式碼。除此方法之外,還可以:
int statusCode = method.getStatusCode(); 注:在httpclient的包中有一個名為“HttpStatus”類,其中定義了大多數的狀態程式碼。如:
HttpStatus.SC_OK
HttpStatus.SC_FORBIDDEN 等。
b、響應報頭。
Header[] headers = method.getResponseHeaders(); 獲取所有伺服器端返回的響應報頭。
Header header = method.getRequestHeader("Content-Type"); 獲取響應報頭中指定的鍵值對。
之後可以通過呼叫header.getName()、header.getValue()來得到相關資訊。
c、響應正文。
byte[] bytes = method.getResponseBody();
InputStream inputStream = method.getResponseBodyAsStream(); String string = method.getResponseBodyAsString();
以上三種方法,視情況選用。
3.2.3 斷開連線
method.releaseConnection();
斷開連線。
3.2.4 其他
其他包括一些和下載無關,但卻非常基本和有用的東西
a、POST資料。
POST請求和GET請求大致相同,唯一需要注意的是,如何在POST資訊中加入自己所需傳輸的資訊。
postMethod.setRequestBody(InputStream body); postMethod.setRequestBody(NameValuePair[] parameterBody); postMethod.setRequestBody(String body);
b、代理伺服器。
只需指定httpClient的例項的代理就可以了,基於此例項的所有操作將經由此代理。
c、字元編碼。
某目標頁的編碼可能出現在兩個地方:
第一個地方是伺服器返回的http頭中(RequestHeader的Content-Type、Content-Encoding欄位);
另外一個地方是得到的html/xml頁面中。如:
<meta http-equiv="Content-Type" content="text/html; charset=gb2312"/>
或者 <?xml version="1.0" encoding="gb2312"?>
d、自動跳轉。
HttpClient對GET請求可實現自動跳轉。但是對於POST和PUT請求要求接受後繼服務的,暫不支援自動跳轉。
當伺服器返回的狀態程式碼為3××時,需要根據訊息報頭的“Location”欄位的地址來實現跳轉。注意,“Location”欄位的地址可能是相對地址,需要自己進行處理。
還有一種可能就是在頁面中實現的跳轉。例如,在HTML中,<meta http-equiv="refresh" content="5; url=http://www.ibm.com/us">。