1. 程式人生 > >Java爬蟲-使用HttpClient+Jsoup實現簡單的爬蟲爬取文字

Java爬蟲-使用HttpClient+Jsoup實現簡單的爬蟲爬取文字

##一、工具介紹
  HttpClient是Apache Jakarta Common下的子專案,用來提供高效的、最新的、功能豐富的支援HTTP協議的客戶端程式設計工具包,並且它支援HTTP協議最新的版本和建議。HttpClient已經應用在很多的專案中,比如Apache Jakarta上很著名的另外兩個開源專案Cactus和HTMLUnit都使用了HttpClient。
HttpClient下載地址:http://hc.apache.org/downloads.cgi
  Jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API,可通過DOM,CSS以及類似於jQuery的操作方法來取出和操作資料。
Jsoup下載地址:

https://jsoup.org/download
##二、使用方法
1.HttpClient的使用步驟:
(1) 建立HttpClient物件;
(2) 建立請求方法的例項,並指定請求URL。如果需要傳送GET請求,建立HttpGet物件;如果需要傳送POST請求,建立HttpPost物件;
(3) 如果需要傳送請求引數,可呼叫HttpGet、HttpPost共同的setParams(HetpParams params)方法來新增請求引數;對於HttpPost物件而言,也可呼叫setEntity(HttpEntity entity)方法來設定請求引數;
(4) 呼叫HttpClient物件的execute(HttpUriRequest request)傳送請求,該方法返回一個HttpResponse;
(5) 呼叫HttpResponse的getAllHeaders()、getHeaders(String name)等方法可獲取伺服器的響應頭;呼叫HttpResponse的getEntity()方法可獲取HttpEntity物件,該物件包裝了伺服器的響應內容。程式可通過該物件獲取伺服器的響應內容;
(6) 釋放連線。無論執行方法是否成功,都必須釋放連線;
2.Jsoup的常用方法(Jsoup很強大,我只列出來一部分):

| 類| 方法 | 作用
| :---------