Java爬蟲入門簡介（三）——HttpClient儲存使用Cookie登入

阿新 • • 發佈：2019-01-20

其他爬蟲部落格：

Cookie是瀏覽器儲存儲存使用者資訊的一小段文字，它儲存了使用者的ID等資訊，這些資訊可以被伺服器端識別，並作為標識使用者的手段，以此來判定使用者是不是第一次訪問。網路上有這樣一段解釋，很清楚。

瀏覽器與WEB伺服器之間是使用HTTP協議進行通訊的；而HTTP協議是無狀態協議。也就是說，當某個使用者發出頁面請求時，WEB伺服器只是簡單的進行響應，然後就關閉與該使用者的連線。因此當一個請求傳送到WEB伺服器時，無論其是否是第一次來訪，伺服器都會把它當作第一次來對待，這樣的不好之處可想而知。為了彌補這個缺陷，Netscape開發出了cookie這個有效的工具來儲存某個使用者的識別資訊，它是一種WEB伺服器通過瀏覽器在訪問者的硬碟上儲存資訊的手段。它是伺服器傳送給瀏覽器的體積很小的純文字資訊。

定義：cookie是Web瀏覽器儲存的少量命名資料，它與某個特定的網頁和網站關聯在一起。cookie實際上和某一網站和網頁關聯的，儲存使用者一定資訊的文字檔案。

Cookie是當你瀏覽某網站時，網站儲存在你機器上的一個小文字檔案，它記錄了你的使用者ID，密碼、瀏覽過的網頁、停留的時間等資訊，當你再次來到該網站時，網站通過讀取Cookie，得知你的相關資訊，就可以做出相應的動作，如在頁面顯示歡迎你的標語，或者讓你不用輸入ID、密碼就直接登入等等。

在這篇部落格中，我們將描述在HttpClient 4.X中，如何使用Cookie，儲存Cookie，並利用已登入的Cookie訪問頁面。

首先，在HttpClient 4.X中，使用HttpContext來儲存請求的上下文資訊。說白了，就是用一個類來儲存請求的資訊。比如，如果使用HttpClient請求利用了HttpContext，那麼在請求的時候會帶有HttpContext裡面儲存的一些資訊，如sessionId等。同時，HttpClient請求完了之後也會把從伺服器得到的一些資訊儲存下來，下次請求的時候，使用這個HttpContext就會帶上這次請求所儲存的資訊了。BasicHttpContext裡有個Map物件用來記錄一次請求響應的資訊，當響應資訊返回時，就會被set到context裡，當然響應的cookie資訊也就被儲存在context裡,包括傳回的sessionId。當第二次請求的時候傳入相同的context，那麼請求的過程中會將context裡的sessionId提取出來傳給伺服器，sessionId一樣，自然而然的就是同一個session物件。

下面我們看一個使用HttpContext帶Cookie請求的案例。

package org.hfutec.crawler.main;

import com.google.common.collect.Lists;
import org.apache.http.Header;
import org.apache.http.HttpHeaders;
import org.apache.http.NameValuePair;
import org.apache.http.client.CookieStore;
import org.apache.http.client.HttpClient;
import org.apache.http.client.methods.HttpUriRequest;
import org.apache.http.client.methods.RequestBuilder;
import org.apache.http.client.protocol.HttpClientContext;
import org.apache.http.client.utils.URIBuilder;
import org.apache.http.impl.client.HttpClientBuilder;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.message.BasicHeader;
import org.apache.http.message.BasicNameValuePair;

import java.io.*;
import java.net.URI;
import java.net.URISyntaxException;
import java.util.ArrayList;
import java.util.List;

public class RequestWithCookie {

  public static void main(String[] args) throws URISyntaxException, IOException, ClassNotFoundException {

    //待請求的地址
    String url = "http://www.datalearner.com";

    //請求引數
    List<NameValuePair> loginNV = new ArrayList<>();
    loginNV.add(new BasicNameValuePair("userName", "test"));
    loginNV.add(new BasicNameValuePair("passWord", "test"));

    //構造請求資源地址
    URI uri = new URIBuilder(url).addParameters(loginNV).build();

    //建立一個HttpContext物件，用來儲存Cookie
    HttpClientContext httpClientContext = HttpClientContext.create();

    //構造自定義Header資訊
    List<Header> headerList = Lists.newArrayList();
    headerList.add(new BasicHeader(HttpHeaders.ACCEPT, "text/html,application/xhtml+xml,application/xml;q=0.9," +
            "image/webp,image/apng,*/*;q=0.8"));
    headerList.add(new BasicHeader(HttpHeaders.USER_AGENT, "Mozilla/5.0 (Windows NT 10.0; Win64; x64) " +
            "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36"));
    headerList.add(new BasicHeader(HttpHeaders.ACCEPT_ENCODING, "gzip, deflate"));
    headerList.add(new BasicHeader(HttpHeaders.CACHE_CONTROL, "max-age=0"));
    headerList.add(new BasicHeader(HttpHeaders.CONNECTION, "keep-alive"));
    headerList.add(new BasicHeader(HttpHeaders.ACCEPT_LANGUAGE, "zh-CN,zh;q=0.8,en;q=0.6,zh-TW;q=0.4,ja;q=0.2," +
            "de;q=0.2"));

    //構造自定義的HttpClient物件
    HttpClient httpClient = HttpClients.custom().setDefaultHeaders(headerList).build();

    //構造請求物件
    HttpUriRequest httpUriRequest = RequestBuilder.get().setUri(uri).build();

    //執行請求，傳入HttpContext，將會得到請求結果的資訊
    httpClient.execute(httpUriRequest, httpClientContext);

    //從請求結果中獲取Cookie，此時的Cookie已經帶有登入資訊了
    CookieStore cookieStore = httpClientContext.getCookieStore();

    //這個CookieStore儲存了我們的登入資訊，我們可以先將它儲存到某個本地檔案，後面直接讀取使用
    saveCookieStore(cookieStore,"cookie");

    //下面我們將演示如何使用Cookie來請求，首先我們將之前的Cookie讀出來
    CookieStore cookieStore1 = readCookieStore("cookie");

    //構造一個帶這個Cookie的HttpClient
    HttpClient newHttpClient = HttpClientBuilder.create().setDefaultCookieStore(cookieStore1).build();

    //使用這個新的HttpClient請求就可以了。這時候我們的HttpClient已經帶有了之前的登入資訊，再爬取就不用登入了
    newHttpClient.execute(httpUriRequest, httpClientContext);


  }

  //使用序列化的方式儲存CookieStore到本地檔案，方便後續的讀取使用
  private static void saveCookieStore( CookieStore cookieStore, String savePath ) throws IOException {

    FileOutputStream fs = new FileOutputStream(savePath);
    ObjectOutputStream os =  new ObjectOutputStream(fs);
    os.writeObject(cookieStore);
    os.close();

  }

  //讀取Cookie的序列化檔案，讀取後可以直接使用
  private static CookieStore readCookieStore( String savePath ) throws IOException, ClassNotFoundException {

    FileInputStream fs = new FileInputStream("cookie");//("foo.ser");
    ObjectInputStream ois = new ObjectInputStream(fs);
    CookieStore cookieStore = (CookieStore) ois.readObject();
    ois.close();
    return cookieStore;


  }

}

這就是HttpClient 4.X如何使用Cookie的方式。使用現有的Cookie，其實只要把這個Cookie放到自定義的HttpClient中就行了，很簡單。

其他爬蟲部落格：

Java爬蟲入門簡介（三）——HttpClient儲存使用Cookie登入

Java爬蟲入門簡介（三）——HttpClient儲存使用Cookie登入

Java爬蟲入門簡介（三） —— Jsoup解析HTML頁面

Java爬蟲入門簡介（四）——抓包工具的使用以及使用HttpClient模擬使用者登入的訪問

Java設計模式簡介（三）：行為型模式（上）

爬蟲入門系列（三）：用 requests 構建知乎 API

Java NIO入門學習（三）

WebMagic爬蟲入門教程（三）爬取汽車之家的例項-品牌車系車型結構等

Java爬蟲（三）-- httpClient 模擬登入 + cookie 登入狀態管理

hadoop入門筆記MapReduce簡介（三）

java入門練習題（三）：讀入一組整數（不超過20個），當用戶輸入0時，表示輸入結束；然後程式將從這組整數中，把第二大的整數找出來，並把它打印出來。

JAVA入門學習（三）

ArangoDB入門教程（三）java連線ArangoDB資料庫

小白學 Python 爬蟲（35）：爬蟲框架 Scrapy 入門基礎（三） Selector 選擇器

一個鹹魚的Python爬蟲之路（三）：爬取網頁圖片

java面向對象（三）理論

java高級工程師（三）

Asp.Net Core WebAPI入門整理（三）跨域處理

CodeArt入門教程（三）

JAVA線程同步（三）信號量

容器與Docker簡介（三）Docker相關術語——微軟微服務電子書翻譯系列

Java爬蟲入門簡介（三）——HttpClient儲存使用Cookie登入

相關推薦