Jsoup 爬取頁面的資料和理解HTTP訊息頭

阿新 • • 發佈：2019-01-17

推薦一本書：黑客攻防技術寶典.Web實戰篇；

順便留下一個疑問：是否能通過jsoup大量併發訪問web或者小型域名伺服器，使其癱瘓？其實用jsoup熟悉的朋友可以用它解析url來幹一件很無恥的事（原始碼保密）。呵呵，接下來簡單的介紹下JSOUP。

jsoup 是一款基於Java 的HTML解析器，可直接解析某個URL地址、HTML文字字串、HTML檔案。它提供了一套非常省力的API，可通過DOM，CSS以及類似於jQuery的操作方法來取出和操作資料。

官網下載地址：http://jsoup.org/download，下載core library。匯入專案

1：解析HTML文字字串

/**
* 解析一個html文件。String型別
*/
ublic staticvoid parseStringHtml(String html) {
Document doc = Jsoup.parse(html);//把String轉化成document格式
Elements e=doc.body().getAllElements();//獲取所以body下的節點集
Elements e1=doc.select(”head”);//獲取head 節點集
Element e2=doc.getElementById(”p”);

//獲取html上id=“p”的節點
System.out.println(e1);

2：解析url。這部分是重點，有部分網址不一定都能直接獲取連線。for
example ：CSDN這種域名網站。這種一定要設定訊息頭代理。否則報錯：像HTTP error fetching URL. Status=403。等http狀態異常。具體HTTP狀態返回碼可參照最後部分，或者推薦的那本書

/**
* 通過請求地址獲取html
*/
publicstaticvoid parseRequestUrl(String url) throws

IOException{
Connection con = Jsoup.connect(url);//獲取請求連線
// //瀏覽器可接受的MIME型別。
// con.header(“Accept”, “text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8”);
// con.header(“Accept-Encoding”, “gzip, deflate”);
// con.header(“Accept-Language”, “zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3”);
// con.header(“Connection”, “keep-alive”);
// con.header(“Host”, url);
// con.header(“User-Agent”, “Mozilla/5.0 (Windows NT 6.1; WOW64; rv:26.0) Gecko/20100101 Firefox/26.0”);
Document doc=con.get();
Elements hrefs=doc.select(”a[href=/kff517]”); //節點後面屬性不需要
Elements test=doc.select(”html body div#container div#body div#main div.main div#article_details.details div.article_manage span.link_view”);
System.out.println(hrefs);
System.out.println(test.text());//==.html獲取節點中的文字，類似於js中的方法
}

3：解析一個本地html檔案。這個大同小異，改變下DOCUMENT的獲取方式。

整理了一些關於HTTP 訊息頭資料：

GET /simple.htm HTTP/1.1<CR> —請求方式，請求物件，請求http協議
Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, application/x-shockwave-flash, application/vnd.ms-excel, application/vnd.ms-powerpoint, application/msword, */*<CR> –指瀏覽器能接收的Content-type
Accept-Language: zh-cn<CR> —接收語言
Accept-Encoding: gzip, deflate<CR> –接收編碼
User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)<CR> 本機的相關係資訊，包括瀏覽器型別、作業系統資訊等，很多網站可以顯示出你所使用的瀏覽器和作業系統版本，就是因為可以從這裡獲取到這些資訊。
Host: localhost:8080<CR> 主機和埠，在網際網路上一般指域名
Connection: Keep-Alive<CR> 是否需要持久連線
<CR>

伺服器發回的完整HTTP訊息如下：
HTTP/1.1 200 OK<CR> —HTTP/1.1 表示表示所用的協議。200OK 指伺服器返回的狀態碼，正常返回
Server: Microsoft-IIS/5.1<CR>
X-Powered-By: ASP.NET<CR>
Date: Fri, 03 Mar 2006 06:34:03 GMT<CR>
Content-Type: text/html<CR>
Accept-Ranges: bytes<CR>
Last-Modified: Fri, 03 Mar 2006 06:33:18 GMT<CR>
ETag: “5ca4f75b8c3ec61:9ee”<CR>
Content-Length: 37<CR>
<CR>
<html><body>hello world</body></html>

注意：<CR>是我加上去代表換行的，可以刪掉，沒有意義

HTTP請求頭概述
　　 HTTP客戶程式（例如瀏覽器，向伺服器傳送請求的時候必須指明請求型別（一般是GET或者POST。如必要，客戶程式還可以擇傳送其他的請求頭。大多數請求頭並不是必需的，但Content- Length除外。對於POST請求來說Content-Length必須出現。
　下面是一些最常見的請求頭

　　Accept：瀏覽器可接受的MIME型別。表示我們所用的瀏覽器能接受的Content-type
　　　Accept-Charset：瀏覽器可接受的字符集。
　　　Accept-Encoding：瀏覽器能夠進行解碼的資料編碼方式，比如gzip。Servlet能夠向支援gzip的瀏覽器返回經gzip編碼的HTML頁面。許多情形下這可以減少5到10倍的下載時間。
　　　Accept-Language：瀏覽器所希望的語言種類，當伺服器能夠提供一種以上的語言版本時要用到。
　　　Authorization：授權資訊，通常出現在對伺服器傳送的WWW-Authenticate頭的應答中。
　　　Connection：表示是否需要持久連線。如果Servlet看到這裡的值為”Keep-Alive”，或者看到請求使用的是HTTP 1.1 （HTTP 1.1預設進行持久連線，它就可以利用持久連線的優點，當頁面包含多個元素時（例如Applet，圖片，顯著地減少下載所需要的時間。要實現這一點，Servlet需要在應答中傳送一個Content-Length頭，最簡單的實現方法是：先把內容寫入 ByteArrayOutputStream，然後在正式寫出內容之前計算它的大小。
　　　Content-Length：表示請求訊息正文的長度。
　　　Cookie：這是最重要的請求頭資訊之一
　　　From：請求傳送者的email地址，由一些特殊的Web客戶程式使用，瀏覽器不會用到它。
　　　Host：初始URL中的主機和埠。
　　　If-Modified-Since：只當所請求的內容在指定的日期之後又經過修改才返回它，否則返回304”Not Modified”應答。
　　　Pragma：指定”no-cache”值表示伺服器必須返回一個重新整理後的文件，即使它是代理伺服器而且已經有了頁面的本地拷貝。
　　　Referer：包含一個URL，使用者從該URL代表的頁面出發訪問當前請求的頁面。
　　 User-Agent：瀏覽器型別，如果Servlet返回的內容與瀏覽器型別關則該值非常用。
　　　UA-Pixels，UA-Color，UA-OS，UA-CPU：由某些版本的IE瀏覽器所傳送的非標準的請求頭，表示螢幕大小、顏色深度、作業系統和CPU型別。

        </div>
            </div>

Jsoup 爬取頁面的資料和理解HTTP訊息頭

Jsoup 爬取頁面的資料和理解HTTP訊息頭

python 使用selenium和requests爬取頁面資料

深入理解HTTP訊息頭（一）

理解HTTP訊息頭（二）

理解HTTP訊息頭【很完整，例子也很豐富】

Jsoup爬取table頁面資料

Java爬蟲--利用HttpClient和Jsoup爬取部落格資料並存入資料庫

爬取頁面和審查元素獲取的內容不一致

python 使用selenium和requests爬取頁面數據

根據地理位置和關鍵詞爬取twitter資料並生成詞雲

python爬蟲（3）——python爬取大規模資料的的方法和步驟

Scrapy框架的學習(2.scrapy入門，簡單爬取頁面，並使用管道(pipelines)儲存資料)

利用Jsoup爬取天貓列表頁資料

如何通過jsoup網路爬蟲工具爬取網頁資料,並通過jxl工具匯出到excel

jsoup 爬取資料(一)

爬取攜程和螞蜂窩的景點評論資料\攜程評論資料爬取\旅遊網站資料爬取

jsoup爬取指定網頁的url和圖片

使用jsoup爬取玩Android網站導航資料

使用Java及jsoup爬取鏈家北京二手房房價資料

scrapy爬取海量資料並儲存在MongoDB和MySQL資料庫中

Jsoup 爬取頁面的資料和 理解HTTP訊息頭

相關推薦

Jsoup 爬取頁面的資料和理解HTTP訊息頭