Java爬蟲入門簡介（三） —— Jsoup解析HTML頁面

上一篇部落格我們已經介紹瞭如何使用HttpClient模擬客戶端請求頁面了。這一篇部落格我們將描述如何解析獲取到的頁面內容。

上一節我們獲取了 http://www.datalearner.com/blog_list 頁面的HTML原始碼，但是這些原始碼是提供給瀏覽器解析用的，我們需要的資料其實是頁面上部落格的標題、作者、簡介、釋出日期等。我們需要通過一種方式來從HTML原始碼中解析出這類資訊並提取，然後存到文字或者資料庫之中。在這篇部落格中，我們將介紹使用Jsoup包幫助我們解析頁面，提取資料。

Jsoup是一款Java的HTML解析器，可以直接解析某個URL地址，也可以解析HTML內容。其主要的功能包括解析HTML頁面，通過DOM或者CSS選擇器來查詢、提取資料，可以更改HTML內容。Jsoup的使用方式也很簡單，使用Jsoup.parse(String str)方法將之前我們獲取到的HTML內容進行解析得到一個Documend類，剩下的工作就是從Document中選擇我們需要的資料了。舉個例子，假設我們有個HTML頁面的內容如下：

<html>
<divid="blog_list">
<divclass="blog_title">
<ahref="url1">第一篇部落格</a>
</div>
<divclass="blog_title">
<ahref="url2">第二篇部落格</a>
</div>
<divclass="blog_title">
<ahref="url3">第三篇部落格</a>
</div>
</div>
</html>

通過Jsoup我們可以把上面的三篇部落格的標題提取到一個List中。使用方法如下：

首先，我們通過maven把Jsoup引入進來


<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.10.3</version>
</dependency>

然後編寫Java進行解析。

package org.hfutec.example;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.util.ArrayList;
import java.util.List;
/*******
* created by DuFei at 2017.08.25 21:00
* web crawler example
* ******/
publicclassDataLearnerCrawler{
publicstaticvoid main(String[] args){
List<String> titles =newArrayList<String>();
List<String> urls =newArrayList<String>();
//假設我們獲取的HTML的字元內容如下
String html ="<html><div id=\"blog_list\"><div class=\"blog_title\"><a href=\"url1\">第一篇部落格</a></div><div class=\"blog_title\"><a href=\"url2\">第二篇部落格</a></div><div class=\"blog_title\"><a href=\"url3\">第三篇部落格</a></div></div></html>";
//第一步，將字元內容解析成一個Document類
Document doc =Jsoup.parse(html);
//第二步，根據我們需要得到的標籤，選擇提取相應標籤的內容
Elements elements = doc.select("div[id=blog_list]").select("div[class=blog_title]");
for(Element element : elements ){
String title = element.text();
titles.add(title);
urls.add(element.select("a").attr("href"));
}
//輸出測試
for(String title : titles ){
System.out.println(title);
}
for(String url : urls ){
System.out.println(url);
}
}
}

我們簡單說明一下Jsoup的解析過程。首先第一步都是呼叫parse()方法將字元物件變成一個Document物件，然後我們對這個物件進行操作。一般提取資料就是根據標籤選擇資料，使用select()方法語法格式和 javascript/css 選擇器都是一樣的。一般都是提取某個標籤，其屬性值為指定內容。得到的結果是一個Element的集合，為Elements（因為符合條件的標籤可能很多，所以結果是一個集合）。select()方法可以一直進行下去，直到選擇到我們想要的標籤集合為止（注意，我們並不一定要按照標籤層級一級一級往下選，可以直接寫select()方法到我們需要的標籤的上一級，比如這裡的示例程式碼可以直接寫成 Elements elements = doc.select(“div[class=blog_title]”); 其效果是一樣的）。對於選擇到的Elements的集合，我們可以通過迴圈的方式提取每一個需要的資料，比如，我們需要拿到標籤的文字資訊，就可以使用text()方法，如果我們需要拿到對應的HTML屬性資訊，我們可以使用attr()方法。我們可以看到上述方法的輸出結果如下：

一個例項

我們接著上一個爬取資料學習官方網站部落格列表的例子講解一個例項。我們已經知道可以使用Jsoup來解析爬取到的HTML頁面內容。那麼如何檢視我們需要的內容對應的標籤呢？以Chrome瀏覽器為例，我們需要爬取 http://www.datalearner.com/blog_list 這個頁面的的部落格，首先用Chrome瀏覽器開啟這個網址，然後滑鼠右鍵單擊部落格的標題，點選“檢查”就可以得到HTML頁面了。如下圖所示。

圖2 右鍵單擊標題

圖3 點選所在元素的父級元素邊上的小三角，收起程式碼檢視

圖4 確認當前部落格的HTML程式碼的一致性

通過上述操作之後，我們已經可以看到，所有的部落格的標題等資訊都存在class=card的div裡面了。於是，我們只要關注這個標籤裡面的內容是如何組織的，就可以了。如下圖所示，我們需要的資訊所屬的標籤，通過點選小三角展開就能得到了。

因此，解析部落格列表的程式碼可以寫成如下形式了。

package org.hfutec.example;
import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
/*******
* created by DuFei at 2017.08.25 21:00
* web crawler example
* ******/
publicclassDataLearnerCrawler{
publicstaticvoid main(String[] args){
String url ="http://www.datalearner.com/blog_list";
String rawHTML =null;
try{
rawHTML = getHTMLContent(url);
}catch(IOException e){
e.printStackTrace();
}
//將當前頁面轉換成Jsoup的Document物件
Document doc =Jsoup.parse(rawHTML);
//獲取所有的部落格列表集合
Elements blogList = doc.select("div[class=card]");
//針對每個部落格內容進行解析，並輸出
for(Element element : blogList ){
String title = element.select("h4[class=card-title]").text();
String introduction = element.select("p[class=card-text]").text();
String author = element.select("span[class=fa fa-user]").text();
System. 相關推薦 Java爬蟲入門簡介（三） —— Jsoup解析HTML頁面上一篇部落格我們已經介紹瞭如何使用HttpClient模擬客戶端請求頁面了。這一篇部落格我們將描述如何解析獲取到的頁面內容。上一節我們獲取了 http://www.datalearner.com/blog_list 頁面的HTML原始碼，但是這些原始碼是提供給瀏覽器解析用的， Java爬蟲入門簡介（三）——HttpClient儲存使用Cookie登入其他爬蟲部落格： Cookie是瀏覽器儲存儲存使用者資訊的一小段文字，它儲存了使用者的ID等資訊，這些資訊可以被伺服器端識別，並作為標識使用者的手段，以此來判定使用者是不是第一次訪問。網路上有這樣一段解釋，很清楚。瀏覽器與WEB伺服器之間是使用H Java爬蟲入門簡介（四）——抓包工具的使用以及使用HttpClient模擬使用者登入的訪問網路爬蟲需要解決的一個重要的問題就是要針對某些需要使用者名稱和密碼訪問的頁面可以模擬使用者自動登入。在這一篇部落格中我們將介紹如何使用Chrome瀏覽器自帶的抓包工具分析頁面並模擬使用者自動登入。我們會以CSDN的使用者登入為例，講述如何使用抓包工具獲取登入 Java設計模式簡介（三）：行為型模式（上）本章講到第三種設計模式——行為型模式，共11種：策略模式、模板方法模式、觀察者模式、迭代子模式、責任鏈模式、命令模式、備忘錄模式、狀態模式、訪問者模式、中介者模式、直譯器模式。先來張圖，看看這11中模式的關係：第一類：通過父類與子類的關係進行實現。第二類：兩個類之間。第三類：類的狀態。第爬蟲入門系列（三）：用 requests 構建知乎 API 爬蟲入門系列目錄：在爬蟲系列文章優雅的HTTP庫requests 中介紹了 requests 的使用方式，這一次我們用 requests 構建一個知乎 API，功能包括：私信傳送、文章點贊、使用者關注等，因為任何涉及使用者操作的功能都需要登入後才操作，所以在閱讀這篇文章前建議先了解 Java NIO入門學習（三）在上一篇中介紹了緩衝區的原理，下面來介紹NIO中另一個核心物件選擇器（Selector）以及NIO的原理。在Client/Server模型中，Server往往需要同時處理大量來自Client的訪問請求，因此Server端需採用支援高併發訪問的架構。一種簡單而又直接的解決方 WebMagic爬蟲入門教程（三）爬取汽車之家的例項-品牌車系車型結構等本文使用WebMagic爬取汽車之家的品牌車系車型結構價格能源產地國別等；java程式碼備註，只是根據url變化爬取的，沒有使用爬取script頁面具體的資料，也有反爬機制，知識簡單爬取html標籤爬取的網頁：需要配置pom.xml <!- SpringBoot入門系列（三）---檢視解析 SpirngBoot – html 靜態訪問 springboot 預設靜態資源路徑 src/main/resource/static 在static下新增 a.html < hadoop入門筆記MapReduce簡介（三） today 信息編程模型 cut 大型狀態參數 dfs 好處 . MapReduce基本編程模型和框架 1.1 MapReduce抽象模型大數據計算的核心思想是：分而治之。如下圖1所示。把大量的數據劃分開來，分配給各個子任務來完成。再將結果合並到一起輸出。註：如果 java入門練習題（三）：讀入一組整數（不超過20個），當用戶輸入0時，表示輸入結束；然後程式將從這組整數中，把第二大的整數找出來，並把它打印出來。程式意義：讀入一組整數（不超過20個），當用戶輸入0時，表示輸入結束；然後程式將從這組整數中，把第二大的整數找出來，並把它打印出來。說明：（1）0表示輸入結束，它本身並不計入這組整數中。（2）在這組整數中，既有整數又有負數； JAVA入門學習（三） 3.編寫HelloWorld程式編寫Java程式的步驟：編輯原始碼，編譯，執行。 3.1.編寫原始碼任何文字編輯器都可以編寫Java原始碼。 3.2.編譯使用javac命令 3.3.執行 ArangoDB入門教程（三）java連線ArangoDB資料庫（一）說明和其他noSQL差不多，java連線ArangoDB也是大同小異的。確保ArangoDB資料庫的服務已經開啟就好。（二）程式碼例項小白學 Python 爬蟲（35）：爬蟲框架 Scrapy 入門基礎（三） Selector 選擇器人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門小白學 Pyth 一個鹹魚的Python爬蟲之路（三）：爬取網頁圖片 you os.path odin 路徑生成存在 parent lose exist 學完Requests庫與Beautifulsoup庫我們今天來實戰一波，爬取網頁圖片。依照現在所學只能爬取圖片在html頁面的而不能爬取由JavaScript生成的圖。所以我找了這個網站 java面向對象（三）理論 ont def 三種類的繼承設置一定的命名類型以及面向對象的基本特性封裝　　封裝性就是盡可能的隱藏對象內部細節，對外形成一道邊界，只保留有限的接口和方法與外界進行交互。封裝的原則是使對象以外的部分不能隨意的訪問和操作對象的內部屬性，從而避免了外界對對象內部 java高級工程師（三）基礎自信心分布式緩存基於 nlog 知識點個人理解數據有時一、獨白之前也面試別人，現在輪到自己找工作，怎麽說呢，每個面試官的看法不一樣，面試的方式就不一樣，比如我面試別人我喜歡問項目中他用到了那些，然後針對用到的技術去問一些問題，或者說對於某些場景 Asp.Net Core WebAPI入門整理（三）跨域處理使用所有 ble 允許需要 public cors 項目 listitem 一、Core WebAPI中的跨域處理 1.在使用WebAPI項目的時候基本上都會用到跨域處理 2.Core WebAPI的項目中自帶了跨域Cors的處理，不需要單獨添加程序包 3.使用方 CodeArt入門教程（三） pan center account 根據領域對象保存顏色單一職責原則用例 5.領域模型設計　　下面我們創建賬戶子系統（AccountSubsystem），賬戶子系統雖然被門戶服務使用，但是子系統本身是獨立於任何服務存在的。所以我們為賬戶子系統創建獨立的項目解決 JAVA線程同步（三）信號量 ole 給定如何 package 分配 exec 大量復制代碼離開一個信號量有且僅有3種操作，且它們全部是原子的：初始化、增加和減少增加可以為一個進程解除阻塞；減少可以讓一個進程進入阻塞。信號量維護一個許可集，若有必要，會在獲得許可之前阻塞每一個線程：容器與Docker簡介（三）Docker相關術語——微軟微服務電子書翻譯系列進程數據 public 圖像 over 表示 -c ice ner 本節列出了在更加深入Docker之前應該熟悉的術語和定義。有關詳細的定義，請參閱Docker提供的術語表。容器鏡像（Container image）：具有創建容器所需要的所有依賴和信息的包。鏡像

Java爬蟲入門簡介（三） —— Jsoup解析HTML頁面

一個例項

相關推薦