.NetCore實踐爬蟲系統（一）解析網頁內容

阿新 • • 發佈：2018-12-12

爬蟲系統的意義

爬蟲的意義在於採集大批量資料，然後基於此進行加工/分析，做更有意義的事情。谷歌，百度，今日頭條，天眼查都離不開爬蟲。

今日目標

今天我們來實踐一個最簡單的爬蟲系統。根據Url來識別網頁內容。

網頁內容識別利器：HtmlAgilityPack

至今Nuget已有超過900多萬的下載量，應用量十分龐大。它提供的文件教程也十分簡單易用。

Parser解析器

HtmlParse可以讓你解析HTML並返回HtmlDocument

FromFile從檔案讀取

/// <summary>
/// 從檔案讀取
/// </summary>
public void FromFile() { 
          
    var path = @"test.html";
    var doc = new HtmlDocument();
    doc.Load(path);
    var node = doc.DocumentNode.SelectSingleNode("//body");
    Console.WriteLine(node.OuterHtml);
}

從字串載入

/// <summary>
/// 從字串讀取
/// </summary>
public void FromString()
{
    var html = @"<!DOCTYPE html>
    <html>
    <body>
    	<h1>This is <b>bold</b> heading</h1>
    	<p>This is <u>underlined</u> paragraph</p>
    	<h2>This is <i>italic</i> heading</h2>
    </body>
    </html> " 
;

    var htmlDoc = new HtmlDocument();
    htmlDoc.LoadHtml(html);

    var htmlBody = htmlDoc.DocumentNode.SelectSingleNode("//body");

    Console.WriteLine(htmlBody.OuterHtml);
}

從網路載入

/// <summary>
/// 從網路地址載入
/// </summary>
public void FromWeb() {
    var html = @"https://www.cnblogs.com/";

    HtmlWeb 
 web = new HtmlWeb();

    var htmlDoc = web.Load(html);

    var node = htmlDoc.DocumentNode.SelectSingleNode("//div[@id='post_list']");

    Console.WriteLine("Node Name: " + node.Name + "\n" + node.OuterHtml);
}

Selectors選擇器

選擇器允許您從HtmlDocument中選擇HTML節點。它提供了兩個方法,可以用XPath表示式篩選節點。XPath教程

SelectNodes() 返回多個節點

SelectSingleNode(String) 返回單個節點

檢視網頁結構

我們以部落格園首頁為示例。用chrome分析下網頁結構，可採集出推薦數，標題，內容Url,內容簡要，作者，評論數，閱讀數。

部落格園主頁內容結構圖

編碼實現

建立一個Article用來接收文章資訊。


public class Article
    {
        /// <summary>
        /// 
        /// </summary>
        public string Id { get; set; }
        /// <summary>
        /// 標題
        /// </summary>
        public string Title { get; set; }
        /// <summary>
        /// 概要
        /// </summary>
        public string Summary { get; set; }
        /// <summary>
        /// 文章連結
        /// </summary>
        public string Url { get; set; }
        /// <summary>
        /// 推薦數
        /// </summary>
        public long Diggit { get; set; }
        /// <summary>
        /// 評論數
        /// </summary>
        public long Comment { get; set; }
        /// <summary>
        /// 閱讀數
        /// </summary>
        public long View { get; set; }
        /// <summary>
        ///明細
        /// </summary>
        public string Detail { get; set; }
        /// <summary>
        ///作者
        /// </summary>
        public string Author { get; set; }
        /// <summary>
        /// 作者連結
        /// </summary>
        public string AuthorUrl { get; set; }
    }

然後根據網頁結構，檢視XPath路徑，採集內容

/// <summary>
        /// 解析
        /// </summary>
        /// <returns></returns>
        public List<Article> ParseCnBlogs()
        {
            var url = "https://www.cnblogs.com";
            HtmlWeb web = new HtmlWeb();
            //1.支援從web或本地path載入html
            var htmlDoc = web.Load(url);
            var post_listnode = htmlDoc.DocumentNode.SelectSingleNode("//div[@id='post_list']");
            Console.WriteLine("Node Name: " + post_listnode.Name + "\n" + post_listnode.OuterHtml);

            var postitemsNodes = post_listnode.SelectNodes("//div[@class='post_item']");
            var articles = new List<Article>();
            var digitRegex = @"[^0-9]+";
            foreach (var item in postitemsNodes)
            {
                var article = new Article();
                var diggnumnode = item.SelectSingleNode("//span[@class='diggnum']");
                //body
                var post_item_bodynode = item.SelectSingleNode("//div[@class='post_item_body']");

                var titlenode = post_item_bodynode.SelectSingleNode("//a[@class='titlelnk']");

                var summarynode = post_item_bodynode.SelectSingleNode("//p[@class='post_item_summary']");
                //foot
                var footnode = item.SelectSingleNode("//div[@class='post_item_foot']");
                var authornode = footnode.ChildNodes[1];
                var commentnode = item.SelectSingleNode("//span[@class='article_comment']");
                var viewnode = item.SelectSingleNode("//span[@class='article_view']");


                article.Diggit = int.Parse(diggnumnode.InnerText);
                article.Title = titlenode.InnerText;
                article.Url = titlenode.Attributes["href"].Value;
                article.Summary = titlenode.InnerHtml;
                article.Author = authornode.InnerText;
                article.AuthorUrl = authornode.Attributes["href"].Value;

                article.Comment = int.Parse(Regex.Replace(commentnode.ChildNodes[0].InnerText, digitRegex, ""));
                article.View = int.Parse(Regex.Replace(viewnode.ChildNodes[0].InnerText, digitRegex, ""));

                articles.Add(article);
            }
            return articles;
        }

檢視採集結果

看到結果就驚呆了，竟然全是重複的。難道是Xpath語法理解不對麼？採集結果

重溫下XPath語法

XPath 使用路徑表示式在 XML 文件中選取節點。節點是通過沿著路徑或者 step 來選取的

表示式	    描述
nodename	選取此節點的所有子節點。
/	        從根節點選取。
//		    從匹配選擇的當前節點選擇文件中的節點，而不考慮它們的位置。
.		    選取當前節點。
..		    選取當前節點的父節點。
@		    選取屬性。

XPath 萬用字元可用來選取未知的 XML 元素

萬用字元   	描述
*	        匹配任何元素節點。
@*	        匹配任何屬性節點。
node()	    匹配任何型別的節點。

我測試了幾個語法如：

//例1，會返回20個
var titlenodes = post_item_bodynode.SelectNodes("//a[@class='titlelnk']");

//會報錯，因為這個a並不直接在bodynode下面，而是在子級h3元素的子級。
var titlenodes = post_item_bodynode.SelectNodes("a[@class='titlelnk']");

然後又實驗了一種：

//Bingo,這個可以，但是強烈指定了下級h3,這就稍微麻煩了點。
var titlenodes = post_item_bodynode.SelectNodes("h3//a[@class='titlelnk']");

這裡就引申出了一個小問題：如何定位子級的子級？用萬用字元*可以麼？

//返回1個。
var titlenodes= post_item_bodynode.SelectNodes("*//a[@class='titlelnk']")

能正確返回1，應該是可以了，我們改下程式碼看下效果。執行結果然後和部落格園首頁資料對比，結果吻合。所以我們可以得出結論：

XPath搜尋以//開頭時，會匹配所有的項，並不是子項。

直屬子級可以直接跟上 node名稱。

只想查子級的子級，可以用*代替子級，實現模糊搜尋。

改過後程式碼如下：

public List<Article> ParseCnBlogs()
        {
            var url = "https://www.cnblogs.com";
            HtmlWeb web = new HtmlWeb();
            //1.支援從web或本地path載入html
            var htmlDoc = web.Load(url);
            var post_listnode = htmlDoc.DocumentNode.SelectSingleNode("//div[@id='post_list']");
            //Console.WriteLine("Node Name: " + post_listnode.Name + "\n" + post_listnode.OuterHtml);

            var postitemsNodes = post_listnode.SelectNodes("div[@class='post_item']");
            var articles = new List<Article>();
            var digitRegex = @"[^0-9]+";
            foreach (var item in postitemsNodes)
            {
                var article = new Article();
                var diggnumnode = item.SelectSingleNode("*//span[@class='diggnum']");
                //body
                var post_item_bodynode = item.SelectSingleNode("div[@class='post_item_body']");

                var titlenode = post_item_bodynode.SelectSingleNode("*//a[@class='titlelnk']");

                var summarynode = post_item_bodynode.SelectSingleNode("p[@class='post_item_summary']");
                //foot
                var footnode = post_item_bodynode.SelectSingleNode("div[@class='post_item_foot']");
                var authornode = footnode.ChildNodes[1];
                var commentnode = footnode.SelectSingleNode("span[@class='article_comment']");
                var viewnode = footnode.SelectSingleNode("span[@class='article_view']");


                article.Diggit = int.Parse(diggnumnode.InnerText);
                article.Title = titlenode.InnerText;
                article.Url = titlenode.Attributes["href"].Value;
                article.Summary = titlenode.InnerHtml;
                article.Author = authornode.InnerText;
                article.AuthorUrl = authornode.Attributes["href"].Value;

                article.Comment = int.Parse(Regex.Replace(commentnode.ChildNodes[0].InnerText, digitRegex, ""));
                article.View = int.Parse(Regex.Replace(viewnode.ChildNodes[0].InnerText, digitRegex, ""));

                articles.Add(article);
            }
            return articles;
        }

原始碼

總結

demo到此結束。謝謝觀看！

下篇繼續構思如何構建自定義規則，讓使用者可以在頁面自己填寫規則去識別。

.NetCore實踐爬蟲系統（一）解析網頁內容

爬蟲系統的意義爬蟲的意義在於採集大批量資料，然後基於此進行加工/分析，做更有意義的事情。谷歌，百度，今日頭條，天眼查都離不開爬蟲。今日目標今天我們來實踐一個最簡單的爬蟲系統。根據Url來識別網頁內容。網頁內容識別利器：HtmlAgilityPack

Python爬蟲實戰--（二）解析網頁中的元素

使用requests傳送請求首先匯入requests庫和beautifulsoup庫 import requests from bs4 import BeautifulSoup 呼叫requests.get()方法獲得指定url的res

Android系統啟動流程（一）解析init進程啟動過程

option 寫入 android change failed miss 通知 target sna 前言作為“Android框架層”這個大系列中的第一個系列，我們首先要了解的是Android系統啟動流程，在這個流程中會涉及到很多重要的知識點，這個系列我們就來一一講解它們

2016-06-26 發布支付系統開發的實踐與思考（一）

接口簡單的單向 new 成了異步通知平臺應收技術分享通常我們在開發手機 app 或網站時都會涉及到支付相關的業務場景，用戶只需要簡單的點擊下按鈕並輸入密碼，就完成了整個支付過程。那麽今天我們就來簡單聊一下一個完整的支

Android系統啟動流程（一）解析init程序啟動過程

前言作為“Android框架層”這個大系列中的第一個系列，我們首先要了解的是Android系統啟動流程，在這個流程中會涉及到很多重要的知識點，這個系列我們就來一一講解它們，這一篇我們就來學習init程序。 1.init簡介 init程序是An

推薦系統實踐讀書筆記（一）：好的推薦系統

設計一個推薦系統之前，一定要了解什麼樣的推薦系統才是好的推薦系統至關重要。那麼一個優秀的推薦系統具有哪些特徵呢？（量化或者概念性的特徵）通過以下三個步驟回答一個優秀的推薦系統是什麼樣的 1）什麼是推薦系統、推薦系統的主要任務、推薦系統和分類目錄以及搜尋引擎的區別 2）不同領域分門別類的介紹

從入門到放棄，.net構建博客系統（一）：系統構建篇

.net 通過 tro 周期放棄操作 images 容器業務 demo:http://tonyblogs.top/ Git源碼：https://github.com/Halifa/TonyBlogs 項目采用的技術有：asp.net mvc4 + autofac +

OSGi是什麽：Java語言的動態模塊系統（一）

平臺使用數據 osgi servle http cto 優點重啟 OSGi是什麽 OSGi亦稱做Java語言的動態模塊系統，它為模塊化應用的開發定義了一個基礎架構。OSGi容器已有多家開源實現，比如Knoflerfish、Equinox和Apache的Felix。您可

自己搭建自動化巡檢系統（一）環境準備系統連接gns3

自動化巡檢這系列的博文，講述一個自制的自動巡檢系統，僅僅是在cisco設備中運行，之後會基於這個思路，寫出一個兼容性的通用巡檢系統，傳統網工對網絡設備是非常熟悉的，然而在編程開發這一塊是相對弱勢一點。我在想在SDN的背景下，網工一旦會編程，該有多麽強勢，一些重復執行的步驟，電腦代勞，

從零開始學Linux系統（一）

系統啟動 linux 自定義管理如果 level 技術 int 沒有 Linux系統：分時多用戶多任務的操作系統； Linux系統引導流程： inittab配置文件中：定義了linux系統的運行的7個級別：從0~6 0、6：分別代表關機和重啟，不建議設置為默認的

如何籌建公司的大數據分析系統（一）

大數據日誌分析 elk 淺談下，如標題這個問題：隨著大數據被不停的挖掘，每天有態度的人利用用戶數據信息，產生巨大的商業價值，以及風險告警，在籌建大數據分析系統時，大家都很熱衷新的東西，在做公司架構體系時，動不動就直接上新的技術，導致項目夭折，最後走人換公司的局面，後來不斷的有人去填坑。隨著Spl

C/S權限系統（一）

ati 臨時 day adapt 通用 lda pri userinfo selected 父窗體的代碼：擴展Enter鍵相當於Tab鍵的思路： 1.創建窗體的父類2.在父類中重寫Form中的ProcessCmdKey方法，在相關控件上按回車鍵相當於按了Tab 鍵3

30天自制操作系統（一）從計算機結構到匯編程序入門

ios 是什麽 program 信號解釋根目錄自己保存音樂學習這本書不代表我要親自動手把這本書中的代碼敲一遍哦，只是借機來學習一下操作系統。之前有段時間也在看操作系統的知識，怎麽說呢之前的看的書都是偏講理論多一些，對於我這個非科班出身的來說，由於之前的計算機知識

Python爬蟲系列（一）：從零開始，安裝環境

tar 公司 pip nal 網頁解析目標 http caption 在上一個系列，我們學會使用rabbitmq。本來接著是把公司的celery分享出來，但是定睛一看，celery4.0已經不再支持Windows。公司也逐步放棄了服役多年的celery項目。恰好，公司找

Python爬蟲學習（一）

code time response utf path urllib quest ext .com Python訪問網頁主要使用包urllib 打開網頁使用 urllib.request.urlopen(url, data=None, [timeout, ]*, cafi

java構建學生管理系統（一）

class 管理系統同時進步傳參 databases 什麽界面查看用java搭建學生管理系統，重要還是對數據庫的操作，諸如增刪改查等。 1.基本的功能：老師完成對學生信息的查看和修改，完成對班級的信息的概覽。學生可以看自己的成績和對自己信息的修改。學生和老

Servlet+JDBC設計實現圖書系統（一）管理功能實現

sta 上傳 lec () 一個 ioe nlog and turn 寫在前面，之前由於種種原因博客好久沒有更新。最近打算重拾JavaWeb，所以從頭開始，先用servlet+jdbc+bootstrap最基礎的代碼實現一個圖書系統。考慮有管理員端+用戶端，項目完成後會上

react搭建後臺管理系統（一）

管理系 for menu port 文件中 segment 後臺管理 ans create 先準備工具：　　yarn安裝：　　　　npm install -g yarn #yarn也是包管理工具，只不過它構建效率更高　　　　官方使用教程：https://yarnpkg.

ThinkPHP5零基礎搭建CMS系統（一）

details com local 使用 .com lan cms jpg 目錄了解學習thinkphp5應該是2016年年底的事情，當時還沒有接觸過thinkphp3版本，覺得通過手冊直接上手學習tp5蠻輕松的，現在從零記錄下，搭建可擴展的CMS。 1.ThinkPHP

.NetCore實踐爬蟲系統（一）解析網頁內容

爬蟲系統的意義

今日目標

網頁內容識別利器：HtmlAgilityPack

Parser解析器

Selectors選擇器

檢視網頁結構

編碼實現

檢視採集結果

重溫下XPath語法

原始碼

總結

相關推薦