.net使用abot爬蟲簡單例子

阿新 • • 發佈：2017-07-11

ldoc edt pan cat style 指定 gles ted 應該

abot是.net爬蟲框架中的一種，Abot是一個開源的.net爬蟲，速度快，易於使用和擴展。項目的地址是https://code.google.com/p/abot/。

爬取的html解析，我們使用AngleSharp,項目的地址：https://github.com/AngleSharp/AngleSharp

首先我們需要配置abot

 private static readonly Uri FeedUrl = new Uri("https://www.jd.com/allSort.aspx");//定義一個爬取的url，這裏以京東商品的分類為例子

 public static IWebCrawler GetManuallyConfiguredWebCrawler()
        {
            //這裏進行配置，具體的含義自己看源代碼了解
            CrawlConfiguration config  
= new CrawlConfiguration();
            config.MaxConcurrentThreads = System.Environment.ProcessorCount;
            config.MaxPagesToCrawl = 1000;
            config.IsExternalPageCrawlingEnabled = false;
            config.IsUriRecrawlingEnabled = false;
            config.IsExternalPageLinksCrawlingEnabled  
= false;
            config.IsRespectRobotsDotTextEnabled = false;
            config.DownloadableContentTypes = "text/html, text/plain";
            config.MinCrawlDelayPerDomainMilliSeconds = 1000;
            config.CrawlTimeoutSeconds = 0;
            config.MaxPagesToCrawlPerDomain = 0;

            var 
 crawler = new PoliteWebCrawler(config, null, null, null, null, null, null, null, null);

            //爬取頁面前的判斷
            crawler.ShouldCrawlPage(ShouldCrawlPage);
            crawler.ShouldDownloadPageContent(ShouldDownloadPageContent);
            crawler.ShouldCrawlPageLinks(ShouldCrawlPageLinks);

            //下面是爬取的四個事件
            crawler.PageCrawlStartingAsync += crawler_ProcessPageCrawlStarting;//單個頁面爬取開始 
            crawler.PageCrawlCompletedAsync += crawler_ProcessPageCrawlCompletedAsync;//單個頁面爬取結束 
            // crawler.PageCrawlDisallowedAsync += crawler_PageCrawlDisallowed;// 頁面鏈接不允許爬取事件
            //crawler.PageLinksCrawlDisallowedAsync += crawler_PageLinksCrawlDisallowed;//頁面不允許爬取事件 
            return crawler;
        }

爬蟲中主要是4個事件, 頁面爬取開始、頁面爬取失敗、頁面不允許爬取事件、頁面中的鏈接不允許爬取事件.

以下是示例

 //單個頁面爬取開始 
        public static void crawler_ProcessPageCrawlStarting(object sender, PageCrawlStartingArgs e)
        {
            PageToCrawl pageToCrawl = e.PageToCrawl;

        }
        //單個頁面爬取結束 
        public static void crawler_ProcessPageCrawlCompletedAsync(object sender, PageCrawlCompletedArgs e)
        {
            if (e.CrawledPage.Uri == FeedUrl)
            {
                StringBuilder sb=new StringBuilder();
               //這裏使用AngleSharp解析html
                var all=e.CrawledPage.AngleSharpHtmlDocument.QuerySelector(".category-items").Children;
                foreach (var col in all)
                {
                    var categorys=col.QuerySelectorAll(".category-item");
                    foreach (var category in categorys)
                    {
                        var first=category.QuerySelector(".item-title span").Text();
                        sb.Append("\r\n" + first + "\r\n");
                        var seconds = category.QuerySelector(".items").Children;
                        foreach (var second in seconds)
                        {
                            var secondtext=second.QuerySelector("dt a").Text();
                            sb.Append(secondtext + "\t");
                            var thireds = second.QuerySelector("dd").Children;
                            foreach (var thired in thireds)
                            {
                                var thiredtext = thired.Text();
                                sb.Append(thiredtext + ",");
                            }
                            sb.Remove(sb.Length - 1, 1);
                        }
                    }
                }
                //爬取的數據保存到C:\Program Files (x86)\IIS Express下面。註意這裏保存可能需要以管理員的身份運行VS
                System.IO.File.AppendAllText("fake.txt", sb.ToString());
            }
        }

        #region
        /// <summary>
        /// 同步方法註冊一個委托，以確定是否應該抓取一個頁面
        /// </summary>
        /// <param name="pageToCrawl"></param>
        /// <param name="crawlContext"></param>
        /// <returns></returns>
        public static CrawlDecision ShouldCrawlPage(PageToCrawl pageToCrawl, CrawlContext crawlContext)
        {
            if (pageToCrawl.IsRetry || pageToCrawl.IsRoot || FeedUrl == pageToCrawl.Uri )//判斷是否為根Url,爬取的Url是否為我們指定的
            {
                return new CrawlDecision() { Allow = true };
            }
            else
            {
                return new CrawlDecision { Allow = false, Reason = "Not match uri" };//如果為false,就不爬取頁面
            }
        }

        /// <summary>
        /// 同步方法註冊一個委托，以確定頁面的內容是否應該被加載
        /// </summary>
        /// <param name="pageToCrawl"></param>
        /// <param name="crawlContext"></param>
        /// <returns></returns>
        private static CrawlDecision ShouldDownloadPageContent(PageToCrawl pageToCrawl, CrawlContext crawlContext)
        {
            if (pageToCrawl.IsRoot || pageToCrawl.IsRetry || FeedUrl == pageToCrawl.Uri)
            {
                return new CrawlDecision
                {
                    Allow = true
                };
            }

            return new CrawlDecision { Allow = false, Reason = "Not match uri" };
        }
        /// <summary>
        /// 同步方法註冊一個委托，以確定是否應該抓取一個頁面的鏈接
        /// </summary>
        /// <param name="crawledPage"></param>
        /// <param name="crawlContext"></param>
        /// <returns></returns>
        private static CrawlDecision ShouldCrawlPageLinks(CrawledPage crawledPage, CrawlContext crawlContext)
        {
            if (!crawledPage.IsInternal)
                return new CrawlDecision { Allow = false, Reason = "We dont crawl links of external pages" };

            if (crawledPage.IsRoot || crawledPage.IsRetry || crawledPage.Uri == FeedUrl)
            {
                return new CrawlDecision { Allow = true };
            }
            else
            {
                return new CrawlDecision { Allow = false, Reason = "We only crawl links of pagination pages" };
            }
        }
        #endregion

接下來就是測試

        public ActionResult Index()
        {
            var crawler = GetManuallyConfiguredWebCrawler();
            var reuslt = crawler.Crawl(FeedUrl);
            Response.Write(reuslt.ErrorException);
            return View();
        }

.net使用abot爬蟲簡單例子

ldoc edt pan cat style 指定 gles ted 應該 abot是.net爬蟲框架中的一種，Abot是一個開源的.net爬蟲，速度快，易於使用和擴展。項目的地址是https://code.google.com/p/abot/。爬取的html解析，我們使

Python 爬蟲實現簡單例子（爬取某個頁面）

Python爬蟲最簡單實現 #!/usr/bin/env python #coding=utf-8import urllibimport urllib2def login(): url = 'https://www.oschina.net/action/user/

（原創）Maven+Spring+CXF+Tomcat7 簡單例子實現webservice

produces per back targe xsd lean listener ans 控制這個例子需要建三個Maven項目，其中一個為父項目，另外兩個為子項目首先，建立父項目testParent，選擇quickstart：輸入項目名稱和模塊名稱，然後創建：

AutoConf自動生成Makefile（基於helloworld簡單例子）

programs tom change col -a 二進制自己 int 生成新建一個簡單的helloworld工程文件夾，目錄結構如下 hello.h代碼： #include<stdio.h> void fprint() { printf("h

ASP.NET 創建WebService——簡單例子

本地解析 com 調用 net XML ges png hone Web service是一個基於可編程的web的應用程序，用於開發分布式的互操作的應用程序，也是一種web服務 WebService的特性有以下幾點： 1.使用XML（標準通用標記語言）來作為數據交互的

ASP.NET JS調用WebService——簡單例子

例子頁面 bsp ima 技術 .com images ebs png 一、創建好WebService 二、編輯頁面與js 三、運行頁面並點擊按鈕，結果如下簡單調用吧！ ASP.NET JS調用WebService——簡單例子

用socket.io實現websocket的一個簡單例子

soc .html www sock 在線 ket log html 簡單例子 http://biyeah.iteye.com/blog/1295196 socket.io的介紹 http://www.cnblogs.com/mazg/p/5467960.html

C語言多線程的一個簡單例子

color oid blog stdlib.h null bsp 等待 creat 多線程　　多線程的一個簡單例子: 　　 #include <stdio.h> #include <stdlib.h> #include <string.h&

C# Socket簡單例子（服務器與客戶端通信）

項目回車 pop ace log () client protocol comm 這個例子只是簡單實現了如何使用 Socket 類實現面向連接的通信。註意：此例子的目的只是為了說明用套接字寫程序的大概思路，而不是實際項目中的使用程序。在這個例子中，實際上還有很多問題

webservice簡單例子

web space new gets asp ret rms png tool 1、添加web服務。 /// <summary> /// demo 的摘要說明 /// </summary> [WebService(Name

【轉載】Caffe學習：運行caffe自帶的兩個簡單例子

0.00 練習 siam 其它 sudo 單例復制腳本 policy 原文：http://www.cnblogs.com/denny402/p/5075490.html 為了程序的簡潔，在caffe中是不帶練習數據的，因此需要自己去下載。但在caffe根目錄下的data

Java操作Excel之POI簡單例子

comm last pre cto ada tabs cnblogs encrypted hssf 21 /** 22 * 利用POI操作Excel表單 23 * 24 * 需要jar包： 25 * HSSF針對03及以前版本，即.xls後綴

註解的簡單例子

註解簡單例子 /** * @author 鄧聰 *應用在類上的註解 */@Target(ElementType.TYPE)@Retention(RetentionPolicy.RUNTIME)public @interface Class_anno { String name() default "

QTablewidget 簡單例子

mod strac 效果 part selection play ges icon src 【1】QTableWidget簡介 QTableWidget是QT對話框設計中常用的顯示數據表格的控件。學習QTableWidget就要首先看看QTableView控件（控件也是有

[Python]python爬蟲簡單試用

.com www pytho request rom open url 使用開始一直用的是python3.4版本，所以只用了urllib爬數據，然後使用BeautifulSoup做為分析。 1、首先安裝BeautifulSoup，執行命令如下： pip install

java 存儲過程簡單例子

ont 最好 num spl 得到存儲過程遊標 efault 建表 ---創建表create table TESTTABLE( id1 VARCHAR2(12), name VARCHAR2(32))select t.id1,t.name from TESTTAB

python第一個爬蟲的例子抓取數據到mysql，實測有數據

入mysql數據庫 nor gecko /usr png 支持 web local webkit python3.5 先安裝庫或者擴展 1 requests第三方擴展庫 pip3 install requests 2 pymysql pip3 install pym

Spark簡介安裝和簡單例子

可用 spa nbsp tgz class 高效 ota zookeep 進入 Spark簡介 Spark是一種快速、通用、可擴展的大數據分析引擎，目前，Spark生態系統已經發展成為一個包含多個子項目的集合，其中包含SparkSQL、Spark Streaming、Gra

一個使用Spring的AspectJ LTW的簡單例子

pri transport cli system ram exce lena nal rep 參考：https://docs.spring.io/spring-framework/docs/4.3.9.RELEASE/spring-framework-reference/h

數據庫中算式的簡單例子

後綴表達式 ddn tar 入棧計算 ext ref 結束 pre 後綴表達式是遇到符號時，取棧頂元素進行計算，並將結果再次壓入棧頂。9 2 3 + - 10 2 / - 計算過程如下：9 2 3 入棧遇到 + 號，取出 2 3 相加，並將結果入棧，結果為9 5又遇到 -

.net使用abot爬蟲簡單例子

相關推薦