使用xpath實現document.querySelector樣式選擇器進行html解析（四）：將選擇結果封裝進行輸出

阿新 • • 發佈：2019-01-21

-----------------------------------------------------------------

恩，其實到目前為止，關於xpath解析html的樣式選擇器其實已經完工了，而且，應該說比預期的目的還多出了一丟丟的效果

例如：QuerySelector("*[style*='(?<!\w)font-weight\s*:\s*bold(?!\w)']")，可以選中所有style屬性中包含粗體定義的節點

例如：QuerySelector("*:contains(abc.*?xyz)")，可以選中所有正文中包含abc和xyz，且abc在xyz之前的節點

注意到沒有，我們可以直接使用正則，當然了，第三章我貼的偽類contains處理之前的那個正則不支援圓括號輸入，關於指定屬性的正則不支援方括號輸入，自己魔改一下就可以完整的支援正則了，或者比較麻煩，需要層深計算，但還是可以實現的，可以參考文盲老顧之前關於正則的博文，但是個人感覺沒什麼必要了

本章為選擇器的最後一章，關於結果輸出方式的，有自己程式碼風格的可以不看，畢竟文盲老顧也是半路出家的c#工作者，沒有考慮到的，沒有學習到的東西都還很多，有更好的結果輸出方案的也請告知文盲，讓文盲繼續進步哦

-----------------------------------------------------------------

為了方便得到結果之後直接可以用.連線屬性，用來直接輸出結果，所以QuerySelector方法我們修改一下

        public HtmlObjectResult QuerySelector(string selection)
        {
            string xpath = CssParser.ParseCSS(selection);
            try
            {
                return new HtmlObjectResult(_xml.SelectNodes(xpath, XMLExpand.XPathExpand));
            }
            catch (Exception ex)
            {
                throw ex;
            }
        }

直接將返回的XmlNodeList封裝到一個類裡，作為結果實現

    public class HtmlObjectResult
    {
        private List<HtmlObjectNode> _result = new List<HtmlObjectNode>();
        private int _curr = 0;
        public int Count
        {
            get
            {
                return _result == null ? 0 : _result.Count;
            }
        }
        public HtmlObjectNode[] NodeCollection
        {
            get
            {
                return _result.ToArray();
            }
        }
        public HtmlObjectNode Node
        {
            get
            {
                return _result == null ? null : _result[_curr];
            }
        }
        public HtmlObjectResult(XmlNodeList xnl)
        {
            for (int i = 0; i < xnl.Count; i++)
            {
                _result.Add(new HtmlObjectNode(xnl[i]));
            }
        }
        public HtmlObjectResult Next
        {
            get
            {
                _curr += _curr < _result.Count - 1 ? 1 : 0;
                return this;
            }
        }
        public HtmlObjectResult Previous
        {
            get
            {
                _curr -= _curr > 0 ? 1 : 0;
                return this;
            }
        }
        public HtmlObjectResult First
        {
            get
            {
                _curr = 0;
                return this;
            }
        }
    }

對於結果來說，它其實是一個節點集合，所以，提供一個Count，來表示到底有多少節點被選中

一般情況下，我們都是直接使用的第一個節點作為我們的結果，所以定義一個First，如果需要其他結果，可以用Next、Previous來選擇不同的結果，恩，反正都是返回這個結果集本身，只是下標定位改變了而已

然後可以返回當前選中的結果作為輸出內容，也就是Node屬性，Node也是一個封裝後的xml節點，稍後再講

當然，如果不喜歡這些，可以直接輸出所有的結果，NodeCollection可以滿足你的需要，當然其中的元素也是被封裝好的結果節點

再然後是正式輸出我們期望的結果值了

    public class HtmlObjectNode
    {
        private XmlNode _node = null;
        public HtmlObjectNode(XmlNode node)
        {
            _node = node;
        }
        public HtmlObjectNode Next
        {
            get
            {
                return _node == null ? null : _node.NextSibling != null ? new HtmlObjectNode(_node.NextSibling) : this;
            }
        }
        public HtmlObjectNode Previous
        {
            get
            {
                return _node == null ? null : _node.PreviousSibling != null ? new HtmlObjectNode(_node.PreviousSibling) : this;
            }
        }
        public HtmlObjectNode Parent
        {
            get
            {
                return _node == null ? null : _node.ParentNode != null ? new HtmlObjectNode(_node.ParentNode) : this;
            }
        }
        public string InnerHtml
        {
            get
            {
                return _node == null ? null : Regex.Replace(_node.InnerXml, @"<!\[CDATA\[|\]\]>", "", RegexOptions.IgnoreCase).Trim();
            }
        }
        public string OuterHtml
        {
            get
            {
                return _node == null ? null : Regex.Replace(_node.OuterXml, @"<!\[CDATA\[|\]\]>", "", RegexOptions.IgnoreCase).Trim();
            }
        }
        public string InnerText
        {
            get
            {
                return _node == null ? null : _node.InnerText;
            }
        }
        public XmlNode Node
        {
            get
            {
                return _node;
            }
        }
    }

作為被選中的節點，有時候我們需要純文字內容，有時候需要html內容，html內容有時候需要包含節點本身，有時候不包含

所以，我們的結果輸出就直接定義成三個，分別是InnerText、InnerHtml、OuterHtml，這個也符合html本身的習慣

由於我在第一章的時候，將html轉成xml的時候還追加了不少的CDataSetion節點，這些節點在作為結果輸出的時候應該被刪除節點宣告，所以我在這裡用正則刪除了一些資訊

當然，有時候某些節點定位非常麻煩，可他相鄰的部分節點非常好定位，那麼我們通常會定位到我們希望選中的節點之前，例如有一個表格，很多行很多列，沒有樣式啦、ID啦，甚至資料的位置也可能改變，但表格的格式不變，比如每一個td宣告資料名稱後，下一個緊跟著的td必定是它對應的值的時候，我們就可以直接定位到這個資料名稱的位置，例如 QuerySelector("td:contains(姓名)")，然後使用Next向後移動一個節點，再輸出就是對應的值了：QuerySelector("td:contains(姓名)").First.Node.Next.InnerText

需要注意的是，Node之前的Next是在結果集中選擇下一個對應的結果，Node之後的Next是在Html中對應的元素的下一個元素

好了，HtmlParser部分基本上講完了，之後文盲老顧會嘗試做一些資料提取方面新的嘗試，在儘量減少指正的情況下，如何從頁面內獲取到我們想要的資料，例如自動解析表格之類的

使用xpath實現document.querySelector樣式選擇器進行html解析（四）：將選擇結果封裝進行輸出

使用xpath實現document.querySelector樣式選擇器進行html解析（四）：將選擇結果封裝進行輸出

tensorflow利用預訓練模型進行目標檢測（二）：將檢測結果存入mysql資料庫

服務器編程心得（四）—— 如何將socket設置為非阻塞模式

tensorflow利用預訓練模型進行目標檢測（四）：檢測中的精度問題以及evaluation

HTML學習筆記 CSS學習選擇器第五節（原創）

使用Centos下的iptables實現實驗室按教室、按時間進行上網控制（四）

HTML+CSS基礎（七）：CSS選擇器

jQuery選擇器程式碼詳解（三）——tokenize方法

計算機視覺（四）：使用K-NN分類器對CIFAR-10進行分類

Spring原始碼解析（七）：Spring AOP中對攔截器呼叫的實現

jQuery 之選擇器與事件型別（二）

使用bottle進行web開發（5）：Generating Content

使用bottle進行web開發（4）：HTTPError

TWaver可視化編輯器的前世今生（四）電力雲計算數據中心

我的C#跨平臺之旅（四）：使用AOP進行系統增強

tensorflow利用預訓練模型進行目標檢測（一）：預訓練模型的使用

Java併發（四）：volatile的實現原理 Java併發（一）：Java記憶體模型乾貨總結

Java並發（四）：volatile的實現原理

資料結構實現（四）：迴圈佇列（C++版）

API閘道器Kong（四）：功能梳理和外掛使用-認證外掛使用

使用xpath實現document.querySelector樣式選擇器進行html解析（四）：將選擇結果封裝進行輸出

相關推薦