關於C# 使用Xpath路徑（HtmlAgilityPack）對網頁內容查詢獲取的方法。(程式為.ashx的一般處理程式)

阿新 • • 發佈：2018-12-14

先貼程式碼：

using System;
using System.Web;
using Newtonsoft.Json;
using System.Net;
using System.IO;
using System.Text;
using System.Text.RegularExpressions;
using HtmlAgilityPack;

namespace Lesson1
{
    /// <summary>
    /// ZZ_SY 的摘要說明
    /// </summary>
    public class ZZ_SY : IHttpHandler
    {

        public void ProcessRequest(HttpContext context)
        {
            context.Response.ContentType = "application/json";
            string url = context.Request["url"];
            int id = 0;
            
            #region id = 16  http://www.huadanseed.cn/huadan/ProductShow.asp?ID=169    Xpath 路徑在每個客戶端顯示不一樣
            if (id == 16)
            {
                string xpath_table = "//tbody[1]/tr[1]/td[1]/table[1]/tbody[1]/tr[1]/td[1]/table[1]"; 
                HtmlNodeCollection node_table = doc.DocumentNode.SelectSingleNode(xpath_table).ChildNodes;

                foreach (var node in node_table)
                {
                    if (node.InnerHtml.IndexOf("品種名稱") > 0)
                    {
                        string td = "td[2]";
                        var temp = node.SelectSingleNode(td);
                        temp = temp.SelectSingleNode("p");

                        data.nzname = temp.InnerText.Trim();
                    }

                    if (node.InnerHtml.IndexOf("公司名稱") > 0)
                    {

                        string td = "td[2]";
                        var temp = node.SelectSingleNode(td);
                        temp = temp.SelectSingleNode("p");

                        data.sccs = temp.InnerText.Trim();

                    }
                }
            }
            string JsonStr = JsonConvert.SerializeObject(data);
            context.Response.Write(JsonStr);

        }

         public bool IsReusable
        {
            get
            {
                return false;
            }
        }
        public class Entity
        {
            public string nzname;
            public string sccs;
        }
    }
}

主要問題在於 string xpath_table = "//tbody[1]/tr[1]/td[1]/table[1]/tbody[1]/tr[1]/td[1]/table[1]";

根據Postman 得到的 post 網頁內容，來分析如何設定 xpath_table

當設定 xpath_table = "//tbody[1]/tr[1]/td[1]/table[1]/tbody[1]/tr[1]/td[1]/table[1]" 時，

HtmlNodeCollection node_table = doc.DocumentNode.SelectSingleNode(xpath_table).ChildNodes;

上述程式碼中的作用是獲取 <table[1]>，即<table width="90%" height="" border="1" align="center" cellpadding="1" ..> 包含的內容，其中node_table 包含 13個items，其中的#text 內容在網頁上並不可見，只需通過所包含的漢字字串檢測得到所要查詢的那一項 tr 即可。

獲取存在對應漢字的 tr 後，因為裡面包含兩個 td , 因此要加字尾[2]，來獲得 td[2] 中的內容，即 <p align="center" class="style7">小雜55</p>

，因為下一目錄只存在一個 <p> ,其中內容可以通過

var temp = node.SelectSingleNode(td);
data.nzname = temp.InnerText.Trim();

上述兩行程式碼直接獲取，作用和原始碼類似，（其實就多寫了一行程式碼而已）

關於C# 使用Xpath路徑（HtmlAgilityPack）對網頁內容查詢獲取的方法。(程式為.ashx的一般處理程式)

先貼程式碼： using System; using System.Web; using Newtonsoft.Json; using System.Net; using System.IO; using System.Text; using System.Text.Reg

c實現功能（10）對文字內容進行計算

#include <stdio.h> #include <string.h> #include <stdlib.h> //實現對文字內容的計算 //首先實現對文字中每一行內容的計算 int calcString(char *s){

c實現功能（9）對文字的內容進行排序

#include <stdio.h> #include <string.h> #include <stdlib.h> void swap(int *p1, int *p2){ int temp = *p1; *p1 = *

c實現功能（11）對二進位制檔案的讀寫

#include <stdio.h> #include <string.h> int main(){ //實現對二進位制檔案的讀取 //開啟檔案 FILE *p = fopen("D:\\test\\a.wmv", "rb")

js總結（3）對象的創建方法

eal blue rip fun heal health his name car <script> // 使用Object創建對象 // var car = new Object(); // car.name = ‘mer

.NetCore實踐爬蟲系統（一）解析網頁內容

爬蟲系統的意義爬蟲的意義在於採集大批量資料，然後基於此進行加工/分析，做更有意義的事情。谷歌，百度，今日頭條，天眼查都離不開爬蟲。今日目標今天我們來實踐一個最簡單的爬蟲系統。根據Url來識別網頁內容。網頁內容識別利器：HtmlAgilityPack

C++小知識（九）——Eigen庫的基本使用方法、PCL計算協方差矩陣

轉載自：https://blog.csdn.net/r1254/article/details/47418871 以及https://blog.csdn.net/wokaowokaowokao12345/article/details/53397488 第一部分：

搜狗號（sogou）邀請碼提前快速獲取方法

前言自語自從百家號，騰訊自媒體上線後，搜狗號竟然也上線了，不過彷彿晚了一些。從去年開始就有訊息搜狗自媒體要在17年底上線，結果，一直等到現在才正式開放內測，話說真正做好一個自媒體平臺、做好一個系統，真不容易啊！獲取號碼方法繼續說搜狗號自媒體平臺獲取邀請碼的方法：目前，搜狗號自

ojective-C學習筆記（5）關於面向對象編程

reat com new 面向對象 cti 重要 dispatch circle 術語先了解幾個OC中有關面向對象編程的術語類（class）是一種表示對象類型的結構體。這裏所說的結構體和C語言中的結構體不是一回事。對象（object）是一種包含值和指向其類的隱藏指針的

C++語言學習（二）——C++對C語言基礎語法的擴展

情況下 ces qtcreator 缺少命令 ast 過多匯編 lse C++語言學習（二）——C++對C語言基礎語法的擴展 C++是基於C語言擴展發展而來的面向對象的程序設計語言，本文將主要討論C++語言基於C語言擴展的方面。一、實用性增強 C語言中變量的定義必須在

C++語言學習（四）——類與對象

clas 進行自身 ngs 符號表方法 index clu 每一個 C++語言學習（四）——類與對象一、構造函數（constructor） 1、構造函數簡介 C++語言中，構造函數是與類名相同的特殊成員函數。在類對象創建時，自動調用構造函數，完成類對象的初始化。類對象

C++語言學習（十三）——C++對象模型分析

查找 char 無法 table ret variables 生成 dba 通過 C++語言學習（十三）——C++對象模型分析一、C++對象模型分析 1、類對象模型的內存布局 class是一種特殊的struct，class與struct遵循相同的內存對齊原則，class中

自制JSON解析庫C++（一）--對JavaScript物件的理解

JSON只有兩種結構：鍵值對和陣列；它們之間可以相互巢狀，形成樹形結構，葉子節點有字串、數字、false、true、null。在這之前，首先談談對JavaScript核心思想的理解：在JS的世界裡，沒有類，只有物件，物件怎麼來，通

C#Queue<T>（佇列）對資料的操作

C裡的佇列進行資料操作很方便的，佇列根據先進先出的原則（就是第一個存進去的資料，可以第一個拿到），通過佇列的屬性可以拿到佇列裡的最小值和最大值，也可以計算資料的SUM，還可以通過某一個數進行排序，等等吧，大家有興趣可以研究下。下面我就直接寫程式碼展示一些基本的操作。程式碼： using S

C程式設計--指標（用“ 函式 ”對“ 陣列 ” 進行操作）

函式運算元組說明：如果有一個實引數組，想要在函式中改變此陣列中的元素的值，實參與形參的對應關係有以下4種情況： 1、實參：陣列名；；形參：陣列名 2、實參：陣列名；；形參：指標變數 3、實參：指標變數；；形參：指標變數 4、實參：指標變

C程式設計--指標（用 “ 函式 ” 對 “ 多維陣列 ” 進行操作）

用指向陣列的指標做函式的引數問題描述有一個班，3個學生，各4門課，計算總平均分以及第n個學生的成績。程式碼實現 #include<stdio.h> void average(float *p,int n);//

21天學通C++學習筆記（九）：類和對象

行為邏輯在一起編譯特征 str 不能的人學習 1. 類和對象現實中的人等事物往往具備一些特征並且可以做某些事情，要在程序中模擬這些事物，需要一個結構，將定義其屬性（數據）以及其可用這些屬性執行的操作（函數）整合在一起。這種結構就是類，而這種結構的每一個實例就

C#程式設計學習（06）:使用百度API進行路徑規劃

官方demo連線：http://lbsyun.baidu.com/jsdemo.htm#i5_9 在C#中使用webbroswer進行地圖顯示，並利用百度地圖API進行路徑規劃；先上效果圖 1 HTML檔案的編寫 <!DOCTYPE html> <html>

C++語言（03）——對象的構造

image char* tex 作用 goto語句能夠 ros 部分 printf 對象的構造(上) 成員變量的初始值 (1)從程序設計的角度來看，對象只是變量，定義對象就是定義變量，所以：在棧上創建對象時，成員變量初始值為隨機值在堆上創建對象時，成員變量初始值為隨機值在

C語言強化（四）求和為某個值的二叉樹路徑

遞迴究竟有多強大，看看這道題就知道了。通過這道題，你可以掌握如何使用遞迴遞迴的本質如何跳出遞迴死迴圈題目：輸入一個整數和一棵二元樹。從樹的【根結點】開始往下訪問一直到【葉結點】所經過的所有結點形成一條路徑。打印出和與輸入整數相等的所有路徑。例如，輸入20

關於C# 使用Xpath路徑（HtmlAgilityPack）對網頁內容查詢獲取的方法。(程式為.ashx的一般處理程式)

先貼程式碼：

相關推薦