1. 程式人生 > >爬蟲技術 -- 進階學習(十一)【補充】獲取html中meta標籤中的content的內容

爬蟲技術 -- 進階學習(十一)【補充】獲取html中meta標籤中的content的內容

但是meta標籤中的content內容的抓取,沒有提及到!

上網搜尋了下,發現很少提及,所以寫篇隨筆,備忘一下!

還是在HtmlAgillityPack搭配ScrapySharp的環境下,具體如何配置點選上一篇連結。

例子:<meta name="keywords" content="召開新聞,自流溝,含油汙水" />

提取效果:把文字【召開新聞,自流溝,含油汙水】提取出來.

核心程式碼:

 var html1 = browser1.DownloadString(uri); 
 var doc = new HtmlDocument(); 
 doc.LoadHtml(html1);
 
var keywords = doc.DocumentNode.SelectSingleNode("//meta[@name='keywords']").GetAttributeValue("content");
然後執行Console.WriteLine(keywords); 輸出:召開新聞,自流溝,含油汙水

相關推薦

爬蟲技術 -- 學習補充獲取htmlmeta標籤content內容

但是meta標籤中的content內容的抓取,沒有提及到! 上網搜尋了下,發現很少提及,所以寫篇隨筆,備忘一下! 還是在HtmlAgillityPack搭配ScrapySharp的環境下,具體如何配置點選上一篇連結。 例子:<meta name="keywords" content="召開新聞

爬蟲技術 -- 學習網易新聞頁面資訊抓取htmlagilitypack搭配scrapysharp

最近在弄網頁爬蟲這方面的,上網看到關於htmlagilitypack搭配scrapysharp的文章,於是決定試一試~ 於是到https://www.nuget.org/packages/ScrapySharp去看看, 看到這句下載提示:To install ScrapySharp, run the fo

OpenGL入門學習

  片斷測試其實就是測試每一個畫素,只有通過測試的畫素才會被繪製,沒有通過測試的畫素則不進行繪製。OpenGL提供了多種測試操作,利用這些操作可以實現一些特殊的效果。我們在前面的課程中,曾經提到了“深度測試”的概念,它在繪製三維場景的時候特別有用。在不使用深度測試的時候,如果

Python爬蟲包 BeautifulSoup 學習 CSS 選擇器

BeautifulSoup支援最常用的CSS選擇器,在 Tag 或 BeautifulSoup 物件的 .select() 方法中傳入字串引數,即可使用CSS選擇器的語法找到tag。 CSS選擇器 CSS選擇器是一種單獨的文件搜尋語法。 詳情請見此連結

Python爬蟲從入門到放棄之 Scrapy框架整體的一個了解

object 定義 roc encoding eth obi pipe pos 等等 這裏是通過爬取伯樂在線的全部文章為例子,讓自己先對scrapy進行一個整理的理解 該例子中的詳細代碼會放到我的github地址:https://github.com/pythonsite/

python學習 文件和流

內存 無緩沖 abcd 連接 sss 文件操作 打開文件 while 3.5 11.1 打開文件   >>> f = open(r‘c:\text\somefile.txt‘), 第一個參數是文件名,必須有;第二個是模式;第三個參數是緩沖。   11.1

linux學習用戶和用戶組管理

gin rec uda username type /usr 之前 密碼 只有一個 一、用戶文件 文件:/etc/passwd 這個文件記錄了用戶了用戶名,用戶id,所屬組,家目錄,shell信息: [root@iZ25lzba47vZ ~]# tail -n3 /etc

mybatis學習——springmvc++spring+mybatis整合

transacti servlet 自動註入 為我 reac content attribute 定義 property 做任何一個項目都以一個需求,這裏先定義一下需求:利用三大框架查詢酒店列表。 一、搭建開發環境 1、創建一個web項目 我這裏用的是 jdk1.8+to

Java學習

nwr 定義 多線程操作 常用 yield 安全 cin try 過程 Java在設計之初就已經考慮到了線程的問題,因此Java可以有多種方式調用線程。 1.通過繼承線程類的方式調用線程。通過對函數public void run(){……}進行覆蓋來實現相關的程序 2.通過

Python學習 Python 類

count sym == AC val setter 輸入 com ttr Python 類 面向對象編程是有效的軟件編寫方法之一。 python程序編寫方法 1、函數編程,使用函數方式 2、面向對象編程,使用類方式 創建類 創建方法 構造方法,__ini

JMeter4.0學習之JMeter對Mysql、Oracle數據庫性能測試腳本開發

conn 遇到的問題 mys .cn SQ 數據庫性能測試 pos rac 問題總結 一、MySQL數據庫鏈接: 註:下面所產生的問題一律參考詳見:《【JMeter4.0】之遇到的問題總結(持續更新)》(包括Mysql、Orcale) 準備:引包,包路徑一定要放對位置,

操作系統學習 、一致代碼段和非一致代碼段

操作 使用 異常 不知道 .html 代碼段 tails 用戶 logs 一、概述 操作系統保護模式下把代碼段分為一致代碼段和非一致代碼段的原因是:內核程序和用戶程序要分開,內核程序不能被用戶程序幹擾。但是有時候用戶程序也需要讀取內核的某些數據,於是操作系統就從內核程序中分

操作系統學習 、頁級保護

之前 成對 enter 緩沖 目錄 處理 lB 限制 頁表 一、頁級保護方式 頁目錄和頁表表項中的讀寫標誌R/W和用戶/超級用戶標識U/S提供了分段機制保護屬性的一個子集。分頁機制只識別兩級權限。特權級0、1和2被歸類為超級用戶級,而特權級3被稱為普通用戶級。普通用戶級的頁

C++學習C語言部分之 練習

文件頭 語句 font 判斷 c++ c++學習 %d \n AI 1 /* 2 3 1.if 4 輸入一個成績 進行分級 5 6 輸入一個數字 判斷是否是水仙花數 7 比如 153 = 1 * 1 * 1 + 5 * 5 * 5 + 3

C++語言學習——多態

構造 name ast 匹配 地方 參數 替代 xxxx pri C++語言學習(十一)——多態 一、多態簡介 C++中的多態(polymorphism)是指由繼承而產生的相關的不同的類,其對象對同一消息會作出不同的響應。多態性是面向對象程序設計的一個重要特征,能增加程序的

深度學習RNN入門學習

RNN入門學習 原文地址:http://blog.csdn.net/hjimce/article/details/49095371 作者:hjimce 一、相關理論 RNN(Recurrent Neural Networks)中文名又稱之為:迴圈神經網路(原來還有一個遞迴神經網路

機器學習之numpy和matplotlib學習

今天繼續來學習numpy。 學習有關複數矩陣在numpy中的建立和使用。 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Author : SundayCoder-俊勇 # @File : numpy3.py import

JMeter學習WebSerivice測試計劃

WebSerivice測試計劃的取樣器有兩種方式:HTTP請求、SOAP/XML-RPC Request。   1. 測試計劃 啟動JMeter,點選測試計劃節點上,重新命名測試計劃:WebserviceTest.如下圖:   2. 新增執行緒組 

機器學習與深度學習系列連載: 第二部分 深度學習卷積神經網路 2 Why CNN for Image?

卷積神經網路 2 Why CNN 為什麼處理圖片要用CNN? 原因是: 一個神經元無法看到整張圖片 能夠聯絡到小的區域,並且引數更少 圖片壓縮畫素不改變圖片內容 1. CNN 的特點 卷積: 一些卷積核遠遠小於圖片大小; 同樣的pat

buildroot學習——at91sam9g45軟體平臺更新

轉載地址:https://blog.csdn.net/srf1986/article/details/52490719 今天研究下提供的python和python庫都是幹嘛的,下一步在開發板上用python編寫應用程式,現在的任務就是知道有哪些庫,我需要把那些庫編譯進開發板,位置在 Targ