爬蟲中網頁分析的幾種技術

阿新 • • 發佈：2019-02-13

一般來說我們只抓取網頁中的特定資料，比如抓取某人所有的blog，我們就只關心list 頁面中文章列表那部分的連結和title

有幾種技術可以用來分析網頁

1）正則匹配

2）一般字串匹配content.substring(pattern, startIndex)，一般是帶有startIndex的substring，而不是每次都是從頭匹配

3) 基於sax的事件

4）DOM + XPath

抓去的資料有兩種

1）基於資料本身的parttern，比如連結、email adrress，適合用正則

2）基於位置。資料本身沒什麼特別，關鍵在於在什麼位置出現。適合用其他3種，

基於sax事件的最好，流式處理，不需要儲存整個網頁，缺點是有些網頁不規範，sax 要求必須是合法、well formed xml。

substring和正則一般需要先把網頁讀成字串，substring更簡單輕量級一些，

DOM+xpath太殺雞用牛刀了

例子，把自己csdn上所有的博文扒下來：

from urllib2 import Request, urlopen, URLError

page, articleList, visited, startOver = 1, [], set(), False
while not startOver:
    req = Request('http://blog.csdn.net/binling/article/list/' + str(page), headers={'User-agent': 'Mozilla 5.10'})
    try:content = urlopen(req).read()
    except URLError, e: break
    pos = 0
    while True:
        try:
            pos = content.index('link_title', pos)
            pos = content.index('href', pos)
            pos = content.index('"', pos)
            end = content.index('"', pos + 1)
            link = content[pos + 1:end].strip().decode('utf-8')
            if link in visited:
                startOver = True
                break
            pos = content.index('>', end)
            end = content.index('</a>', pos)
            title = content[pos + 1: end].strip()
            articleList.append((title.decode('utf-8'), link))
            visited.add(link)
        except: break
    page += 1

home = 'C:\\Personal\\CSDN'
for title, link in articleList:
    for c in '/\*:<>?"|':
        if c in title: title = title.replace(c, ' ')
    content = urlopen(Request('http://blog.csdn.net' + link, headers={'User-agent': 'Mozilla 5.10'})).read()
    with open(home + '\\' + title + '.html', 'w') as f:
        f.write(content)
        print title

爬蟲中網頁分析的幾種技術

一般來說我們只抓取網頁中的特定資料，比如抓取某人所有的blog，我們就只關心list 頁面中文章列表那部分的連結和title 有幾種技術可以用來分析網頁 1）正則匹配 2）一般字串匹配content.substring(pattern, startIndex)，一般是帶有

分析幾種TCP狀態轉換中的非正常轉換

1、伺服器從listen狀態變成close狀態的原因：伺服器在監聽埠的時候，此時有些資源載入的有問題導致服務沒開啟，此時伺服器會從listen狀態變成closed狀態。因此，伺服器在初始化時候，最好不要開啟聯網的埠。 &nb

演算法分析中常用的幾種漸進符號

在演算法分析中，經常會遇到以下幾種漸進符號漸近精確界記號：ΘΘ（big-theta）漸近上界記號：OO(big-oh) 漸近下界記號：ΩΩ(big-omege) 非漸近緊確上界：o(小-oh) 非漸近緊確下界：ω(小-omege) 下面對漸進符號進行詳解：大寫O符號f

Android中IPC的幾種方式詳細分析與優缺點分析

Android程序間通訊(IPC:Inter-Process Communication)的幾種主要方式如下 1.使用Bundle ----> 用於android四大元件間的程序間通訊 android的四大元件都可使用Bundle傳遞資料所以如果要實現四大元

網頁中豎線的幾種做法

原文地址:http://blog.sina.com.cn/s/blog_5d04b1530100f1gz.html Q：網頁中豎線的幾種做法 A：1、用水平線做：一般水平線的是寬長高短<hr width="1000" size="1" color=#000000>

淺談UML中常用的幾種圖——用例圖

多個 spa log 分享擴展有關包圖可見發的 1.UML簡介　　統一建模語言（Unified Modeling Language，UML）又稱標準建模語言，是始於1997年的一個OMG標準，它是一個支持模型化和軟件系統開發的圖形化語言，為軟件開發的所有階段提供

3分鐘掌握MongoDB中的regex幾種用法

lib cat 正則表達式小寫可選參數介紹 src 我們包括 3分鐘掌握MongoDB中的regex幾種用法背景Part1:寫在最前使用MySQL或其他關系型數據庫的朋友們都知道，使用模糊查詢的用法類似於：SELECT * FROM products WHERE s

說出JQuery中常見的幾種函數以及他們的含義是什麽？

對象 jquery 加載插入內容其中 ont expr class exp 　　jQuery中常見的函數如下：　　（1）get（）取得所有匹配的DOM元素集合。　　（2）get（index）取得其中一個匹配的元素。index表示取得第幾個匹配的元素。　　（3

javaScript中常見的幾種報錯類型

變量類型最大 tro 堆棧 malformed {} 原因 s函數舉例一般我們運行代碼的時候，在控制臺報錯會相應的顯示你錯誤的行數，找到那一行，查找你相應的錯誤 1、xxx is not defined xxx 沒有定義 2、xxx is

轉：jvm中oom的幾種情況

對於JVM的記憶體寫過的文章已經有點多了，而且有點爛了，不過說那麼多大多數在解決OOM的情況，於此，本文就只闡述這個內容，攜帶一些分析和理解和部分擴充套件內容，也就是JVM宕機中的一些問題，OK，下面說下OOM的常見情況：第一類記憶體溢位，也是大家認為最多，第一反應認為是的記憶體溢位，就是堆疊

javaScript中陣列的幾種常用方法

1.splice(2,3,4)刪除陣列中任意項(三個引數). 2.splice(1,3)刪除從第一項開始的往後三項(兩個引數).(splice可以結合pop(),unshift(),push(),shift()來理解) 3.push()在陣列的末尾增加一項. 4.unshift()在陣列

幾種技術原理的初解 EJB spring springmvc

1.EJB技術參考文章： EJB是sun的JavaEE**伺服器端元件模型，設計目標與核心應用是部署分散式應用程式。簡單來說就是把已經編寫好的程式（即：類）打包放在伺服器上**執行。憑藉java跨平臺的優勢，用EJB技術部署的分散式系統可以不限於特定的平臺。 EJB 是為了”服務叢

web中loading的幾種方式

大體可分為三類，分別為菊花圖類、頂部進度條類、skeleton screen(載入佔位圖) 菊花圖 -----【適合整個頁面一起呈現，保持資料的連貫性】 loading菊花圖百分比 gif動畫頂部

【Android】實現XML解析的幾種技術

轉載地址：http://www.cnblogs.com/hanyonglu/archive/2012/02/28/2370675.html 謝謝。本文介紹在Android平臺中實現對XML的三種解析方式。 XML在各種開發中

Android第一天---開發中常用的幾種佈局

第一種：LinearLayout:線性佈局線性佈局是按照處置或者水平進行排布的，預設是水平屬性：orientation：用來指定當前的線性佈局的排布方向。 wrap_content：包裹內容 match_parent：匹配父類 margin：外邊距 padding

WPF開發中常用的幾種佈局元素

Grid：網格。可以自定義行和列並通過行列的數量、行高和行寬來調整控制元件的佈局，類似於HTML中的Table。 StackPanel：棧式模板。可將包含的元素在豎直或水平方向上排成一條直線，當移除一個元素後，後面的元素會自動向前移動以填充空缺。 Canvas：畫布。內部元素可以使用以畫素為單位的絕對座標

iOS中Runtime的幾種基本用法記錄（必看）

Runtime顧名思義執行時，就是系統在執行的時候的一些機制，最主要的是訊息機制。下面這篇文章主要給大家介紹了關於iOS中Runtime的幾種基本用法，文中通過示例程式碼介紹的非常詳細，需要的朋友下面隨著小編來一起學習學習吧 Runtime 介紹這不是一遍介紹關於Runtime實現

python中字串的幾種表達方式（用什麼方式表示字串）

說明: 　　今天在學習python的基礎的內容,學習在python中如何操作字串,在此記錄下. 　　主要是python中字串的幾種表達，表示方式。 python的幾種表達方式　　1 使用單引號擴起來字串 >>> 'my python lession' #以單引號

實際業務中碰到的幾種ajax請求方法總結

最近在做一個針對單個節點測速的功能頁面，測速的邏輯是，測上傳速度時，前端傳5m資料給server，記錄上傳和返回資料的時間，測下載速度時，從server下載1m的資料，記錄下載和下載成功的時間，上傳和下載用的是ajax同步以避免客戶端頻寬阻塞的問題，並進行3次取平均值。在開發過程過，因為ajax同步

SaaS “可配置”和“多租戶”架構的幾種技術實現方式

1、資料儲存方式的選擇多租戶（Multi-Tenant ），即多個租戶共用一個例項，租戶的資料既有隔離又有共享，說到底是要解決資料儲存的問題。常用的資料儲存方式有三種。方案一：獨立資料庫

爬蟲中網頁分析的幾種技術

相關推薦