1. 程式人生 > >使用IE控制元件來分析網頁結構,模擬測試爬蟲,使用scrapy+selenium來執行網頁爬蟲

使用IE控制元件來分析網頁結構,模擬測試爬蟲,使用scrapy+selenium來執行網頁爬蟲

通常我們使用scrapy來進行網頁內容的收集,但使用起來非常的不方便:

1. 需要使用工具,或者手動來計算得到網頁元素的xpath。

2. 對一些網頁內需要ajax的執行才顯示的內容處理起來並不方便。

我通過找相關的工具,研究爬蟲方案,找到了一個比較合適的工具軟體,和方便易用的處理流程:

工具軟體的名字是掘金資料處理平臺,介面如下:

scrapy輔助介面如下:

使用方法:

1. 在瀏覽器窗體,輸入瀏覽url,開啟目標網頁

2. 使用右鍵點選網頁中的元素(字元,圖片等),就可以直接分析出元素的xpath,屬性值等資訊。

3. 在控制面板可以配置如何處理這些元素。

4. 可以對鈕點選後,分析相應的日誌執行流程。

5. 在scrapy面板下,開啟一個目標python檔案,右鍵點選網頁元素可以將xpath直接插入到文字中。

6. 可以測試執行,並且資料會記錄在內建的sqlite資料庫中。

測試方法可以參考視訊教程:

http://v.youku.com/v_show/id_XMTgyNzQxMzA2MA==.html?spm=a2h0j.11185381.listitem_page1.5~A

 

同時開啟工具,和開發環境,兩者一起配合編寫成功scrapy+selenium資料收集指令碼。

執行scrapy指令碼,觀察分析結果,再次調整,同時對比工具的測試執行結果。

使用以上的處理流程會非常方便的製做一個強大的資料收集指令碼。

有任何使用方面的問題,請大家留言。