使用IE控制元件來分析網頁結構,模擬測試爬蟲,使用scrapy+selenium來執行網頁爬蟲
阿新 • • 發佈:2018-11-29
通常我們使用scrapy來進行網頁內容的收集,但使用起來非常的不方便:
1. 需要使用工具,或者手動來計算得到網頁元素的xpath。
2. 對一些網頁內需要ajax的執行才顯示的內容處理起來並不方便。
我通過找相關的工具,研究爬蟲方案,找到了一個比較合適的工具軟體,和方便易用的處理流程:
工具軟體的名字是掘金資料處理平臺,介面如下:
scrapy輔助介面如下:
使用方法:
1. 在瀏覽器窗體,輸入瀏覽url,開啟目標網頁
2. 使用右鍵點選網頁中的元素(字元,圖片等),就可以直接分析出元素的xpath,屬性值等資訊。
3. 在控制面板可以配置如何處理這些元素。
4. 可以對鈕點選後,分析相應的日誌執行流程。
5. 在scrapy面板下,開啟一個目標python檔案,右鍵點選網頁元素可以將xpath直接插入到文字中。
6. 可以測試執行,並且資料會記錄在內建的sqlite資料庫中。
測試方法可以參考視訊教程:
http://v.youku.com/v_show/id_XMTgyNzQxMzA2MA==.html?spm=a2h0j.11185381.listitem_page1.5~A
同時開啟工具,和開發環境,兩者一起配合編寫成功scrapy+selenium資料收集指令碼。
執行scrapy指令碼,觀察分析結果,再次調整,同時對比工具的測試執行結果。
使用以上的處理流程會非常方便的製做一個強大的資料收集指令碼。
有任何使用方面的問題,請大家留言。