1. 程式人生 > >一大波可視化網頁采集完整過程記錄 新手也能一看就會

一大波可視化網頁采集完整過程記錄 新手也能一看就會

心得

這幾年工作中經常用到各種各樣的網頁爬蟲,過年期間整理了一下,把一些比較實用的采集過程貼成動態GIF圖片小視頻,供以後自己使用。也希望方便到大家。


這裏以八爪魚為演示,沒接觸過可視化網頁采集的話,不妨跟著動圖動手做一做,理解起來更容易些。

下面都是些耗時在1~2分鐘左右的演示,包括完整的規則配置過程、實時運行效果。和用代碼實現爬蟲相比,可視化的優點就是省時間,不是特別麻煩的情況,一般幾分鐘做出來很正常。下面開始:

先來做一個百度搜索結果的爪取規則:
* 點擊查看百度某關鍵詞所有搜索結果爪取演示
這個規則很簡單,創建自動翻頁循環,創建列表循環。需要註意的是,每個點擊動作都是Ajax,所以要記得設置上ajax延時,就不會出錯了。

要想獲得真實鏈接,可以循環點開“百度快照”,在其中可以提取出來更多完整的信息,加載速度還很快。

論壇采集。這裏以天涯論壇為例:
動圖演示天涯論壇貼子和回貼的獲取方法
按上面動圖演示的,大概1分鐘左右就能完成規則制作。
自動翻頁的XPATH進行了自定義,因為智能識別的不準確,改成//a[text()='下頁'] 才能正確點擊到翻頁按鈕。修改方法可以參考動圖中的演示。
tips:一般不需要修改xpath,如果運行的時候數據爪不準確,可以自定義一下xpath校準。XPATH的使用方法可以參考另一篇文章《八爪魚在哪裏設置xpath》

百度貼吧采集:
動圖演示某貼吧貼子列表的獲取方式
這裏演示某個貼吧內所有貼子列表的抓取。
貼子內正文和回貼詳情,也是一樣的制作方法。
需要註意的是,給“點擊翻頁”設置上3-5秒的ajax延時,就不會出錯了。規則制作大約耗時1分鐘左右。
新手做網頁采集,對於AJAX可能比較不好理解。但是有些AJAX動態加載的情況,必須要設置好延時才行。
有一個方法,可以讓新手不受ajax影響:方法就是給每個點擊動作設置3-5秒的ajax延時,如果這個點擊是動態加載,設置了延時就不會出錯;如果不是動態加載,還可以限制新網頁的打開時間。
如果不想浪費時間在判斷ajax上,就都設置上延時,就可以了。

文章的評論采集和分析:
動圖演示網友評論的采集方法
以某篇某篇新聞文章讀者評論為例,演示評論采集方法。從制作規則到完成采集耗時約1分10秒,實現了多個評論數據字段的抓取和自動翻頁的效果。
實際使用中,可以在第一步填入多條網址批量處理。

對於抓到的評論,可以一鍵進入智能可視化分析,一鍵生成圖表、對文本進行文本情感語義分析、關鍵詞提取等。
動圖演示對評論進行可視化分析的方法
後面舉例獲取的數據,都可以用相同的方法對數據進行分析。

動圖演示今日頭條文章列表的獲取方法
上圖演示的是今日頭條首頁,瀑布流文章列表的抓取。自動下翻10次,最終獲取到77篇文章。規則制作耗時約40秒。

動圖演示今日頭條文章正文和標簽的獲取方法
第一步中,一次可以填寫上萬條文章網址。為了保證執行速度,給“打開網頁”步驟設置了5秒延時限制,限制網頁在5秒內加載完成。
這個規則中,正文文本和標簽兩個字段是手動添加的。正文文本都在section元素內,采集到Section中的p元素,就是幹凈的正文文本。所以手動向流程中拖拽一個“循環”步驟,在“不固定元素”中填寫XPATH://section/p,意為section元素內的所有p元素。“提取數據”步驟中設置數據合並方式為:同一字段多次提取合並為一行。
標簽的提取也是同樣的原理。可以參考動圖裏的演示,試一試。
網頁數據采集的方法多種多樣,除了這樣手動提取數據的方法,你也可以試試直接在下面內置瀏覽器中點選,說不定更方便更好用。

微博按關鍵詞搜索:
動圖演示微博某關鍵詞搜索結果的獲取方法
這個規則是內置現成的,叫“簡易采集”。上面需要自己做流程的是自定義采集。
簡易采集不需要自己制作,填上選項就行,一般30秒就能配置完成。
微博這個網頁采集自己做規則不好做,登錄頁面有難度。所以用內置封裝好的規則,不僅快而且準確不出錯。

微博評論采集
這個規則制作起來有點麻煩,復雜一點的規則我都傳到網盤了

,需要的話可以到我的百度網盤自己下載:https://pan.baidu.com/s/1d7thL0


運行效果:

點擊從頭播放完整動圖
技術分享圖片



京東的商品評論:
動圖演示京東評論的采集方法
這個規則是內置現成的,不需要自己制作。20秒就能配置完成。

* 百度知道某關鍵詞最新提問
* 百家號某作者全部文章列表爪取演示 用這個獲取同行作者的所有文章列表(包括標題和網址)
* 百家號文章正文爪取演示 簡單篩選後,再用這個獲取每篇文章的正文、標簽
* 知乎某關鍵詞搜索
* 點擊查看百度搜索風雲榜實時熱點top50爪取演示
* 點擊查看貼吧熱議榜top20爪取演示
* 點擊查看網易文章24小時排行榜爪取演示
* 點擊查看新浪博客24小時排行榜爪取演示
* 點擊查看新浪財經某個表格的爪取演示


總結一下,可視化的工具使用方便,不懂代碼也可以做出爬蟲。如果懂得一些網頁知識、XPATH、正則表達式以等,熟能生巧,可以讓采集結果更準確,更加貼合需求。


最最後,歡迎收藏、轉載,希望對大家有幫助。



一大波可視化網頁采集完整過程記錄 新手也能一看就會