【爬蟲學習】Web Scraper爬取知乎賬戶關注的問題
文:小歐

圖片來自漫畫 長頸鹿但丁
現在各個網站對於反爬蟲這一塊的投入力度應該是越來越大了,找了網上比較多的方法來學習,比如爬取 B站的彈幕,但是現在已經找不到 xml 文件了;想爬取公眾號的資料,但是微信只顯示最近最近10條文章標題,如果直接搜尋關鍵字,那其他的公眾號只要用了這個關鍵字也會爬取進來,資料就不準確了。
目前是用 Web scraper 外掛來學習抓取知乎的粉絲,也可以爬取自己回答的問題,接下來說明如何爬取知乎上自己關注的所有問題。
一、準備階段
主要是需要谷歌瀏覽器和外掛準備。我自己平常就是用谷歌瀏覽器,這個在網上可以隨時找到,Web scraper 外掛在網上也是很容易找到的。下載好外掛之後,就要放到谷歌瀏覽器的外掛中心,之前學習Axure有用過外掛,這一步對我來說很快完成了。
谷歌瀏覽器下載連結: ofollow,noindex">https://www.google.cn/chrome/
Web scraper外掛下載: https://www.google.cn/chrome/
谷歌瀏覽器如何安裝第三方外掛: https://jingyan.baidu.com/article/e5c39bf56286ae39d6603374.html
二、資料爬取
1、進入到指定網頁。 我們是要爬取自己在知乎關注問題的標題,開啟之後進入個人中心,然後按下【F12】或者【右鍵——檢查】,出現開發者模式。出現螢幕之後一般是上下分屏會比較便於操作,如果是左右分屏的,可以點選“三點”那裡,然後選擇上下分屏就好。
2、建立站點地圖。 點選【Web scraper】,再點選【Create new sitamap】中的Create sitemap,就會進入到創造新的站點地圖頁面。

建立站點地圖
3、多頁面的時候先了解規則
多頁面的時候,瞭解排序規則,然後在末尾把1改成[1-X]就可以了,延遲是說點選兩個不同資料之間的時間間隔,頁面載入時間是抓取時換頁面所用的時間。

設定頁面爬取詳情
4、下載資料

爬取資料

下載資料

成果