前嗅ForeSpider教程:如何建立新任務
從今天起,小編開始教大家逐步進行視覺化配置操作。首先,我們來學習第一步:建立新任務,主要包括建立新任務的操作步驟,操作中的注意事項兩部分內容。
一,建立新任務操作步驟:
1.新增新任務
點選任務列表右側,新建任務檔案。
【新增任務】
此時會出現一個彈框,可以在彈框中填寫採集地址,修改任務名稱,以及選擇是否需要登入/關鍵詞采集。
【新建任務】
2.填寫採集地址
在彈窗裡填寫採集地址和任務名稱。
【填寫採集地址】
採集地址一般選擇目標網站的入口地址,比如首頁。
大多數情況下,採集地址只填寫一個url地址。如果連結的頁面結構和層級結構是一致的,能夠套用同一套採集模板進行採集,可填寫多個採集地址,中間用回車換行分隔。如果不一致,需要建立新的採集任務。
例1:採集整個淘寶網全部商品的資訊,淘寶網首頁就是入口地址。
例2:只採集“女裝”類別的商品資訊,“女裝”首頁就是入口地址。
例3:只採集某商品的評論資訊,該商品的連結地址就是入口地址。
3.選擇當前頁面所需內容
建立新的任務之後,點選“下一步”,選擇頁面需要抽取內容。
①抽取連結:需要抽取頁面上的連結時,選擇抽取連結以及具體的連結型別,會建立對應的連結抽取。(方式一:智慧過濾/方式二:定位過濾/方式三:地址/標題過濾)
②抽取資料:需要抽取頁面上的資料時,選擇抽取資料,會建立對應的資料抽取。(>>如何選擇表單)
例如:
需要採集新聞的正文資料,當前頁面是新聞首頁,彙集了新聞的連結,正文資料是通過點選新聞連結進入的,所以本頁面需要抽取新聞連結。
軟體預置了一些常見的連結頁面場景,此時勾選連結列表,軟體會自動建立一個連結抽取。
【選擇頁面抽取內容】
點選“完成”,軟體自動建立對應的抽取內容的模板。
二,建立新任務注意事項
1.如何選擇採集型別
採集型別分為預設(html)和本地檔案目錄兩種。
(1)預設(html):採集網站上的各種資訊
(2)本地檔案目錄:採集本地檔案目錄資訊。
【設定採集型別】
2.什麼情況下選擇瀏覽器採集
在頁面均由JS生成時,採集效果不理想的情況下,可以嘗試使用“瀏覽器採集”,該方式近乎於在瀏覽器上點選,會減慢採集速度,但是對JS語法的支援更加全面。
瀏覽器採集:通過瀏覽器的方式採集資料。
適用情況:由大量JS生成的,採集難度大的網頁。對JS語法的支援更加全面,近乎於在瀏覽器上點選,但採集速度慢、效率低。
【設定瀏覽器採集】
3.Cookie的使用方法
① 配置Cookie
(1)填寫Cookie:
正常情況下(除JS生成的Cookie外),軟體會自動獲取Cookie。
當軟體無法獲取到網頁的Cookie時,需要參考下文從瀏覽器尋找Cookie。
(2)禁用Cookie的情況:
對於不需要Cookie的網站,選擇“禁用Cookie”,可加快採集速度。
【Cookie配置】
② 如何通過瀏覽器尋找cookie
在獲取不到登入狀態的時候,可以通過瀏覽器的F12開發者工具進行手動的獲取Cookie。首先先用瀏覽器開啟網頁,點選F12開啟開發者工具,如圖所示。
接下來點選network網路任務列表。
在瀏覽器上輸入使用者名稱密碼,點選登入
可以在network裡面看到出現很多條任務,從中就可以找到關於登入的cookie。
③ 多賬號登入的Cookie處理
當需要登入多個賬號來抓取同一個網頁時,可以在採集列表中設定多個採集任務,採集地址填寫一個地址,填寫不同的Cookie資訊即可。
4.什麼情況下禁用JavaScript
對於有些把JavaScript只用於美觀效果的網頁,關閉JavaScript不影響採集資料時,可以加快採集速度。
【JavaScript配置】