1. 程式人生 > >前嗅ForeSpider采集配置界面介紹

前嗅ForeSpider采集配置界面介紹

pro 爬蟲 shadow 圖標 設置 cto spider 預覽 顯示

今天,小編為大家介紹一下,前嗅ForeSpider的采集配置界面,具體內容如下:

?

啟動ForeSpider采集軟件後,默認界面如圖所示。ROOT任務下有已經配置好的示例模板,點擊網站圖標即可進行采集預覽。可在任務列表選擇某一任務按照需求重新配置。

技術分享圖片
【采集配置界面】

?

1.任務列表

技術分享圖片
【任務列表】

任務對應著采集來源,通常一個采集來源對應著一個任務。如采集人民網時,人民網就是一個任務;通過百度采集全網信息時,百度就是一個任務;通過100個網址導航采集全球域名時,這100個網址導航就是一個任務。

?

2.任務屬性配置

用戶可根據采集需求與網站的設置選擇性的配置任務屬性。

任務屬性配置包括登錄網站、關鍵詞采集、瀏覽器采集、采集類型、禁用Cookie及Cookie設置6個部分。

技術分享圖片

【任務屬性配置】

(1)登錄網站

如果采集源的數據需要登錄才可以采集到,則需要配置登錄信息。開啟登錄後,右側會出現操作向導。

(2)關鍵詞采集

當采集對象是搜索欄時,需要進行關鍵詞配置。開啟關鍵詞采集後,右側會出現操作向導。

當網站登錄與采集登錄同時開啟時,可在任務屬性配置欄右側切換操作向導。

技術分享圖片
【登錄與關鍵詞采集】

(3)瀏覽器采集

通過瀏覽器插件的方式采集數據。適用於大量JS生成且采集難度大的網頁。對JS支持好,近乎於在瀏覽器上點擊,但采集效率低。

(4)采集類型

采集類型分為默認(html)和本地文件目錄兩種。

(5)禁用Cookie

禁止使用Cookie解析網頁。

(6)Cookie

當網站需要Cookie驗證才能采集時,需要配置Cookie信息。

?

3.模板抽取配置

技術分享圖片
【模板抽取配置】

(1)模板

模板通過一個示例地址,模板化同一層級的頁面,從而達到批量采集的效果。一個模板對應一個層級的頁面,因此同一層頁面只能配置一個模板,填寫一個示例地址,但是一個模板中可以創建多個鏈接、數據抽取,每個鏈接抽取都要關聯其他模板。

通過模板之間的關聯,模擬網站各頁面的跳轉關系。通過鏈接抽取,抽出網頁中的鏈接。通過數據抽取,抓取網頁中的數據。

(2)模板屬性配置

技術分享圖片

【模板屬性配置】

①抽取類型選擇

抽取類型包括鏈接抽取和數據抽取。

技術分享圖片

【抽取類型選擇】

②示例地址

示例地址作為樣例,成為模板,通過以該地址配置模板,可以抓取與該地址在同一層級、具有相似結構的頁面數據。

任務第一個模板的示例地址默認為創建任務時填寫的采集地址。

技術分享圖片

【示例地址】

③高級選項

高級選項包括字符編碼、文檔類型、網頁類型、主題過濾、未匹配處理模板5個部分。(不常用功能)

技術分享圖片

【高級選項】

(3)鏈接(網址)配置

技術分享圖片

【鏈接(網址)配置】

①關聯模板

關聯模板是指該“鏈接抽取”抽取出的鏈接,其下一層級頁面對應的模板,也就是在瀏覽器中,點擊鏈接打開的下一層頁面。通過模板之間的關聯,可以將網站各層級頁面關聯起來,在軟件中形成與瀏覽器相同的跳轉結構,從而完整的采集數據。

②鏈接類型

鏈接類型可分為普通網頁鏈接、圖片視頻等資源鏈接和自定義類型三種。默認選擇普通網頁鏈接。

③智能過濾

智能過濾可以一鍵過濾出,鏈接地址規律相同的鏈接。適用於大多數情況,如過濾的不正確,可以使用地址/標題過濾。

④定位過濾

定位過濾是通過內置瀏覽器定位,適用於所需鏈接都集中在一小片區域的情況。

⑤地址/標題過濾

為了在抽取的鏈接中去除無關鏈接,有兩種過濾方式,配置方式相同。地址過濾是通過url地址的規律,過濾無關鏈接。標題過濾是通過鏈接標題的規律,過濾無關鏈接。

(4)數據屬性配置

技術分享圖片

【數據屬性配置】

①數據表單

在ForeSpider爬蟲中,表單是可以復用的,所以可以在數據表單出直接選擇之前建過的表單,也可以通過表單ID來進行查找並關聯數據表單。

②點擊創建表達

若在數據抽取鏈接下,沒有相應表單可供選擇,可點擊“創建表單”按鈕,快速創建表單。可添加表單名稱、字段名稱,選擇字段類型、表單模板。(>>快速建表/>>自由建表)

③數據存儲方式

指的是數據采集時,在數據庫裏的存儲方式。

④列表數據

識別列表用於存儲表格/列表的數據,將表格/列表的不同列對應存入不同字段,表格/列表的不同行分別存儲為數據表的多條記錄。(>>如何采集列表/表格數據)

?

4.采集地址

采集對象的入口地址(url地址)。比如采集整個淘寶網全部商品的信息,淘寶網首頁就是入口地址。比如只采集“女裝”類別的商品信息,“女裝”首頁就是入口地址。

技術分享圖片
【采集地址】

?

5.內置瀏覽器

模擬不同版本的瀏覽器。填入采集地址,可點擊內置瀏覽器顯示采集頁面。

技術分享圖片

【內置瀏覽器】

前嗅ForeSpider采集配置界面介紹