前嗅ForeSpider採集配置介面介紹
今天,小編為大家介紹一下,前嗅ForeSpider的採集配置介面,具體內容如下:
啟動ForeSpider採集軟體後,預設介面如圖所示。ROOT任務下有已經配置好的示例模板,點選網站圖示即可進行採集預覽。可在任務列表選擇某一任務按照需求重新配置。
【採集配置介面】
1.任務列表
【任務列表】
任務對應著採集來源,通常一個採集來源對應著一個任務。如採集人民網時,人民網就是一個任務;通過百度採集全網資訊時,百度就是一個任務;通過100個網址導航採集全球域名時,這100個網址導航就是一個任務。
2.任務屬性配置
使用者可根據採集需求與網站的設定選擇性的配置任務屬性。
任務屬性配置包括登入網站、關鍵詞采集、瀏覽器採集、採集型別、禁用Cookie及Cookie設定6個部分。
【任務屬性配置】
(1)登入網站
如果採集源的資料需要登入才可以採集到,則需要配置登入資訊。開啟登入後,右側會出現操作嚮導。
(2)關鍵詞采集
當採集物件是搜尋欄時,需要進行關鍵詞配置。開啟關鍵詞采集後,右側會出現操作嚮導。
當網站登入與採集登入同時開啟時,可在任務屬性配置欄右側切換操作嚮導。
【登入與關鍵詞采集】
(3)瀏覽器採集
通過瀏覽器外掛的方式採集資料。適用於大量JS生成且採集難度大的網頁。對JS支援好,近乎於在瀏覽器上點選,但採集效率低。
(4)採集型別
採集型別分為預設(html)和本地檔案目錄兩種。
(5)禁用Cookie
禁止使用Cookie解析網頁。
(6)Cookie
當網站需要Cookie驗證才能採集時,需要配置Cookie資訊。
3.模板抽取配置
【模板抽取配置】
刪除模板、連結抽取或資料抽取。
新增連結抽取。
新增資料抽取。
(1)模板
模板通過一個示例地址,模板化同一層級的頁面,從而達到批量採集的效果。一個模板對應一個層級的頁面,因此同一層頁面只能配置一個模板,填寫一個示例地址,但是一個模板中可以建立多個連結、資料抽取,每個連結抽取都要關聯其他模板。
通過模板之間的關聯,模擬網站各頁面的跳轉關係。通過連結抽取,抽出網頁中的連結。通過資料抽取,抓取網頁中的資料。
(2)模板屬性配置
【模板屬性配置】
①抽取型別選擇
抽取型別包括連結抽取和資料抽取。
【抽取型別選擇】
②示例地址
示例地址作為樣例,成為模板,通過以該地址配置模板,可以抓取與該地址在同一層級、具有相似結構的頁面資料。
任務第一個模板的示例地址預設為建立任務時填寫的採集地址。
【示例地址】
③高階選項
高階選項包括字元編碼、文件型別、網頁型別、主題過濾、未匹配處理模板5個部分。(不常用功能)
【高階選項】
(3)連結(網址)配置
【連結(網址)配置】
①關聯模板
關聯模板是指該“連結抽取”抽取出的連結,其下一層級頁面對應的模板,也就是在瀏覽器中,點選連結開啟的下一層頁面。通過模板之間的關聯,可以將網站各層級頁面關聯起來,在軟體中形成與瀏覽器相同的跳轉結構,從而完整的採集資料。
②連結型別
連結型別可分為普通網頁連結、圖片視訊等資源連結和自定義型別三種。預設選擇普通網頁連結。
③智慧過濾
智慧過濾可以一鍵過濾出,連結地址規律相同的連結。適用於大多數情況,如過濾的不正確,可以使用地址/標題過濾。
④定位過濾
定位過濾是通過內建瀏覽器定位,適用於所需連結都集中在一小片區域的情況。
⑤地址/標題過濾
為了在抽取的連結中去除無關連結,有兩種過濾方式,配置方式相同。地址過濾是通過url地址的規律,過濾無關連結。標題過濾是通過連結標題的規律,過濾無關連結。
(4)資料屬性配置
【資料屬性配置】
①資料表單
在ForeSpider爬蟲中,表單是可以複用的,所以可以在資料表單出直接選擇之前建過的表單,也可以通過表單ID來進行查詢並關聯資料表單。
②點選建立表達
若在資料抽取連結下,沒有相應表單可供選擇,可點選“建立表單”按鈕,快速建立表單。可新增表單名稱、欄位名稱,選擇欄位型別、表單模板。(>>快速建表/>>自由建表)
③資料儲存方式
指的是資料採集時,在資料庫裡的儲存方式。
④列表資料
識別列表用於儲存表格/列表的資料,將表格/列表的不同列對應存入不同欄位,表格/列表的不同行分別儲存為資料表的多條記錄。(>>如何採集列表/表格資料)
4.採集地址
採集物件的入口地址(url地址)。比如採集整個淘寶網全部商品的資訊,淘寶網首頁就是入口地址。比如只採集“女裝”類別的商品資訊,“女裝”首頁就是入口地址。
【採集地址】
5.內建瀏覽器
模擬不同版本的瀏覽器。填入採集地址,可點選內建瀏覽器顯示採集頁面。
【內建瀏覽器】