1. 程式人生 > >前嗅ForeSpider教程:采集圖片/視頻/資源文件的鏈接地址

前嗅ForeSpider教程:采集圖片/視頻/資源文件的鏈接地址

https 對待 鏈接類型 點擊 方法 軟件 ddc RoCE 介紹

昨天為大家介紹了如何采集圖片/視頻/資源文件後,有小夥伴問我如何采集他們的鏈接地址,今天小編就為大家演示如何采集圖片/視頻/資源文件的鏈接地址,操作如下:
第一步:新建任務

①點擊左上角“加號”新建任務,如圖1:

技術分享圖片

②在彈窗裏填寫采集地址,任務名稱如圖2:

技術分享圖片

③點擊下一步,選擇進行數據抽取還是鏈接抽取,本次采集所有頁面的圖片,圖片鏈接是通過點擊圖片列表鏈接進入的,所以本次需要抽取列表圖片鏈接,所以點擊抽取鏈接,如圖3:

技術分享圖片

第二步:選擇鏈接類型

由於本次需要取到的是圖片鏈接,圖片鏈接不同於其他網頁鏈接,所以需要特殊對待,在鏈接(網址)屬性配置下面的“鏈接類型”中,選擇“圖片、視頻等資源鏈接”

技術分享圖片

第三步:通過地址過濾,得到所需鏈接。

①點擊采集預覽,在采集預覽中有於目標鏈接相似的其他鏈接,可通過地址過濾得到列表鏈接。找到所需要的列表鏈接,觀察得出所需要的目標鏈接都包含“.jpg”,如圖5所示。

技術分享圖片

②勾選地址過濾,過濾規則選擇包含,填入“.jpg\e”,得到列表鏈接,如圖6所示。

技術分享圖片

③點擊采集預覽確認鏈接是否過濾完全,如圖7

技術分享圖片

第四步:創建翻頁鏈接抽取

方法一:創建任務,勾選鏈接抽取,直接選擇鏈接列表和普通翻頁,如圖8

技術分享圖片

方法二:如果創建任務時,只勾選了鏈接列表,可以點擊上一步,回到模板層,補選翻頁鏈接抽取,點擊下一步,創建翻頁鏈接

方法三:直接點擊模板二,點擊上面“新建鏈接抽取”按鈕,得到鏈接抽取,如圖9
技術分享圖片

第五步:通過標題過濾,過濾翻頁鏈接

①點擊采集預覽,我們可以發現,翻頁鏈接即為名為上一頁、下一頁兩條鏈接。對於翻頁,只需要取到標題名為“下一頁”的鏈接即可。

②這裏應用標題過濾,過濾規則選擇“包含”,過濾串填寫“下一頁”即可。如圖10
技術分享圖片

③點擊采集預覽查看是否過濾成功,如圖11

技術分享圖片

第六步:關聯模板

在軟件中模板的關聯關系,與網頁中鏈接跳轉的關系相同。

①關聯“鏈接列表”

根據網頁跳轉規律,將“鏈接列表”關聯模板二“鏈接列表:02”,此處由於我們開始就選擇了創建列表鏈接,所以軟件自動關聯好了模板二。如果配置的時候發現關聯有問題,可以自己進行更改,如圖12
技術分享圖片

②關聯“翻頁”(對應第四步創建翻頁鏈接抽取)

情況一:創建模板或通過向導,創建的翻頁鏈接抽取,會默認關聯模板一,即當前頁模板,如圖13。

情況二:手動點擊按鈕創建翻頁鏈接抽取,需要手動關聯,如圖13。

技術分享圖片

第七步:填寫模板二示例地址並新建數據抽取

模板一過濾得到的任意一條鏈接,作為模板二的示例地址。如:http://pic146.nipic.com/pic/20171118/6647776_134300461034_4.jpg, 見圖14:

技術分享圖片

②創建數據抽取

方法一:通過點擊“下一步”後勾選抽取數據,再次點擊“下一步”得到數據抽取,如圖15

方法二:直接點擊模板二,點擊上面“新建數據抽取”按鈕,得到數據抽取,如圖15

技術分享圖片

第八步:創建/選擇表單

在ForeSpider爬蟲中,表單是可以復用的,所以可以在數據表單出直接選擇之前建過的表單,也可以通過表單ID來進行查找並關聯數據表單。此處使用的是昵圖網的表單,如圖16

方法一:通過下拉菜單或表單ID選擇已有表單

方法二:點擊創建表單進入快速建表頁面,新建表單

技術分享圖片

方法三:點擊“采集配置”-“數據建表”,點擊采“采集表單”後面的如圖17
技術分享圖片

第九步:配置表單

根據所需內容,配置表單字段(即表頭),此處配置了包括網頁標題、網頁地址和圖片兩個個字段,表單如圖18

技術分享圖片

第十步:字段取值

取值方法:按住Ctrl+鼠標左鍵,進行區域選擇,按住Shift+鼠標左鍵,擴大選擇區域。

pic_image字段,如圖19

技術分享圖片
第十一步:采集預覽

點擊右上角采集預覽,如圖20
技術分享圖片

前嗅ForeSpider教程:采集圖片/視頻/資源文件的鏈接地址