1. 程式人生 > >前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務

前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務

第一步:新建任務

①點選左上角“加號”新建任務,如圖1:

前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務
【圖1】

②在彈窗裡填寫採集地址,任務名稱,如圖2:

前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務

【圖2】

③點選下一步,選擇進行資料抽取還是連結抽取,本次採集當前頁面子欄目下的列表房源的正文資料,子欄目房源列表是通過點選子欄目連結進入的,所以本次需要抽取子欄目連結,所以點選抽取連結,選擇子欄目,如圖3:

前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務
【圖3】

④完成後模板抽取配置列表有兩個模板,預設模板和子欄目。預設模板下自動生成一個連結抽取,名稱為子欄目,此連結已與子欄目模板關聯,如圖4。

前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務
【圖4】

第二步:通過地址過濾,得到所需的子欄目連結。

①點選採集預覽,在採集預覽中有於目標連結相似的其他連結,可通過地址過濾得到二手房子欄目連結。找到所需要的子欄目連結,右擊複製連結,如圖5所示。

前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務

【圖5】

②勾選地址過濾,過濾規則選擇包含,將複製的目標地址粘入,使用過濾串“\E”得到二手房子欄目連結,如圖6所示。

過濾串規則說明:\E 檔案結束(忽略所有請求引數)

前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務

【圖6】

③點選採集預覽確認連結是否過濾完全,如圖7

前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務

【圖7】

第三步:填寫子欄目模板示例地址並新建連結抽取

①填寫示例地址,將模板一過濾得到的連結,作為子欄目的示例地址,即二手房子欄目列表頁連結,如圖8所示。

前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務

【圖8】

②直接點選子欄目模板,點選上面“新建連結抽取”按鈕,得到連結抽取,如圖9。

前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務

【圖9】

第四步:通過地址過濾,得到所需列表連結。

①右擊模板預覽找到房源列表連結,如圖10所示。觀察連結得出規律使用過濾串得到目標連結。

前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務

【圖10】

②勾選地址過濾,過濾規則選擇包含,將複製的目標地址粘入,使用共用詞“chushou”過濾得到目標連結,如圖11。

前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務
【圖11】

③點選採集預覽確認連結是否過濾完全,如圖12

前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務
【圖12】

第五步:建立翻頁連結抽取

方法一:建立任務,勾選連結抽取,直接選擇連結列表和普通翻頁,如圖13。

前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務

【圖13】

方法二:如果建立任務時,只勾選了連結列表,可以點選上一步,回到模板層,補選翻頁連結抽取,點選下一步,建立翻頁連結。

方法三:直接點選模板二,點選上面“新建連結抽取”按鈕,得到連結抽取,並重名命為翻頁,如圖14。

前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務
【圖14】

第六步:通過標題過濾,過濾翻頁連結

①點選採集預覽,我們可以發現,翻頁連結即為名為上一頁、下一頁兩條連結。對於翻頁,只需要取到標題名為“下一頁”的連結即可。

②這裡應用標題過濾,過濾規則選擇“包含”,過濾串填寫“下一頁”即可。如圖15。

前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務

【圖15】

③點選採集預覽檢視是否過濾成功,如圖16.

前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務
【圖16】

⑤關聯“翻頁”

情況一:建立模板或通過嚮導,建立的翻頁連結抽取,會預設關聯模板一,即當前頁模板,如圖17。

情況二:手動點選按鈕建立翻頁連結抽取,需要手動關聯。

前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務
【圖17】

第七步:建立新的模板,並新建資料抽取

①在模板配置,點選“新建模板”按鈕,得到新建模板,重新命名為正文資料模板,如圖18。

前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務
【圖18】

②新建資料抽取。直接點選模板二,點選上面“新建資料抽取”按鈕,得到資料抽取,如圖19。

前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務

【圖19】

③關聯模板

在軟體中模板的關聯關係,與網頁中連結跳轉的關係相同。

根據網頁跳轉規律,將“新建連結抽取”關聯模板“正文資料模板”,如圖20

前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務
【圖20】

第八步:建立/選擇表單

在ForeSpider爬蟲中,表單是可以複用的,所以可以在資料表單出直接選擇之前建過的表單,也可以通過表單ID來進行查詢並關聯資料表單。此處使用的是之前建過的房天下的表單,如圖21。

方法一:通過下拉選單或表單ID選擇已有表單

方法二:點選建立表單進入快速建表頁面,新建表單

前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務
【圖21】

方法三:點選“採集配置”-“資料建表”,點選採“採集表單”後面的如圖22。

前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務

【圖22】

第九步:配置表單

根據所需內容,配置表單欄位(即表頭),此處配置了包括網頁主鍵、標題、網頁連結,以及文字內容四個欄位,表單如圖23。

前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務

【圖23】

第十步:欄位取值

取值方法:按住Ctrl+滑鼠左鍵,進行區域選擇,按住Shift+滑鼠左鍵,擴大選擇區域。

Text欄位,如圖24:

前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務

【圖24】

第十一步:模板預覽

① 標右鍵點選“資料抽取”,然後點選“模板預覽”,如圖25

前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務

【圖25】

②預覽結果如圖26:

前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務
【圖26】

第十二步:採集預覽

① 擊右上角採集預覽,如圖27。
前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務

【圖27】

②雙擊任意一條連結,看看是否可以得到和網頁對應的規整的資料,如圖28、圖29。

前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務

【圖28】

前嗅ForeSpider教程:通過子欄目進入連結列表採集正文資料 第一步:新建任務

【圖29】