1. 程式人生 > >前嗅ForeSpider教程:通過連結列表採集正文資料(不翻頁)

前嗅ForeSpider教程:通過連結列表採集正文資料(不翻頁)

第一步:新建任務

①點選左上角“加號”新建任務,如圖1:

前嗅ForeSpider教程:通過連結列表採集正文資料(不翻頁)

【圖1】

②在彈窗裡填寫採集地址,任務名稱如圖2:

前嗅ForeSpider教程:通過連結列表採集正文資料(不翻頁)

【圖2】

③點選下一步,選擇進行資料抽取還是連結抽取,本次採集當前列表頁新聞的正文資料,正文資料是通過點選列表連結進入的,所以本次需要抽取列表連結,所以點選抽取連結,如圖3:

前嗅ForeSpider教程:通過連結列表採集正文資料(不翻頁)

【圖3】

第二步:通過智慧過濾,得到所需連結。

① 按住Ctrl+滑鼠左鍵點選所需連結;

② 擊“智慧過濾”按鈕,如圖4:

前嗅ForeSpider教程:通過連結列表採集正文資料(不翻頁)

【圖4】

第三步:點選採集預覽確認連結是否過濾完全,如圖5

前嗅ForeSpider教程:通過連結列表採集正文資料(不翻頁)

【圖5】

第四步:關聯模板

在軟體中模板的關聯關係,與網頁中連結跳轉的關係相同。關聯模板

根據網頁跳轉規律,將“連結列表”關聯模板二“連結列表:02”,此處由於我們開始就選擇了建立列表連結,所以軟體自動關聯好了模板二。如果配置的時候發現關聯有問題,可以自己進行更改,如圖6

前嗅ForeSpider教程:通過連結列表採集正文資料(不翻頁)

【圖6】

第五步:填寫模板二示例地址並新建資料抽取

① 模板一過濾得到的任意一條連結,作為模板二的示例地址。

如:http://pl.ifeng.com/opinion/zhengnengliang/497/1.shtml, 見圖7:

前嗅ForeSpider教程:通過連結列表採集正文資料(不翻頁)

【圖7】

②新建資料抽取

方法一:通過點選“下一步”後勾選抽取資料,再次點選“下一步”得到資料抽取,如圖8

方法二:直接點選模板二,點選上面“新建資料抽取”按鈕,得到資料抽取,如圖8

前嗅ForeSpider教程:通過連結列表採集正文資料(不翻頁)
【圖8】

第六步:建立/選擇表單

在ForeSpider爬蟲中,表單是可以複用的,所以可以在資料表單出直接選擇之前建過的表單,也可以通過表單ID來進行查詢並關聯資料表單。此處使用的是之前建過的鳳凰網的表單,建立表單,如圖9

方法一:通過下拉選單或表單ID選擇已有表單

方法二:點選建立表單進入快速建表頁面,新建表單

前嗅ForeSpider教程:通過連結列表採集正文資料(不翻頁)

【圖9】

方法三:點選“採集配置”-“資料建表”,點選採“採集表單”後面的如圖10

前嗅ForeSpider教程:通過連結列表採集正文資料(不翻頁)

【圖10】

第七步:配置表單

根據所需內容,配置表單欄位(即表頭),此處配置了包括標題、作者、釋出時間、文字內容以及網址五個欄位,表單如圖11

前嗅ForeSpider教程:通過連結列表採集正文資料(不翻頁)

【圖11】

第八步:欄位取值

取值方法:按住Ctrl+滑鼠左鍵,進行區域選擇,按住Shift+滑鼠左鍵,擴大選擇區域。

title欄位,如圖12

前嗅ForeSpider教程:通過連結列表採集正文資料(不翻頁)

【圖12】

第九步:模板預覽

① 標右鍵點選“資料抽取”,然後點選“模板預覽”,如圖13

前嗅ForeSpider教程:通過連結列表採集正文資料(不翻頁)
【圖13】

③ 預覽結果如圖14

前嗅ForeSpider教程:通過連結列表採集正文資料(不翻頁)

【圖14】

第十步:採集預覽

① 擊右上角採集預覽,如圖15

前嗅ForeSpider教程:通過連結列表採集正文資料(不翻頁)
【圖15】

②雙擊任意一條連結,看看是否可以得到和網頁對應的規整的資料,如圖16
前嗅ForeSpider教程:通過連結列表採集正文資料(不翻頁)

【圖16】