1. 程式人生 > >前嗅ForeSpider教程:通過鏈接列表采集正文數據(不翻頁)

前嗅ForeSpider教程:通過鏈接列表采集正文數據(不翻頁)

第一步 模板 ges 關聯關系 shtml nag type resp 下拉

第一步:新建任務

①點擊左上角“加號”新建任務,如圖1:

技術分享圖片

【圖1】

②在彈窗裏填寫采集地址,任務名稱如圖2:

技術分享圖片

【圖2】

③點擊下一步,選擇進行數據抽取還是鏈接抽取,本次采集當前列表頁新聞的正文數據,正文數據是通過點擊列表鏈接進入的,所以本次需要抽取列表鏈接,所以點擊抽取鏈接,如圖3:

技術分享圖片

【圖3】

第二步:通過智能過濾,得到所需鏈接。

① 按住Ctrl+鼠標左鍵點擊所需鏈接;

② 擊“智能過濾”按鈕,如圖4:

技術分享圖片

【圖4】

第三步:點擊采集預覽確認鏈接是否過濾完全,如圖5

技術分享圖片

【圖5】

第四步:關聯模板

在軟件中模板的關聯關系,與網頁中鏈接跳轉的關系相同。關聯模板

根據網頁跳轉規律,將“鏈接列表”關聯模板二“鏈接列表:02”,此處由於我們開始就選擇了創建列表鏈接,所以軟件自動關聯好了模板二。如果配置的時候發現關聯有問題,可以自己進行更改,如圖6

技術分享圖片

【圖6】

第五步:填寫模板二示例地址並新建數據抽取

① 模板一過濾得到的任意一條鏈接,作為模板二的示例地址。

如:http://pl.ifeng.com/opinion/zhengnengliang/497/1.shtml, 見圖7:

技術分享圖片

【圖7】

②新建數據抽取

方法一:通過點擊“下一步”後勾選抽取數據,再次點擊“下一步”得到數據抽取,如圖8

方法二:直接點擊模板二,點擊上面“新建數據抽取”按鈕,得到數據抽取,如圖8

技術分享圖片
【圖8】

第六步:創建/選擇表單

在ForeSpider爬蟲中,表單是可以復用的,所以可以在數據表單出直接選擇之前建過的表單,也可以通過表單ID來進行查找並關聯數據表單。此處使用的是之前建過的鳳凰網的表單,創建表單,如圖9

方法一:通過下拉菜單或表單ID選擇已有表單

方法二:點擊創建表單進入快速建表頁面,新建表單

技術分享圖片

【圖9】

方法三:點擊“采集配置”-“數據建表”,點擊采“采集表單”後面的如圖10

技術分享圖片

【圖10】

第七步:配置表單

根據所需內容,配置表單字段(即表頭),此處配置了包括標題、作者、發布時間、文本內容以及網址五個字段,表單如圖11

技術分享圖片

【圖11】

第八步:字段取值

取值方法:按住Ctrl+鼠標左鍵,進行區域選擇,按住Shift+鼠標左鍵,擴大選擇區域。

title字段,如圖12

技術分享圖片

【圖12】

第九步:模板預覽

① 標右鍵點擊“數據抽取”,然後點擊“模板預覽”,如圖13

技術分享圖片
【圖13】

③ 預覽結果如圖14

技術分享圖片

【圖14】

第十步:采集預覽

① 擊右上角采集預覽,如圖15

技術分享圖片
【圖15】

②雙擊任意一條鏈接,看看是否可以得到和網頁對應的規整的數據,如圖16
技術分享圖片

【圖16】

前嗅ForeSpider教程:通過鏈接列表采集正文數據(不翻頁)