1. 程式人生 > >前嗅ForeSpider教程:采集列表和正文的數據

前嗅ForeSpider教程:采集列表和正文的數據

cto 添加 ddd 重名 sha 目標地址 得到 分享 彈窗

第一步:新建任務
①點擊左上角“加號”新建任務,如圖1:
技術分享圖片
【圖1】
② 彈窗裏填寫采集地址,任務名稱,如圖2:
技術分享圖片
【圖2】
③點擊下一步,選擇進行數據抽取還是鏈接抽取,本次采集當前頁面子欄目下的列表房源的正文數據,子欄目房源列表是通過點擊子欄目鏈接進入的,所以本次需要抽取子欄目鏈接,所以點擊抽取鏈接,選擇子欄目,如圖3:
技術分享圖片
【圖3】
④ 完成後模板抽取配置列表有兩個模板,默認模板和子欄目。默認模板下自動生成一個鏈接抽取,名稱為子欄目,此鏈接已與子欄目模板關聯,如圖4。
技術分享圖片
【圖4】

第二步:通過地址過濾,得到所需的子欄目鏈接。
①點擊采集預覽,在采集預覽中有於目標鏈接相似的其他鏈接,可通過地址過濾得到二手房子欄目鏈接。找到所需要的子欄目鏈接,右擊復制鏈接,如圖5所示。

技術分享圖片
【圖5】
② 選地址過濾,過濾規則選擇包含,將復制的目標地址粘入,使用過濾串“\e”得到二手房子欄目鏈接,如圖6所示。
過濾串規則說明:\e 文件結束(忽略所有請求參數)
技術分享圖片
【圖6】
③點擊采集預覽確認鏈接是否過濾完全,如圖7
技術分享圖片
【圖7】
第三步:填寫子欄目模板示例地址並新建鏈接抽取
①填寫示例地址,將模板一過濾得到的任意一條鏈接,作為子欄目的示例地址,即二手房子欄目列表頁鏈接,如圖8所示。
技術分享圖片
【圖8】
②直接點擊子欄目模板,點擊上面“新建鏈接抽取”按鈕,得到鏈接抽取,如圖9。

技術分享圖片
【圖9】
第四步:通過地址過濾,得到所需列表鏈接。
①右擊模板預覽找到房源列表鏈接,如圖10所示。觀察鏈接得出規律使用過濾串得到目標鏈接。
技術分享圖片
【圖10】

②勾選地址過濾,過濾規則選擇包含,將復制的目標地址粘入,使用共用詞“chushou”過濾得到目標鏈接,如圖11。
技術分享圖片
【圖11】
③點擊采集預覽確認鏈接是否過濾完全,如圖12
技術分享圖片
【圖12】
第五步:創建翻頁鏈接抽取
方法一:創建任務,勾選鏈接抽取,直接選擇鏈接列表和普通翻頁,如圖13。

技術分享圖片
【圖13】
方法二:如果創建任務時,只勾選了鏈接列表,可以點擊上一步,回到模板層,補選翻頁鏈接抽取,點擊下一步,創建翻頁鏈接。
方法三:直接點擊模板二,點擊上面“新建鏈接抽取”按鈕,得到鏈接抽取,並重名命為翻頁,如圖14。
技術分享圖片
【圖14】
第六步:通過標題過濾,過濾翻頁鏈接
①點擊采集預覽,我們可以發現,翻頁鏈接即為名為上一頁、下一頁兩條鏈接。對於翻頁,只需要取到標題名為“下一頁”的鏈接即可。

②這裏應用標題過濾,過濾規則選擇“包含”,過濾串填寫“下一頁”即可。如圖15。
技術分享圖片
【圖15】
③ 點擊采集預覽查看是否過濾成功,如圖16
技術分享圖片
【圖16】
④關聯“翻頁”
情況一:創建模板或通過向導,創建的翻頁鏈接抽取,會默認關聯模板一,即當前頁模板。
情況二:手動點擊按鈕創建翻頁鏈接抽取,需要手動關聯,如圖17。

技術分享圖片
【圖17】
第七步:創建數據抽取,創建/添加表單
①新建數據抽取。在子欄目模板,點擊上面“新建數據抽取”按鈕,得到數據抽取,重命名為房天下列表,如圖18。
技術分享圖片
【圖18】
② 點擊“采集配置”-“數據建表”,點擊采“采集表單”後面的如圖19。
技術分享圖片
【圖19】
③配置表單
根據所需內容,配置表單字段(即表頭),此處配置了包括網頁主鍵、網頁鏈接,兩個字段,表單如圖20。
技術分享圖片
【圖20】
④ 點擊子欄目鏈接抽取,關聯房天下列表表單,如圖21所示。
技術分享圖片
【圖21】
⑤ 右擊模板預覽,觀察模板是否有數據,如圖22。
技術分享圖片
【圖22】
第八步:創建新的模板,並新建數據抽取
①在模板配置,點擊“新建模板”按鈕,得到新建模板,重命名為正文數據模板,如圖23。

技術分享圖片
【圖23】
②新建數據抽取。直接點擊模板三,點擊上面“新建數據抽取”按鈕,得到數據抽取,如圖24。
技術分享圖片
【圖24】
③關聯模板
在軟件中模板的關聯關系,與網頁中鏈接跳轉的關系相同。
根據網頁跳轉規律,將“鏈接抽取”關聯模板“正文數據模板”,如圖25
技術分享圖片

【圖25】
第九步:創建/選擇表單
①在ForeSpider爬蟲中,表單是可以復用的,所以可以在數據表單出直接選擇之前建過的表單,也可以通過表單ID來進行查找並關聯數據表單。此處使用的是之前建過的房天下的表單,如圖26。
② 過下拉菜單或表單ID選擇已有表單
技術分享圖片
【圖26】
第十步:字段取值
取值方法:按住Ctrl+鼠標左鍵,進行區域選擇,按住Shift+鼠標左鍵,擴大選擇區域。
Text字段,如圖27

技術分享圖片
【圖27】
第十一步:模板預覽
①鼠標右鍵點擊“數據抽取”,然後點擊“模板預覽”,如圖28
技術分享圖片
【圖28】
② 預覽結果如圖29
技術分享圖片
【圖29】
第十二步:采集預覽
①點擊右上角采集預覽,如圖30。
技術分享圖片
【圖30】
②雙擊任意一條鏈接,看看是否可以得到和網頁對應的規整的數據,如圖31、圖32。
技術分享圖片
【圖31】
技術分享圖片
【圖32】

前嗅ForeSpider教程:采集列表和正文的數據