1. 程式人生 > >前嗅教程:同一個網站中從另一頁面采集數據

前嗅教程:同一個網站中從另一頁面采集數據

dac 鼠標 images 腳本 person c2c 通過 5.1 問題

第一步:新建任務
①點擊左上角“加號”新建任務,如圖1:
技術分享圖片
【圖1】
②在彈窗裏填寫采集地址,任務名稱,如圖2:
技術分享圖片
【圖2】
③點擊下一步,選擇進行數據抽取還是鏈接抽取,本次采集企業最新動態鏈接列表,所以點擊抽取鏈接,選擇鏈接列表,如圖3:
技術分享圖片
【圖3】
④完成之後,在模板抽取配置下生成兩個模板,默認模板:01和鏈接列表:02。模板1中的“鏈接列表”鏈接抽取已與模板2關聯,如圖4。如果配置的時候發現關聯有問題,可以自己進行更改。
技術分享圖片
【圖4】
第二步:使用定位過濾,得到列表鏈接
①按住Ctrl+鼠標左鍵,進行區域選擇,按住Shift+鼠標左鍵,擴大選擇區域。
②點擊確認選區,如圖5:
技術分享圖片
【圖5】
③點擊采集預覽,確認鏈接抽取是否正確,如圖6:
技術分享圖片
【圖6】
第三步:在模板2添加示例地址,並添加鏈接抽取
①將模板1過濾得到的任意一條鏈接,作為模板2的示例地址。如:http://blog.11467.com/b427516.htm,如圖7:
技術分享圖片
【圖7】
②新建鏈接抽取。直接點擊模板2,點擊上面“新建鏈接抽取”按鈕,得到鏈接抽取,如圖8。
技術分享圖片
【圖8】
③關聯模板
在軟件中模板的關聯關系,與網頁中鏈接跳轉的關系相同。
根據網頁跳轉規律,模板1中的“鏈接列表”鏈接抽取已與模板2關聯。如果配置的時候發現關聯有問題,可以自己進行更改。

第四步:使用定位過濾,得到列表鏈接
①按住Ctrl+鼠標左鍵,進行區域選擇,按住Shift+鼠標左鍵,擴大選擇區域。
②點擊確認選區,如圖9:
技術分享圖片
【圖9】

③右擊模板預覽,查看鏈接抽取結果,如圖10所示:
技術分享圖片
【圖10】
④確認鏈接抽取是否正確,如圖11:
技術分享圖片
【圖11】
第五步:新建模板3添加示例地址,並添加鏈接抽取
①新建模板3,將模板2過濾得到的鏈接,作為模板3的示例地址。如:http://93358999.b2b.11467.com,如圖12:
技術分享圖片
【圖12】
②新建鏈接抽取。直接點擊模板3,點擊上面“新建鏈接抽取”按鈕,得到鏈接抽取,如圖13。
技術分享圖片
【圖13】
③關聯鏈接列表的“新建鏈接抽取”。
根據網頁跳轉規律,將模板2鏈接列表的“新建鏈接抽取”關聯模板3。如果配置的時候發現關聯有問題,可以自己進行更改,如圖14:
技術分享圖片
【圖14】
第六步:使用定位過濾,得到導航列表的鏈接
①按住Ctrl+鼠標左鍵,進行區域選擇,按住Shift+鼠標左鍵,擴大選擇區域。
②點擊確認選區,如圖15:
技術分享圖片
【圖15】
③右擊模板預覽,查看鏈接抽取結果,如圖16所示:
技術分享圖片
【圖16】
④確認鏈接抽取是否正確,如圖17:
技術分享圖片
【圖17】
⑤使用標題過濾,得到“聯系我們”的鏈接,如圖18所示:
技術分享圖片
【圖18】
第七步:新建模板4添加示例地址,並添加鏈接抽取
①新建模板4,將模板3過濾得到的“聯系我們”鏈接,作為模板4的示例地址。如:http://tianjin0311065.11467.com/contact.asp,如圖19:
技術分享圖片
【圖19】
②新建數據抽取。直接點擊模板3,點擊上面“新建數據抽取”按鈕,得到數據抽取,如圖20。
技術分享圖片
【圖20】
③關聯模板3的“新建鏈接抽取”。
根據網頁跳轉規律,將模板3的“新建鏈接抽取”關聯模板4。如果配置的時候發現關聯有問題,可以自己進行更改,如圖21:
技術分享圖片
【圖21】
第八步:創建/選擇表單
在ForeSpider爬蟲中,表單是可以復用的,所以可以在數據表單出直接選擇之前建過的表單,也可以通過表單ID來進行查找並關聯數據表單。此處使用的是方法三。
方法一:通過下拉菜單或表單ID選擇已有表單
方法二:點擊創建表單進入快速建表頁面,新建表單,如圖22所示。
技術分享圖片
【圖22】
方法三:點擊“采集配置”-“數據建表”,點擊采“采集表單”後面的,如圖23:
技術分享圖片
【圖23】
第九步:配置表單
根據所需內容,配置表單字段(即表頭),此處配置了包括網頁主鍵、聯系人、電話、地址以及公司介紹五個字段。其中,公司介紹字段intro_text的取值在同一網站的不同頁面,需要用到腳本取值,配置類型時需要選擇高級取值>模板取值,表單如圖24:
技術分享圖片
【圖24】
第十步:字段取值
①關聯表單,如圖25所示:
技術分享圖片
【圖25】
②取值方法:按住Ctrl+鼠標左鍵,進行區域選擇,按住Shift+鼠標左鍵,擴大選擇區域。
person、tel、addr字段,如圖26:
技術分享圖片
【圖26】
③intro_text字段需要進行模板取值。

第十一步:創建新的模板,添加示例地址
①表單intro_text字段來自公司介紹,如圖27所示。
技術分享圖片
【圖27】
圖中紅框部分為取值內容,如圖28所示:
技術分享圖片
【圖28】
②新建模板,添加“公司介紹”鏈接為示例地址,如:http://93358999.b2b.11467.com/about.asp(模板3右擊模板預覽,選擇全部鏈接),如圖29所示:
技術分享圖片
【圖29】
③直接點擊模板5,點擊上面“新建數據抽取”按鈕,得到數據抽取,如圖30:
技術分享圖片
【圖30】
第十二步:創建/選擇表單
點擊“采集配置”-“數據建表”,點擊采“采集表單”後面的,如圖31:
技術分享圖片
【圖31】
第十三步:配置表單
根據所需內容,配置表單字段(即表頭),此處配置了“公司介紹”字段intro_text表單如圖32:
技術分享圖片
【圖32】
第十四步:關聯表單,完成“公司介紹”字段抽取
①點擊模板5,關聯表單,如圖33所示:
技術分享圖片
【圖33】
②使用字段定位取值方法。
按住Ctrl+鼠標左鍵,進行區域選擇,按住Shift+鼠標左鍵,擴大選擇區域,確認選區,如圖34所示。
技術分享圖片
【圖34】
③右擊模板預覽,如圖35所示:
技術分享圖片
【圖35】
④模板預覽結果,如圖36所示:
技術分享圖片
【圖36】
第十五步:模板取值關聯
①點擊模板4,點擊intro_text字段,在紅框中填入“href=[5]”,並按住Ctrl+鼠標左鍵,進行區域選擇,如圖37所示。
“[ ]”中填寫模板ID。
技術分享圖片
【圖37】
②點擊模板4,右擊模板預覽,如圖38所示:
技術分享圖片
【圖38】
③預覽結果如圖39所示:
技術分享圖片
【圖39】
第十六步:采集預覽
①點擊右上角采集預覽,如圖40:
技術分享圖片
【圖40】
②雙擊任意一條鏈接,看看是否可以得到和網頁對應的規整的數據,如圖41、42、43所示。
技術分享圖片
【圖41】
技術分享圖片
【圖42】
技術分享圖片
【圖43】

前嗅教程:同一個網站中從另一頁面采集數據