1. 程式人生 > >前嗅ForeSpider教程:采集中國證券網

前嗅ForeSpider教程:采集中國證券網

圖片 mark log 彈窗 roc ctrl+鼠標 sns 采集 分享

前幾天有人問如何采集中國證券網,小編整理了一下,在此為大家做一下演示,同樣適用於其他金融經濟型的網站:

?

第一步:新建任務

①點擊左上角“加號”新建任務,如圖1:
技術分享圖片
②在彈窗裏填寫采集地址,任務名稱,如圖2:
技術分享圖片
③點擊下一步,選擇進行數據抽取還是鏈接抽取,本次采集要聞列表頁新聞的正文數據,正文數據是通過點擊列表鏈接進入的,所以本次需要抽取列表鏈接,所以點擊抽取鏈接,如圖3:
技術分享圖片
第二步:通過地址過濾,得到所需的分區鏈接。

①點擊采集預覽,在采集預覽中有於目標鏈接相似的其他鏈接,可通過地址過濾得到分區鏈接。找到所需要的分區鏈接,區別於其他鏈接“http://news.cnstock.com/news/sns_yw”, 右擊復制鏈接,如圖4所示。

技術分享圖片
②勾選地址過濾,過濾規則選擇包含,將復制的目標地址粘入,得到要聞分區鏈接,如圖5所示。

③點擊采集預覽確認鏈接是否過濾完全,如圖6
技術分享圖片
第三步:填寫模板二示例地址並新建數據抽取

①將模板一過濾得到分區鏈接,作為模板二的示例地址。如:http://news.cnstock.com/news/sns_qy/index.html, 見圖7:
技術分享圖片
②創建列表鏈接抽取、翻頁鏈接抽取。直接點擊模板二,點擊上面“新建鏈接抽取”按鈕,得到鏈接抽取,如圖8:
技術分享圖片
③按住Ctrl+鼠標左鍵,進行區域選擇,按住Shift+鼠標左鍵,擴大選擇區域,點擊“確認選區”按鈕,如圖9:
技術分享圖片
④點擊采集預覽確認鏈接是否過濾完全,如圖10:
技術分享圖片

第四步:通過標題過濾,過濾翻頁鏈接

①點擊采集預覽,在采集預覽中有於目標鏈接相似的其他鏈接,可通過地址過濾得到列表鏈接。找到所需要的列表鏈接,觀察得出所需要的目標鏈接都包含“http://news.cnstock.com/news/sns_qy/”, 右擊復制鏈接,如圖11所示。
技術分享圖片
②勾選地址過濾,過濾規則選擇包含,填入“http://news.cnstock.com/news/sns_qy/” ,得到列表鏈接,如圖12所示。
技術分享圖片
③點擊模板預覽確認鏈接是否過濾完全,如圖13
技術分享圖片
第五步:創建新的模板,並新建數據抽取

①在模板配置,點擊“新建模板”按鈕,得到新建模板,重命名為正文數據模板,如圖14。
技術分享圖片
②將模板二新建鏈接抽取過濾得到的任意一條鏈接,作為模板三的示例地址。如:http://news.cnstock.com/news,yw-201811-4301403.htm, 見圖15:

技術分享圖片
③新建數據抽取。直接點擊模板二,點擊上面“新建數據抽取”按鈕,得到數據抽取,如圖16。
技術分享圖片
④關聯模板

在軟件中模板的關聯關系,與網頁中鏈接跳轉的關系相同。

根據網頁跳轉規律,將“新建鏈接抽取”關聯模板“新建模板:03”,如圖17:
技術分享圖片
第六步:創建/選擇表單

①在ForeSpider爬蟲中,表單是可以復用的,所以可以在數據表單出直接選擇之前建過的表單,也可以通過表單ID來進行查找並關聯數據表單。此處使用的方法三,如圖18。

方法一:通過下拉菜單或表單ID選擇已有表單

方法二:點擊創建表單進入快速建表頁面,新建表單

方法三:點擊“采集配置”-“數據建表”,點擊采“采集表單”後面的如圖18。
技術分享圖片
②配置表單

根據所需內容,配置表單字段(即表頭),此處配置了包括網頁主鍵、作者、采集來源、網頁獲取時間、內容、發布時間、標題名稱、網頁地址、發布來源、副標題、圖片11個字段,右上角保存,表單如圖19。
技術分享圖片
③在數據抽取鏈接處關聯表單,如圖20。
技術分享圖片
第七步:字段取值

取值方法:按住Ctrl+鼠標左鍵,進行區域選擇,按住Shift+鼠標左鍵,擴大選擇區域。

title字段,如圖21
技術分享圖片
第八步:模板預覽

①鼠標右鍵點擊“數據抽取”,然後點擊“模板預覽”,如圖22
技術分享圖片
②預覽結果如圖23:
技術分享圖片
第九步:采集預覽

①點擊右上角采集預覽,如圖24。
技術分享圖片
②雙擊任意一條鏈接,看看是否可以得到和網頁對應的規整的數據,如圖25、圖26。
技術分享圖片
技術分享圖片

前嗅ForeSpider教程:采集中國證券網