1. 程式人生 > >神箭手爬蟲學習筆記(二)

神箭手爬蟲學習筆記(二)

暫存 自動 表達 eve doc 常用 學習 數據 .sh

一,可以使用神劍手已經做好的爬蟲市場直接跑,不需要自己定義爬取規則

二,爬蟲市場裏沒有的網站,需要自己去定義規則來爬數據。

三,爬取的數據可以先存放在神劍手,也可以放到七牛暫存。(提醒下,網站需要數據備份如果數量不大可以到七牛做備份,有免費版)

四,爬取的數據可以直接發布到數據庫,也可以發布到具有支持神劍插件的網站。可以手動發布,也可以自動發布。

五,可以使用代理IP,防封

六:常用的幾個輔助工具:http://docs.shenjianshou.cn/develop/tools/tools.html

------------------------------------------------------------------------------------------------------

如何寫規則

<1> 定義config 對象,運行config對象

<2> 需要掌握Xpath,Jsonpath,正則表達式

-------------------------------------------------------------------------------------------------------

惡補下正則表達式吧

神箭手爬蟲學習筆記(二)