1. 程式人生 > >pyspider常見問題與解決方案

pyspider常見問題與解決方案

1.HTTPError: HTTP 599: SSL certificate problem: self signed certificate in certi…

這個問題, 我們採用的是忽略證書, 為crawl 方法新增引數 validate_cert = False, 即可

2.css 選擇器

pyspider 可以匹配相應的字串, 支援css 選擇器功能, 但是需要注意的是 在chrome 中 對tbody 的渲染支援不好, 因而css 選擇器引數中 請不要使用 tbody 標籤進行篩選

3.pyspider 資料更新問題
先用pyspider採集並儲存A網頁資料,然後A網頁頁面資料更新了,pyspider可以檢測到A網頁已更新,並重新採集A網頁,同時更新之前所儲存的A網頁的資料嗎?
如果不重新抓一遍網頁 A,不可能知道 A 已經變了,如果重新抓了,那就等於已經「重新採集」了,重新採集了,當然可以更新之前儲存的資料了。

所以你需要定時重新抓一遍。除非有一個網頁 B,告訴你網頁 A 變了。

4.經常碰到找不到上一次執行專案的資料的時候
由於自己了windows的環境變數,所以自己習慣性的喜歡開啟CMD後就直接敲命令列執行 pyspider語句
雖然每次都執行,但是自己卻沒找到資料。
後來才發現,pyspider命令列執行的時候,資料庫data檔案會自動在當前目錄生成,通過sqlite連結資料庫,發現pyspider把指令碼資料存在projectDB,但是一直沒有找到resultDB資料在哪裡