1. 程式人生 > >python3.X爬蟲針對拉鉤,直聘,大街等招聘網站的簡歷爬蟲抓取心得總結一 (ide pycharm執行)

python3.X爬蟲針對拉鉤,直聘,大街等招聘網站的簡歷爬蟲抓取心得總結一 (ide pycharm執行)

在面對登陸問題的網站例如向拉鉤,大街網,直聘等需要進行模擬登陸的問題,

這裡我才用的selenium+chrome的方式,進行獲取cookies 然後轉化成requests中的cookie 再進行具體的內容的抓取

這裡裡面遇到問題如下:

                1.登陸時候的驗證碼識別,這裡我遇到的是滑塊驗證碼與點選式驗證碼主要的解決方式藉助第三方的平臺識別,後面上傳具體的程式碼 以及識別的原理

                 2.在進行requests訪問的抓取的時候,需要進行代理ip的處理,這個地方我做的處理是採用第三方的ip的api介面,一次下載100個ip,然後存在本地文件,用的時候進行讀取當中的隨即一個,對ip的更新是每一個小時更新一次,這裡不建議直接每次從ip代理的api 介面前去取ip,後面的問題會截圖說明具體原因

                3.關於請求頭的書寫問題,useragent 採用fake_useragent進行隨機處理,然後就是refer 不建議處理,因為每一個的簡歷爬取的時候都有可能不一樣!

                4.關於所有的requests 中出現的請求 ,因為要持續大量的爬取,要注意關閉http請求

                5.頁面元素的提取時候,可能會出現提取出現不顯示的問題,這個時候考慮到要先設定預先的判斷該變數存不存在 例如 if X:  然後 在書寫你要提取的頁面元素程式碼;在元素提取的時候注意分情況討論,設定try except機制

               6.抓取元素設定時間間隔儘量採用隨機random.randint(1,6)