1. 程式人生 > >python urllib, urllib2實現登陸和簡單爬取網頁(個人坑點筆記)

python urllib, urllib2實現登陸和簡單爬取網頁(個人坑點筆記)

不想做重複的事情,對於已經寫得比較詳細的我就不再自己重新寫了,直接引用,希望原作者諒解(反正直接貼的網站,大概沒事吧~)
主要是記一些自己碰到的坑

  • 實現登陸其實主要是用好那個cookiejar就好,header好像不是很必須,不過為了模擬的模擬一些可以加上
  • 有的網站登陸後用的js的history(-x)這樣的跳轉,直接urlopen只能得到Html,不能跳轉。。由於我用的時候實現的功能確實非常簡單(不然就不用Urllib來實現爬取了),所以直接跳轉到那個網頁的url了
  • 我是通過正則來找一些關鍵字來找到自己感興趣的內容,網頁可能會帶換行符,最好提前處理一下(見另外一篇正則表示式的個人坑點筆記)
  • 有的網頁的有些部分也是用JS生成的,所以找關鍵字的時候不能跳到網站F12直接看關鍵字。。會可能找不到,我是burp-suite抓包然後自己提交一次看的得到的html是什麼樣的然後再通過這個看的關鍵字