1. 程式人生 > >python爬蟲總結: 網頁內容需要分類爬取

python爬蟲總結: 網頁內容需要分類爬取

自學爬蟲中...........

有個在一爬蟲公司上班的朋友,今天和他聊了一會,給了我一個小專案,在這裡給大家分享一下

專案需求:

      在一個政府網站上爬取該市的環境處理公告

  1. 分類爬取 受理, 審批, 批覆頁面的表格內容以及釋出時間

     2.要是用代理ip,24小時不間斷爬取

這裡出現第一個問題: 怎麼把首頁中的有用連結分類提取呢, 這是我想到了正則,對 就是 Beautiful的 find_all('a', text=re.compile(r'受理'))

步驟分析:

  1. 拼接基礎頁面url, 這裡的網站的首頁和其他頁面的url有所不同, 需要單獨處理, 也就是加一個if單獨判斷即可
  2. 使用 Beautiful中find_all('a', text=re.compile(r'受理')) 把3中連結 分類儲存到列表中
  3. 分別傳送請求
  4. 解析頁面
  5. 注意: 在解析頁面時遇到了不少坑: 每個頁面的html標籤不同, 但是好在大體相同,這時只需要把相同的html選擇器寫出來, 直接text即可
  6. 儲存為json格式的檔案