Python爬蟲之爬取內涵吧段子（urllib.request）

阿新 • • 發佈：2019-02-10

引言

在寒假開始的時候就打算學習爬蟲了，但是沒有想到一入坑到現在還沒有出坑，說多了都是淚 T_T
我準備介紹的這個庫是我初學爬蟲時候用到的，比較古老，所以我只用了一兩次就轉向了requests了

urllib.request

這個庫在python2.7之中其實是被稱為urllib2，但是到了python3之後這個庫就取消了，變成了urllib的一個內建了，當然啦，用法還是和之前的urllib2沒有什麼區別。
單純的使用urllib.request.urlopen()其實已經實現一些基本的請求了，不過如果一般要構建完整請求的時候一般要需要用上Request()函式，簡單的貼一下程式碼。

req = urllib.request.Request(url,headers = headers)
response = urllib.request.urlopen(req)

而這裡的response就是伺服器返回的請求了。

正則表示式

最終想想還是要講講正則表示式，正則表示式簡單粗暴，我一開始簡直迷上了正則的力量，哦，當然，後面在美麗的湯的和xpath的勾引下。。。咳咳咳
正則表示式我就不具體多講，大家可以去翻翻一些其他人的部落格或者官方文件查閱一下即可。
這裡有一篇不錯的他人的部落格可以查閱的點選這裡。

實踐

單純的講解是非常枯燥無聊的，作為一個熱好實踐的實踐黨，每一次學習必備的就是實戰，這次的實戰題目就是爬取內涵吧的小說段子。

準備

url = http://www.neihanpa.com/article/
python 版本 3.6.3
paltform：win32
使用模組urllib.request、re、os

觀察將要爬取的網站

這裡寫圖片描述
不難發現其中的對應關係。

開始敲我們的程式碼

敲好了開頭，先輸出看看
這裡寫圖片描述
看上去效果不錯，但是輸出了一丟雜湊值是什麼鬼？我們換一種編碼試試。

成功的輸出了中文，好我們繼續接下來的工作，進行匹配。

正則匹配

經過觀察這一段在不斷的重複
這裡寫圖片描述

於是我把它copy到我的程式碼裡去。

這裡寫圖片描述

看看輸出的結果，嗯看上去還不錯（因為我比較懶，所以喜歡暴力的[\w\W]+?）

這裡寫圖片描述

該把我們要的取出來了，只要在需要的東西打小括號就好了。

這裡寫圖片描述

為什麼要去除那個html呢?可能有人會問了，這個問題你只要點進去那一個段子，再看看它的url就明白了。

開始進行url的拼接

現在我們獲得了我們想要的了，我們開始拼接我們要的url，然後進行同樣的一波操作，在此我打算用一個txt檔案來儲存段子內容。
這裡寫圖片描述

好，我們輸出來看看。

這裡寫圖片描述

嗯，發現中間穿插了圖片，但是這不重要，我們並不需要圖片，然後我們再仔細觀察一下規則。

這裡寫圖片描述

發現出現了不少\r\n\t甚至還有\u3000，大家可能不知道什麼是\u3000，不知道大家知不知道\x20這個是ASCII中的空白格，那麼很簡單\u3000就是Unicode中的空格之一，然後我們發現最後一行並不是我們想要的，於是把它刪去。
再次輸出：

這裡寫圖片描述

發現已經差不多了，但是還是有些不完美。

這裡寫圖片描述

我們使用replace()函式將其去掉。

這裡寫圖片描述

好了，到了這裡基本就是實現了

最後附加

這時我又誕生想法了，我不想單單抓這一頁了，我想抓多幾頁了（人類的慾望果然時無限的@[email protected]）
好，這個時候我們繼續觀察，
這裡寫圖片描述
到了第二頁變成了索檢二？再嘗試一下，果然如此，於是我們再寫個函式，拼接出頁數的url，然後再進行簡單的互動，讓使用者輸入起始頁和終止頁，也可以當每一頁儲存完成的時候，輸出第幾頁儲存完成.

結語：

回頭看看自己一開始寫的程式碼發現一開始的自己挺菜的。。。嗯。。。是真的，也幸好我的學習方式沒有錯誤，從最簡單的正則開始學習，然後後面才學bs4之類的，不然的話估計基礎不是那麼好。
想要完整的程式碼可以點選下面哦：
https://github.com/Don98/Don98.github.io/tree/master/spider_project
對了，忽然想起，如果有人問為什麼os模組我沒有用到，我還匯入了的話，我的回答就是，本來想用來建立資料夾的，不過最後忘了用到而已。

Python爬蟲之爬取內涵吧段子（urllib.request）

引言

urllib.request

正則表示式

實踐

準備

觀察將要爬取的網站

開始敲我們的程式碼

正則匹配

開始進行url的拼接

最後附加

結語：

Python爬蟲之爬取內涵吧段子（urllib.request）

Python爬蟲之爬取煎蛋網妹子圖

python3 學習 3：python爬蟲之爬取動態載入的圖片，以百度圖片為例

Python爬蟲之爬取各大幣交易網站公告——靜態網站.md

Python爬蟲__爬取貼吧圖片和文字

python學習（7）：python爬蟲之爬取動態載入的圖片，以百度圖片為例

Python爬蟲之爬取動態頁面資料

Python爬蟲入門——爬取貼吧圖片

Python爬蟲之爬取知乎帖子並儲存到mysql（以及遇到問題和解決方法）

Python爬蟲之爬取瓜子二手車資訊- requests方法

小白爬蟲入門——爬取圖片和文字（超詳細）

Python爬蟲之利用正則表達式爬取內涵吧

Python網路爬蟲之爬取淘寶網頁頁面 MOOC可以執行的程式碼

python初級實戰系列教程《一、爬蟲之爬取網頁、圖片、音視訊》

python爬蟲實戰爬取汽車之家上車型價格

Python爬蟲：抓取內涵段子1000張搞笑圖片-上篇（小爬蟲誕生篇）

貼吧小爬蟲之爬取原始碼

python 3.3 爬蟲之爬取圖片

python爬蟲(13)爬取百度貼吧帖子

python爬蟲系列之爬取百度文庫（一）

Python爬蟲之爬取內涵吧段子（urllib.request）

引言

urllib.request

正則表示式

實踐

準備

觀察將要爬取的網站

開始敲我們的程式碼

正則匹配

開始進行url的拼接

最後附加

結語：

相關推薦