【Python3 爬蟲】爬取博客園首頁所有文章

阿新 • • 發佈：2018-04-22

表達式技術標記 itl 1.0 headers wow64 ignore windows

首先，我們確定博客園首頁地址為：https://www.cnblogs.com/

我們打開可以看到有各種各樣的文章在首頁，如下圖：

技術分享圖片

我們以上圖標記的文章為例子吧！打開網頁源碼，搜索Docker,搜索結果如下圖：

技術分享圖片

從上圖後紅色標記部分可以看出，我們使用正則表達式即可匹配該網址，我們匹配到該網址之後，將該網址對應的內容下載到到底進行存儲。

實現代碼

import urllib.request
import re 
"""
爬取cnblogs首頁所有的文章
"""
url = "http://www.cnblogs.com/"
headers = ("User_Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0 
")
opener = urllib.request.build_opener()
opener.addheaders = [headers]
urllib.request.install_opener(opener)
data = urllib.request.urlopen(url).read().decode("utf-8","ignore")
#此處的(.*?)是匹配href後所有內容，直到”結束
rule = ‘<h3><a class="titlelnk" href="(.*?)"‘
result = re.compile(rule).findall(data)
 
for i in range(0,len(result)):
    file = "D:/source/"+str(i)+".html"
    urllib.request.urlretrieve(result[i],filename=file)
    print("第"+str(i+1)+"次成功")

運行結果：

第1次成功
第2次成功
第3次成功
第4次成功
第5次成功
第6次成功
第7次成功
第8次成功
第9次成功
第10次成功
第11次成功
第12次成功
第13次成功
第14次成功
第15次成功
第16次成功
第17次成功
第18次成功
第19次成功
第20次成功
[Finished in 9.3s]

爬取完成後，我們可以在相應路徑下看到爬取後的內容

技術分享圖片

【Python3 爬蟲】爬取博客園首頁所有文章

表達式技術標記 itl 1.0 headers wow64 ignore windows 首先，我們確定博客園首頁地址為：https://www.cnblogs.com/ 我們打開可以看到有各種各樣的文章在首頁，如下圖：我們以上圖標記的文章為例子吧！打開網頁源碼，搜

【Python3 爬蟲】爬取博客園首頁所有文章

【Python3 爬蟲】爬取博客園首頁所有文章

【Python3爬蟲】爬取中國國家地理的62個《古鎮》和363張攝影照片

【Python3爬蟲】爬取美女圖新姿勢--Redis分散式爬蟲初體驗

【Python爬蟲】爬取微信公眾號文章資訊準備工作

【網路爬蟲】爬取豆瓣電影Top250評論

爬蟲爬取博客園自己or他人發布文章代碼

python學習第一彈：爬蟲（抓取博客園新聞）

webmagic爬取博客園所有文章

【活動報名】2050 大會 - 博客園程序員聚會（5.25 杭州·雲棲小鎮）

編寫windows服務定時爬取博客園文章郵件提醒以及入庫

python3爬蟲-爬取新浪新聞首頁所有新聞標題

【Python3 爬蟲】06_robots.txt查看網站爬取限制情況

【Python3 爬蟲】14_爬取淘寶上的手機圖片

【Python3爬蟲】使用Fidder實現APP爬取

【Python3爬蟲】為什麽你的博客沒人看呢？

【Python3爬蟲】Scrapy爬取豆瓣電影TOP250

【Python3爬蟲】我爬取了七萬條彈幕，看看RNG和SKT打得怎麼樣

爬蟲系列（2）-----python爬取CSDN博客首頁所有文章

【Python3爬蟲】微博使用者爬蟲

【Python】【爬蟲】爬取網易、騰訊、新浪、搜狐新聞到本地

【Python3 爬蟲】爬取博客園首頁所有文章

相關推薦