1. 程式人生 > >python之簡單爬蟲(爬取豆瓣出版社)

python之簡單爬蟲(爬取豆瓣出版社)

ok,開始我們的實驗
1.開啟瀏覽器,輸入網址,右擊網頁,檢視網頁原始碼,這裡我用的是谷歌瀏覽器
這裡寫圖片描述
2.看上圖我們發現許多出版社名稱,接下來我們查詢一個出版社名稱,例如重慶大學
觀察下圖我們發現它們都在一個div標籤內,且class=”name” ,所以,我們開始編寫程式碼
這裡寫圖片描述

3.程式碼

import urllib.request
import re
import os
url = "https://read.douban.com/provider/all"  #獲取url
pat = '<div class="name">(.*?)</div>'  #匹配規則
data = urllib.request.urlopen(url).read().decode("utf-8") #讀取網頁的內容並解碼 relut = re.compile(pat).findall(data) #會返回一個列表 file = open(r"C:\Users\123\豆瓣出版社.txt", "w", encoding="utf-8") #這裡我定義了一個自己的儲存路徑,大家可以根據自己的路徑修改 for i in relut: file.write(i) #將出版社名稱寫入檔案 file.write("\n") #表示換行

4.最後在你的儲存目錄下開啟檔案就可以檢視內容了!

這裡寫圖片描述