1. 程式人生 > >用Python第一個爬蟲程式(urllib.request)

用Python第一個爬蟲程式(urllib.request)

這是博主第一個小爬蟲程式,紀念一下

2018/09/20


之前在ubuntu裡面已經實現,不過今天開始使用pycharm,折騰了一上午…終於打出來了。

話不多說…


目標:爬取博主一篇博文(Path of Python – 爬蟲)裡面的遊覽數。

import re
import urllib
from urllib import request

pat='<span class="read-count">閱讀數:(.*?)</span>'
data=urllib.request.urlopen("https://blog.csdn.net/BugOverseas/article/details/82762819").read()
datanew=data.decode("utf-8")
rst=re.compile(pat).findall(datanew)
print(rst)

輸出結果:
在這裡插入圖片描述

  • 之前沒有加上decode("utf-8"),啥也出不來,因為data裡面用的應該是unicode編碼,經陳哥提醒,ok。這也說明要好好了解下編碼問題了。過幾天博主整理下該類問題。