【爬蟲入門】【正則表示式】抓取糗事百科的段子3.0
阿新 • • 發佈:2019-01-09
在原有基礎上,增加寫入偽造瀏覽器的UserAgent
fake_user_agent: pip install fake-useragent//這個第三方庫,維護了各種主流瀏覽器的UA標識,並且會定時更新這個庫,淘汰一些過期的UA。
首先,在pycharm中安裝fake_useragent
然後修改爬蟲類的程式碼
from fake_useragent import UserAgent class QSBKSpider(object): """ 爬蟲類 """ def __init__(self): #前面省略 # 例項化工具類DataTool的物件 self.tool = DataTool() ####這裡新增 # 例項化Ua物件 self.ua = UserAgent() def get_list_html(self, page_num): ####這裡修改為 headers={ #random屬性:從ie、firefox、chrome等瀏覽器的ua中,隨機獲取一個ua。 'User-Agent':self.ua.data_random } request = Request(page_url, headers=headers)