1. 程式人生 > >【爬蟲入門】【正則表示式】抓取糗事百科的段子3.0

【爬蟲入門】【正則表示式】抓取糗事百科的段子3.0

在原有基礎上,增加寫入偽造瀏覽器的UserAgent

fake_user_agent: pip install fake-useragent//這個第三方庫,維護了各種主流瀏覽器的UA標識,並且會定時更新這個庫,淘汰一些過期的UA。

首先,在pycharm中安裝fake_useragent

在這裡插入圖片描述

然後修改爬蟲類的程式碼

from fake_useragent import UserAgent

class QSBKSpider(object):
    """
    爬蟲類
    """

    def __init__(self):
    	#前面省略
        # 例項化工具類DataTool的物件
        self.tool = DataTool()
        ####這裡新增
        # 例項化Ua物件
        self.ua = UserAgent()

    def get_list_html(self, page_num):
       ####這裡修改為
        headers={
            #random屬性:從ie、firefox、chrome等瀏覽器的ua中,隨機獲取一個ua。
            'User-Agent':self.ua.data_random
        }
        request = Request(page_url, headers=headers)