Python爬蟲之Scrapy框架的UA池和代理池
阿新 • • 發佈:2019-03-05
loader 代理 user 4.5 fill 中間件 5.1 html linu
一 下載Scrapy的下載中間件
下載中間件(Downloader Middlewares) 位於scrapy引擎和下載器之間的一層組件。
下載中間件的作用:
(1)引擎請求傳遞給下載器的過程中,下載中間件可以對請求進行一系列處理。比如:設置User-Agent,設置代理等。
(2)在下載器完成將Response傳遞給引擎中,下載中間件可以對響應進行一系列的處理。
我們主要使用下載中間件處理請求,設置隨機的代理IP,對請求設置隨機的User-Agent。目的在於防止爬取網站時的反爬蟲策略。
二 UA池:User-Agent
作用是:盡量將scrapy工程中的請求偽裝成不同類型的瀏覽器身份。
步驟如下:
(1) 在下載中間件中攔截請求
(2)將攔截到的請求的請求信息中的UA進行篡改偽裝
(3)在配置文件中開啟下載中間件
middlewares.py中
import random class MiddleproDownloaderMiddleware(object): # Not all methods need to be defined. If a method is not defined, # scrapy acts as if the downloader middleware does not modify the # passed objects. user_agent_list = [ "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 " "(KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1", "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 " "(KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 " "(KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6", "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 " "(KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6", "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 " "(KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1", "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 " "(KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5", "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 " "(KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 " "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 " "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 " "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 " "(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 " "(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3", "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 " "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 " "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 " "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 " "(KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3", "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 " "(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24", "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 " "(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24" ] #攔截所有未發生異常的請求(正常的請求) def process_request(self, request, spider): print('process_request') # 使用UA池進行請求的UA偽裝 #請求頭信息 獲取到的是字典 #這一步可有可無 因為你可以在settings中設置一個共同的User-Agent request.headers['User-Agent'] = random.choice(self.user_agent_list) print(request.headers['User-Agent']) return None
三 代理池
作用是:將Scrapy工程中的請求中的IP設置成不同的
步驟:(與UA池基本上是一樣的)
(1)在下載中間件中攔截請求
(2) 將攔截到的請求中的IP修改成某一個代理的IP
(3)在配置文件中開啟下載中間件
middlewares.py
class MiddleproDownloaderMiddleware(object): #寫兩個列表 原因是代理IP的類型中有 http 和 https兩種類型 # 可被選用的代理IP PROXY_http = [ '153.180.102.104:80', '195.208.131.189:56055', ] PROXY_https = [ '120.83.49.90:9000', '95.189.112.214:35508', ] #攔截所有的異常請求 def process_exception(self, request, exception, spider): #這一步是必須要用的 因為當你訪問一個網站次數過多的時候 你可以使用代理IP繼續爬取該網站的數據 ## #使用代理池進行請求代理ip的設置 # request.url 返回的是請求對象所對應的URL print('process_exception') if request.url.split(':')[0] == 'http': request.meta['proxy'] = random.choice(self.PROXY_http) else: request.meta['proxy'] = random.choice(self.PROXY_https)
在settings.py中將下載中間件打開即可
#在第55行
DOWNLOADER_MIDDLEWARES = {
'middlePro.middlewares.MiddleproDownloaderMiddleware': 543,
}
Python爬蟲之Scrapy框架的UA池和代理池