爬蟲常用設置

阿新 • • 發佈：2017-11-22

init gen bug wow res agen true cookies quit

1. setting.py

 1 #!/usr/bin/python
 2 # -*- coding: utf-8 -*-
 3 """
 4 @author: yugengde
 5 @contact: [email protected]
 6 @file : settings.py
 7 @time: 2017/11/22 15:41
 8 """
 9 
10 BOT_NAME = ‘pro‘
11 
12 SPIDER_MODULES = [‘pro.spiders‘]
13 NEWSPIDER_MODULE = ‘pro.spiders‘
14 
15 ROBOTSTXT_OBEY = False
 
16 
17 DOWNLOAD_DELAY = 3
18 COOKIES_ENABLED = False
19 
20 DOWNLOADER_MIDDLEWARES = {
21     ‘pro.middlewares.PhantomJSMiddleware‘: 301,
22     ‘pro.middlewares.UserAgentMiddleware‘: 300,
23 }
24 
25 ITEM_PIPELINES = {
26     ‘scrapy_redis.pipelines.RedisPipeline‘: 301,
27     ‘pro.pipelines.DuplicatesPipeline 
‘: 300,
28 }
29 
30 LOG_ENABLED = True
31 LOG_ENCODING = ‘utf-8‘
32 LOG_FILE = ‘pro.log‘
33 LOG_LEVEL = ‘DEBUG‘
34 # LOG_STDOUT =
35 
36 SCHEDULER = "scrapy_redis.scheduler.Scheduler"
37 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
38 REDIS_URL = ‘redis://root:password@localhost:6379‘

2. middlewares.py

  1 class PhantomJSMiddleware(object):
  2     @classmethod
  3     def process_request(cls, request, spider):
  4         from selenium import webdriver
  5         from scrapy.http import HtmlResponse
  6         driver = webdriver.PhantomJS(r‘C:\InstallFile\Phantomjs\bin\phantomjs.exe‘)
  7         driver.get(request.url)
  8         content = driver.page_source.encode(‘utf-8‘)
  9         driver.quit()
 10 
 11         return HtmlResponse(request.url, encoding=‘utf-8‘, body=content, request=request)
 12 
 13 
 14 class UserAgentMiddleware(object):
 15     @classmethod
 16     def process_request(cls, request, spider):
 17         import random
 18         user_agents = [ 
 20             "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:21.0) Gecko/20130331 Firefox/21.0",
 21             "Mozilla/5.0 (Windows x86; rv:19.0) Gecko/20100101 Firefox/19.0", # 可以使用 UserAgent()函數生成
    　　　　 ]
294         request.headers.setdefault(‘UserAgent‘,random.choice(user_agents))

3. pipelines.py

 1 #!/usr/bin/python
 2 # -*-coding:utf-8-*-
 3 
 4 from scrapy.exceptions import DropItem
 5 
 6 
 7 # 數據的去重
 8 class DuplicatesPipeline(object):
 9     def __init__(self):
10         self.ids_seen = set()
11 
12     def process_item(self, item, spider):
13         if not item[‘title‘]:
14             raise DropItem("Missing title in %s " % item)
15 
16         if item[‘item_id‘] in self.ids_seen:
17             raise DropItem("Duplicate item found: %s" % item)
18         else:
19             self.ids_seen.add(item[‘item_id‘])
20             yield item

爬蟲常用設置

init gen bug wow res agen true cookies quit 1. setting.py 1 #!/usr/bin/python 2 # -*- coding: utf-8 -*- 3 """ 4 @author: yugengde 5

IntelliJ IDEA 常用設置

ide說明IntelliJ IDEA 有很多人性化的設置我們必須單獨拿出來講解，也因為這些人性化的設置讓我們這些 IntelliJ IDEA 死忠粉更加死心塌地使用它和分享它。常用設置 1.代碼提示不區分大小寫IntelliJ IDEA 的代碼提示和補充功能有一個特性：區分大小寫。默認就是 First let

C#窗體控件DataGridView常用設置

pbo true view class 自適應 disable 排序。 void 當前在默認情況下，datagridview的顯示效果： 1.禁用最後一行空白。默認情況下，最後一行空白表示自動新增行，對於需要在控件中進行編輯，可以保留 dataGridView1

Pycharm 常用設置

log vcg har settings net eight shortcut pyc add 1.設置編碼方式 2.設置字體大小 File->Settings 在搜索框搜索increase 點擊Increase Font Size（增大字體）右

C#窗體的常用設置

圖片 color 顏色紅色 bsp blog cursor 常用 cursors 因為第三章題型都差不多，所以我就對常用的一些東西做了如下總結。 1.設置窗體的小圖標 Icon 在Icon屬性後面直接添加要改變的ico圖片。 2.設置窗體透明度 opac

IntelliJ IDEA常用設置及快捷鍵

ngs tool config configure ide blog bsp onf -1 1. IntelliJ IDEA常用設置 1.1 Maven配置　　選擇菜單：Configure -> Settings -> Build,Execution,De

IntelliJ IDEA 環境常用設置整理

輸出 move str size ctrl+ idea gen system watermark 1.修改為Eclipse快捷鍵 File -> Settings -> Keymap => Keymaps改為 Eclipse copy 2.顯示行號

【轉載】【軟件安裝】Source Insight 4.0常用設置

select ext lang 2.3 symbol c# avi b2c ber 1.Source Insight簡介 Source Insight是一個面向軟件開發的代碼編輯器和瀏覽器，它擁有內置的對C/C++, C#和Java等源碼的分析，創建並動態維護符號數據庫，並

神奇的Nginx之常用設置

競爭 expires fast stat htpasswd html all 日常 local 引言 nginx軟件十分小巧，較其競爭對手Apache而言，nginx可以實現的功能更為豐富，配置更為簡單。Nginx采用多線程方式，對服務器內存大小要求不像apache那些高，

Pycharm快捷鍵、常用設置、配置管理

方法警告生成 default map 主動 ref 屬性常量一、PyCharm默認快捷鍵 PyCharm Default Keymap 1、編輯（Editing） Ctrl + Space 基本的代碼完成（類、方法、屬性）Ctrl + Alt + Spa

Ubuntu 16.04修改MAC地址以及網絡常用設置（IP/DNS/網關）

ice lin 直接 spa 兩種 article ace kconfig -name 1、先停止桌面版自帶的NetworkManager，這東西很難用，且有些設置需要重啟。 sudo systemctl stop NetworkManager.service su

nginx的常用設置

服務 ade log set cal pan class pro for path設置： =：精確匹配 ^~：使用字符串匹配，不使用正則 ~：使用正則匹配 ~*：使用不區分大小寫的正則匹配如： location ^~ /myjson/ { pro

Source Insight 常用設置

switch 下拉菜單 eve 寫上 forward 種類型 key 想要 local 1、背景色選擇要改變背景色Options->preference->windows background->color設置背景色2、解決字符等寬對齊問題

vim常用設置

ctrl+c case sin pac class nco can .sh vma 設置說明 set im "設置啟動時進入的模式 set magic " 設置魔術 colorscheme slate " 設置主題

eclipse 常用設置

enc bsp ren file ner cli body text eclipse eclipse 中UTF-8設置 1.windows->Preferences 打開"首選項"對話框； 2.然後，general->Workspace，右側Te

centos6版本iptables常用設置

清除禁止 limit 遠程連接 onf 常用 sysconf 文件 output 默認策略 # iptables -LChain INPUT (policy ACCEPT) target prot opt source de

pycharm快捷鍵及一些常用設置

ring 當前高亮顯示粘貼 cat 代碼塊配置 ins log 1、pycharm快捷鍵及一些常用設置，方便隨時參閱。 Alt+Enter 自動添加包Ctrl+t SVN更新Ctrl+k SVN提交Ctrl + / 註釋(取消註釋)選擇的行Ctrl+Shift+F 高

Vim 基本常用設置

交換文件 hls 搜索常用 relative hid 基本 BE number 1. :set number 設置行號 2. :set relativenumber 設置相對行號 3. :set hlsearch 設置搜索高亮 4. :set noh 關閉

Pycharm快捷鍵及常用設置方法

d+ iss blog -s 控制 left ace chinese 函數名引用自https://blog.csdn.net/weixin_41059146/article/details/78826163，感謝整理 1、編輯（Editing） Ctrl + Space

pycharm 快捷鍵及一些常用設置

ctrl+s ctrl+ 不能 aps 替換喜歡 pla pyc Edito pycharm中的快捷鍵及一些常用設置在PyCharm /opt/pycharm-3.4.1/help目錄下可以找到ReferenceCard.pdf快捷鍵英文版說明 PyCharm De

爬蟲常用設置

相關推薦