爬蟲常用程式碼--基礎爬蟲（含代理和日誌）

阿新 • • 發佈：2018-12-16



import logging
import sys
import urllib.request
import random
import ssl
# 全域性取消安全證書驗證，如果沒有這一句會報錯
ssl._create_default_https_context = ssl._create_unverified_context

# 建立日誌基本上就是這個套路
# 建立例項,引數為日誌檔名
logger = logging.getLogger("basicspider")

# 定義日誌的格式,引數分別為：時間,異常登記

formatter = logging.Formatter("%(asctime)s %(levelname)s %(message)s" 
)

# 開始建立日誌：檔案日誌，終端日誌
# 建立檔案日誌
file_handler = logging.FileHandler("basicspider.log")
# 設定檔案日誌格式
file_handler.setFormatter(formatter)

# 建立終端日誌

consle_handler = logging.StreamHandler(sys.stdout)
consle_handler.setFormatter(formatter)

# 設定日誌預設級別,比這個級別高的錯誤都會寫進來。10是debug，20是INFO，30是WARNING，40是ERROR，50是FATAL 

# 一般來說，除錯的時候設定為debug，但是釋出的時候最好設定到error，否則會顯得很外行
logger.setLevel(logging.INFO)

# 把檔案日誌和終端日誌新增到日誌處理器中

logger.addHandler(file_handler)
logger.addHandler(consle_handler)
# 以上建立日誌過程結束
PROXY_RANGE_MIN = 1
PROXY_RANGE_MAX = 10
PROXY_RANGE_NUM = 11
NUMRETRIES = 10
TIMEOUT = 10


def downloadHtml(url, headers= 
[], proxy={}, num_retries=10, timeout=10, decodeInfo="utf-8"):
    """爬蟲的get請求，考慮了UA等http request head部分的設定
    支援代理伺服器處理
    如果返回的狀態碼不是200的處理方式
    考慮了超時問題和網頁編碼格式
    """
    #logger.debug("download start")
    # 一般來說使用UA池和代理伺服器池訪問頁面會不容易被反爬
    # 動態的調整代理伺服器的使用策略
    html = None  # z最終返回值是一個html，在這裡設定一個初始值，這樣一定可以返回
    if num_retries <= 0:
        return html
    if random.randint(PROXY_RANGE_MIN, PROXY_RANGE_MAX) >= PROXY_RANGE_NUM:  # 70%概率不使用代理伺服器
        logger.info("No Proxy")
        proxy = None
    else:
        logger.info("Already Use Proxy")

    proxy_handler = urllib.request.ProxyHandler(proxy)
    #logger.debug("download completed")
    opener = urllib.request.build_opener(proxy_handler)
    opener.addheaders = headers
    urllib.request.install_opener(opener)
    try:
        response = urllib.request.urlopen(url)
        html = response.read().decode(decodeInfo)
    except UnicodeDecodeError as u:
        logger.error("UnicodeDecodeError:", u)
    except urllib.error.URLError or urllib.error.HTTPError as e:
        logger.error("urllib error:", e)
        if hasattr(e, "code") and 400 <= e.code < 500:
            logger.error("Client Error")
        elif hasattr(e, "code") and 500 <= e.code < 600:
            html = downloadHtml(url, headers, proxy, timeout,
                                decodeInfo, num_retries-1)
            logger.error("Server Error")
    except:
        logger.error("Download Error")

    return html


if __name__ == '__main__':
    url = "http://www.baidu.com"
    headers = [("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36")]
    proxy = {"http": "106.75.164.15:3128"}
    print(downloadHtml(url, headers, proxy, NUMRETRIES, TIMEOUT))
    # 注意 日誌remove必須在外邊，保證可以remove
logger.removeHandler(file_handler)
logger.removeHandler(consle_handler)

爬蟲常用程式碼--基礎爬蟲（含代理和日誌）

import logging import sys import urllib.request import random import ssl # 全域性取消安全證書驗證，如果沒有這一句會報錯 ssl._create_default_https_conte

藍橋杯練習系統試題集（二）--基礎練習（含C/C++答案）

藍橋杯練習系統試題集（二）–基礎練習（含C/C++答案） 1 基礎練習閏年判斷時間限制：1.0s 記憶體限制：256.0MB 提交此題錦囊1 錦囊2 問題描述給定一個年份，判斷這一年是不是閏年。當以下情況之一滿足時

Android Studio 工具：Lint 程式碼掃描工具（含自定義lint）

什麼是 Lint Android Lint 是 SDK Tools 16（ADT 16）開始引入的一個程式碼掃描工具，通過對程式碼進行靜態分析，可以幫助開發者發現程式碼質量問題和提出一些改進建議。除了檢查 Android 專案原始碼中潛在的錯誤，對於程式碼的正確性、安全

JMeter5.1企業級應用應用常用功能詳解（含插件安裝）

常用免費常用功能分布企業分布式分析壓力模擬 apache jmeter是100％的java桌面應用程序，它被設計用來加載被測試軟件功能特性、度量被測試軟件的性能。jmeter可以模擬大量的服務器負載，並且jmeter提供圖形化的性能分析。 JMeter和L

關於大數據領域各個組件打包部署到集群運行的總結（含手動和maven）（博主推薦）

reduce count 圖片 bar big href alt 關於 hdfs 對於這裏的打包，總結：　　(1) 最簡單的，也是為了適應公司裏，還是要用maven，當然spark那邊sbt，maven都可以。但是maven居多。 Eclipse/MyEclips

Java基礎知識（重載和覆蓋）

個數 nbsp 大於等於異常產生解決特性函數編譯失敗重載(overload)：在一個類中，如果出現了兩個或者兩個以上的同名函數，只要它們的參數的個數，或者參數的類型不同，即可稱之為該函數重載了。即當函數同名時，只看參數列表。和返回值類

【小家Java】深入理解Java列舉型別(enum)及7種常見的用法（含EnumMap和EnumSet）

相關閱讀【小家java】java5新特性（簡述十大新特性）重要一躍【小家java】java6新特性（簡述十大新特性）雞肋升級【小家java】java7新特性（簡述八大新特性）不溫不火【小家java】java8新特性（簡述十大新特性）飽受讚譽【小家java】java9

java基礎複習（抽象類和介面）

介面中的資料域只能是public static final，方法只能是public abstract 由於這個原因，這些修飾也可以忽略。資料域只能是static final的原因： stackoverflow上： An interface can’t ha

JAVA核心技術I---JAVA基礎知識（抽象類和介面）

一：抽象類（一）定義類：屬性(0或多個)+方法(0或多個)一個完整(健康)的類：所有的方法都有實現(方法體)類可以沒有方法，但是有方法就肯定要有實現，這才是一個完整的類一個完整的類才可以被例項化，被new出來如果一個類暫時有方法未實現，需要被定義為抽象類（二）實現抽象類關鍵字a

Python外殼：程式碼結構！（推導式和函式）

推導式：推導式是一個或者多個迭代器快速簡潔的建立資料結構的一種方法。它可以將迴圈和條件判斷結合，從而避免語法冗長的程式碼。悄悄告訴你，會使用推導式。很大程度上說明，你已經超過許多初學者啦· 也就是說，使用推導式更加像python的風格· 列表推導式：一個一個追加。也

Java高階特性（動態代理和反射）

目錄第4天 java高階特性增強今天內容安排：1、掌握多執行緒2、掌握併發包下的佇列3、瞭解JMS4、掌握JVM技術5、掌握反射和動態代理Øjava多執行緒增強通俗來講：應用程式就是一個程序。不管是我們開發的應用程式，還是我們執行的其他的應用程式，都需要先把程式安裝在本地的硬

如何快速入門網路基礎知識（TCP/IP 和 HTTP）

前言在寫之前，先給這篇文章做一個明確定位，讀完這篇文章後，希望你能夠：對於計算機網路有初步的認識和了解，瞭解一些經典專業術語，如三次握手、四次揮手、DNS解析的含義。瞭解一些應用層協議，如傳統的HTTP、HTTPS協議，以及業界近幾年開始逐步普及的HTTP2、QUIC協議。通

21種JavaScript設計模式最新記錄（含圖和示例）

　　最近觀看了《Javascript設計模式系統講解與應用》教程，對設計模式有了新的認識，特在此做些記錄。一、UML 　　文中會涉及眾多的UML類圖，在開篇需要做點基礎概念的認識。以下面的圖為例，圖片和說明均來源於《大話設計模式》一書。　　（1）矩形框，它代表一個類。類圖分三層，第一層顯示類的名

Shone.Math開源系列2 — 實數型別（含分數和無理數）的實現

Shone.Math開源系列2 實數型別（含分數和無理數）的實現作者：Shone 宣告：原創文章歡迎轉載，但請註明出處，https://www.cnblogs.com/ShoneSharp。摘要: 計算機數值計算存在輸入進位制誤差、計算過程的分數和無理數運算誤差，是很多程式設計開發的痛點所在。開源專案Sh

爬蟲新增隨機User—Agent（隨機代理）

胖友那還在為新增隨機使用者代理，找出一大堆代理，然後random一下嗎，哈哈哈今天我發現一個好東西，分享出來，可能別人早就知道了，但是對我來說還是個新鮮玩意，哈哈那就是fake-useragent庫安裝 pip install fake-useragent

python爬蟲之git的使用（coding.net的使用）

git push github上版本 es2017 push 我們執行命令 pytho 最好的 1、註冊coding.net賬號，然後登陸。 2、創建項目套路和github都一樣。 1.1、我們在遠程倉庫上創建了一個倉庫，這樣的話，我們需要在本地隨便建立一

爬蟲必備—性能相關（異步非阻塞）

tornado 異步io 主機 quest cookie article Coding aps 技術在編寫爬蟲時，性能的消耗主要在IO請求中，當單進程單線程模式下請求URL時必然會引起等待，從而使得請求整體變慢。 1. 同步執行 1 import requests

Linux基本常用命令之ls詳解（含date，cal）

Linux基礎【1】顯示日期的指令：date示例：(1)#date +%Y/%m/%d結果：2018/02/27(2)#date +%H:%M結果：10:48【2】顯示日歷的指令：cal格式：cal [month] [year]示例：(1)#cal 2 2018(2)#cal 13 2018結果：cal:il

Linux 環境下常用指令（含JDK安裝配置）總結

一、基本操作 cd：進入選單，可接相對路徑或全路徑 pwd ：顯示當前所在資料夾 ls ：展示當前資料夾下的所有檔案和資料夾 cp [-r] 檔名A 檔名B/路徑：複製檔案A到檔案B，-r表示複製資料夾 mv 檔名A 檔名B/路徑：給檔案A改名/剪下到指定路徑 rm [-f] 檔名：刪除

Python爬蟲（urllib.request和BeautifulSoup）

學習urllib.request和beautifulsoup，並從dribbble和behance上爬取了一些圖片，記錄一下。一、urllib.request 1. url的構造構造請求的url遇到的主要問題是如何翻頁的問題，dribbble網站是下拉到底自動載入下

爬蟲常用程式碼--基礎爬蟲（含代理和日誌）

相關推薦