爬蟲進階（1）

阿新 • • 發佈：2018-12-20

import random

import requests
from fake_useragent import UserAgent
from retrying import retry  # 裝飾器  下載錯誤重複下載
import hashlib # 資訊摘要 md5
import queue # 佇列
import re # 正則表示式
from urllib import robotparser # 解析網站robots。txt檔案
from urllib.parse import urlparse,urljoin,urldefrag # 解析url
from threading import Thread # 多執行緒
from datetime import datetime # 獲取時間
import time
import mongo_cache
MAX_DEP = 2 # 定義爬取深度

def get_robots(url):
    """
    解析robots.txt檔案
    :param url:
    :return:
    """
    rp = robotparser.RobotFileParser()
    rp.set_url(urljoin(url,'robots.txt'))
    rp.read()
    return rp
def save_url(html_content,url_str):
    """
    儲存下載內容
    :param html_content:
    :param url_str:
    :return:
    """
    md5 = hashlib.md5()
    md5.update(html_content)
    # file_path = "./download/" + md5.hexdigest() + ".html"
    file_path = "D:\crawler\download\crawler-" + gen_html_name(url_str)
    with open(file_path,'wb') as f:
        f.write(html_content)
def gen_html_name(url_str):
    path = urlparse(url_str).path
    path_array = path.split('/')
    return path_array[len(path_array) - 1]#取出最後一個
def extractor_url_lists(html_content):
    """
    抽取網頁中的其他連結
    :param html_content:
    :return:
    """
    url_regex = re.compile('<a[^>]+href=["\'](.*?)["\']',re.IGNORECASE)
    return url_regex.findall(html_content)
class CrawlerCommon(Thread):
    """
    實現一個通用爬蟲，涵蓋基本的爬蟲功能及涉及一些反爬蟲技術
    """
    def __init__(self,init_url):
        super(CrawlerCommon,self).__init__()
        __ua = UserAgent()  # 隨機User_Agent
        self.seed_url = init_url   #初始爬取的種子網址
        self.crawler_queue = queue.Queue()  #使用不同的佇列會造成BFS和DFS的效果
        self.crawler_queue.put(init_url)  #將種子網址放入佇列
        self.visited = {init_url : 0}    # 初始爬取深度為0
        self.rp = get_robots(init_url)   # 初始化orbots解析器
        self.headers = {'User-Agent': __ua.random}   #生成一個隨機user-agent
        self.link_regex = '(index|view)'  #抽取網址的過濾條件
        self.throttle = Throttle(5.0) #下載限流器的間隔5秒
        self.mcache = mongo_cache.MongoCache()  #初始化mongo_cache
        self.time_sleep = 5
    def retry_download(self,url_str,data,method,proxies):
        """
        使用裝飾器的重試下載類
        :param url_str:
        :param data:
        :param method:
        :param proxies:
        :return:
        """
        if method == 'POST':
            result = requests.post(url_str,data=data,headers=self.headers,proxies=proxies)
        else:
            result = requests.get(url_str,headers=self.headers,timeout=3,proxies=proxies)
        assert result.status_code == 200  #此處為斷言，判斷狀態碼是否為200
        return result.content

    def download(self,url_str,data=None,method="get",proxies={}):
        """
        真正的下載類
        :param url_str:
        :param data:
        :param method:
        :param proxies:
        :return:
        """
        print("download url is :::::",url_str)
        try:
            result = self.retry_download(url_str,data,method,proxies)
        except Exception as e:   #python3使用as e
            print(e.message)
            result = None
        return result

    def nomalize(self,url_str):
        """
        補全下載連結
        :param url_str:
        :return:
        """
        real_url,_ = urldefrag(url_str)
        return urljoin(self.seed_url,real_url)
    def save_result(self,html_content,url_str):
        """
        將結果存入資料庫庫，存入前檢查內容是否存在
        :param html_content: 下載的二進位制內容
        :param url_str: 下載網頁的url
        :return:
        """
        if url_str not in self.mcache:
            self.mcache[url_str]=html_content
        else:
            data_from_mongo = self.mcache[url_str]
            md5_func = hashlib.md5()
            md5_func.update(data_from_mongo)
            mongo_md5_str = md5_func.hexdigest()
            md5_func.update(html_content)
            download_md5_str =md5_func.hexdigest()
            if download_md5_str != mongo_md5_str:
                self.mcache[url_str] = html_content
    def run(self):
        """
        進行網頁爬取的主要方法
        :return:
        """
        while not self.crawler_queue.empty():
            url_str = self.crawler_queue.get()
            # 檢測robots。txt檔案規則
            if self.rp.can_fetch(self.headers["User-Agent"],url_str):
                self.throttle.wait_url(url_str)
                # random_oper = random.randint(0,1)
                # if random_oper == 1:
                #     time.sleep(self.time_sleep + random.random() * random.randint(1,5))
                # else:
                #     time.sleep(self.time_sleep - random.random())
                depth = self.visited[url_str]
                if depth < MAX_DEP:
                    # 下載連結
                    html_content = self.download(url_str)
                    # 儲存連結
                    if html_content is not None:
                        # self.mcache[url_str] = html_content
                        self.save_result(html_content,url_str)
                        save_url(html_content,url_str)
                    # 篩選出頁面所有連結
                    url_list = extractor_url_lists(html_content.decode('utf-8'))
                    # 篩選需要爬取的連結
                    filter_urls = [link for link in url_list if re.search('/(mongodb)',link)]
                    for url in filter_urls:
                        # 補全連結
                        real_url = self.nomalize(url)
                        # 判斷連結是否訪問過
                        if real_url not in self.visited:
                            self.visited[real_url] = depth + 1
                            self.crawler_queue.put(real_url)
            else:
                print("robots.txt 禁止下載:",url_str)
class Throttle(object):
    """
    下載限流器
    """
    def __init__(self,delay):
        self.domains = {}
        self.delay = delay
    def wait_url(self,url_str):
        domain_url = urlparse(url_str).netloc # 取出網址域名(netloc)
        last_accessed = self.domains.get(domain_url) #取出域名的上次下載時間
        if self.delay > 0 and last_accessed is not None:
            #將當前時間和上次下載時間相減，得出兩次下載時間間隔
            sleep_interval = self.delay - (datetime.now() - last_accessed).seconds
            # 如果時間大於0 休眠
            if sleep_interval > 0:
                time.sleep(sleep_interval)
        self.domains[domain_url] = datetime.now() #把當前時間以域名作為key存到字典中

if __name__ == '__main__':
    crawler = CrawlerCommon('http://www.runoob.com/mongodb/mongodb-tutorial.html')
    crawler.run()

爬蟲進階（1）

import random import requests from fake_useragent import UserAgent from retrying import retry # 裝飾器下載錯誤重複下載 import hashlib # 資訊摘要 md5 import q

c#進階（1）—— Task Parallel Library 並行執行與串行執行

-128 serve 模擬程序 www 操作內存兩個 1-1 本文參考的博文出處：http://www.cnblogs.com/stoneniqiu/p/4857021.html 總體說明：（1）、理解硬件線程和軟件線程　　硬件線程也稱為邏輯內核，一個物理內核可以

python進階（1）——模組：開箱即用

一.開箱即用之前總結的將模組作為函式匯入程式中：https://mp.csdn.net/postedit/80904368 二.查明模組包含什麼：dir（） dir(copy) 使用help獲取幫助 help(copy) help(

Hibernate 進階（1）

Hibernate 關聯關係單向關聯：例如物品和使用者構建單向關係，則可以通過使用者檢視物品，去不能通過物品檢視使用者。雙向關聯：兩者之間可以互相訪問。關係可以分為：單向1-N，單向N-1，單向N-N

vue進階（1） ---自定義元件

vue自定義元件 1、區域性元件，區域性元件必須要手動掛載，不然無法生效 2、全域性元件，全域性元件不需要手動掛載，但是不常用，儘量不要在全域性上掛載變數或者元件（可能會影響瀏覽器效能） 3、配合

python爬蟲進階（八）：分散式系統的高可用與高併發處理

一、應對高併發的基本思路 1、加快單機的速度，例如使用Redis，提高資料訪問頻率；增加CPU的核心數，增大記憶體； 2、增加伺服器的數量，利用叢集。二、分散式系統的設計 1、無狀態應用本身沒有狀態，狀態全部通過配置檔案或者叢集的服務端提供並與之同步。比如不同

SEH 進階（1）

SHE進階瞭解了上一篇的文章之後，我們寫一個簡單的例子來驗證我們的想法，並學習新的知識。不同的編譯器提供的增強版本SHE 可能不同，但是它們都是基於windows 底層SHE 的。我們使用Win10 1703 + VS2010 生成X86 Rlease 程式來驗證已經學

python爬蟲進階（十）：日誌系統、守護執行緒以及驗證碼處理

一、日誌系統首先，關日誌系統的設計參考這篇部落格。 1、日誌系統基本用途（1）多執行緒情況下，debug除錯非常困難（2）錯誤出現可能有一些隨機性（3）效能分析（4）錯誤記錄與分析（5）執行狀態的實時監測 2、日誌系統設計（1）錯誤級別：Debug，I

python爬蟲進階（一）：靜態網頁爬取

一、文章說明本文是在學習過程中的筆記分享，開發環境是win7，Python3，編輯器pycharm，文章中若有錯誤歡迎指出、積極討論。另外，推薦一個比較好的爬蟲教程二、課程基礎 1、HTML和CSS 爬蟲和網頁內容處處打交道，首先要掌握一部分前端內容。參考教程： 2、

python 進階（1）

python進階（1）參考慕課python教程1.函數語言程式設計1.1 函數語言程式設計簡介a.python不是純函數語言程式設計b.python中變數可以指向函式，函式名就是指向函式的變數。c.高階函式: 可以接受函式作為引數的函式，def add(x,y,f):ret

Python爬蟲（入門+進階）學習筆記 3-1 爬蟲工程師進階（七）：HTTP請求分析

Chrome瀏覽器相對於其他的瀏覽器而言，DevTools（開發者工具）非常強大。這節課將為大家介紹怎麼利用Chrome瀏覽器的開發者工具進行HTTP請求分析Chrome瀏覽器講解Chrome 開發者工具是一套內置於Google Chrome中的Web開發和除錯工具，可用來對

python進階（2）——re模組：正則表示式1

實驗結果輸出文件，包括多項引數（大約幾百個），想把所有的loss value對應的值提取出來，畫出曲線圖，這就需要用到正則表示式，基於此，開始學習正則表示式。正則表示式：可匹配文字片段的模式萬用字元：句點.(.ython與jpython與python與 ython都匹配，但不與ython

水波紋進度條（自定義View——進階篇1）

自定義控制元件——ProgressCircleView（水波紋進度條）最近在很多群都有提到水波紋進度條，看起來蠻唬人的，但是我們要相信毛爺爺的話，一切看起來唬人的都是紙老唬，一言不合，還是先貼效果圖

爬蟲工程師進階（八）：去重與入庫

資料去重又稱重複資料刪除，是指在一個數字檔案集合中，找出重複的資料並將其刪除，只儲存唯一的資料單元。資料去重可以有效避免資源的浪費，所以資料去重至關重要。資料去重資料去重可以從兩個節點入手：一個是URL去重。即直接篩選掉重複的URL；另一個是資料庫去重。即利用資料庫的一些特性

android-進階（3）-自定義view(1)

<LinearLayout xmlns:android="http://schemas.android.com/apk/res/android" xmlns:tools="http://schemas.android.com/tools" xmlns:custom="http://sch

mysql進階（二）之細談索引、分頁與慢日誌

連表組合索引 rar 偏移量最小值 num glob 要求 for 索引 1、數據庫索引　　數據庫索引是一種數據結構，可以以額外的寫入和存儲空間為代價來提高數據庫表上的數據檢索操作的速度，以維護索引數據結構。索引用於快速定位數據，而無需在每次訪問數據庫表時搜索數據

python學習之函數學習進階（二）

python學習之函數進階二一、內置函數 zip函數: zip()是Python的一個內建函數，它接受一系列可叠代的對象作為參數，將對象中對應的元素按順序組合成一個tuple，每個tuple中包含的是原有序列中對應序號位置的元素，然後返回由這些tuples組成的list。若傳入參數的長度不等，則返回li

Python自動化開發課堂筆記【Day06】 - Python進階（類）

擴展性程序 lex 類名人物優點 ini 參數 self. 類與對象面向過程的程序設計：　　優點：極大的降低了程序的復雜度　　缺點：一套流水線或者流程就是用來解決一個問題，生產汽水的流水線無法生產汽車，即使能，也是得大改，改一個組件，牽一發而動全身面向對象的程序設計

mysql進階（一） mysql備份

mysql備份的目的：實現災難恢復：誤操作、硬件故障、軟件故障、自然災害、黑客攻擊註意的要點： 1、能夠容忍丟失多少數據 2、恢復數據所用的時間 3、備份需要的時間 4、是否對業務有影響 5、備份時服務器負載備份類型完全備份：備份整個

蘋果新的編程語言 Swift 語言進階（二）－－基本數據類型

保持 popu 多條語句常量 num access 對象程序進制一、常量和變量 Swift語言對常量和變量的聲明進行了明白的區分 Swift語言的常量類型比C 語言的co

爬蟲進階（1）

相關推薦