【爬蟲入門】【正則表示式】【非同步】爬取人人車車輛資訊1.0

阿新 • • 發佈：2019-01-09

# 爬取人人車車車輛資訊。
# 多執行緒/多程序：提高程式碼的執行效率，放在爬蟲中就是提高爬取效率。因為可以使用多個程序同時對多個頁面發起請求。
# 之前的糗事百科/51job同步執行：按照先後順序一個一個執行。

from urllib.request import urlopen
from urllib.error import HTTPError
# 程序池：比較方便，使用簡單。
from multiprocessing import Pool

import re, sqlite3

class RRCSpider(object):
    """
    人人車爬蟲類
    """
    def __init__(self):
        pass

    def get_list_html(self, page_num):
        """
        獲取列表頁原始碼
        :param page_num: 列表頁的頁碼
        :return: 返回網頁原始碼
        """
        list_url = 'https://www.renrenche.com/zz/ershouche/p{}/'.format(page_num)
        try:
            list_html = urlopen(list_url).read().decode()
        except HTTPError as e:
            print('列表頁異常：url={}, error={}'.format(list_url, e))
            return None, None
        else:
            return list_html, list_url

    def parse_list_html(self, list_html, list_url):
        """
        解析列表頁資料
        :param list_html: 列表頁網頁原始碼
        :return: 返回每一個數據的詳情頁地址
        """
        # 利用正則表示式提取列表頁中所有二手車的詳情頁的連結。
        detail_urls = re.findall(re.compile(r'<li class="span6 list-item.*?".*?<a.*?href="(.*?)".*?class="thumbnail"', re.S), list_html)
        if detail_urls:
            return detail_urls
        else:
            print('列表頁資料為空：url={}'.format(list_url))
            return None

    def get_detail_html(self, detail_url):
        """
        獲取詳情頁原始碼
        :param detail_url: 詳情頁的url
        :return: 返回詳情頁網頁原始碼
        """
        try:
            detail_html = urlopen(detail_url).read().decode()
        except HTTPError as e:
            print('詳情頁異常：url={}, error={}'.format(detail_url, e))
            return None, None
        else:
            return detail_html, detail_url

    def parse_detail_html(self, detail_html, detail_url):
        """
        解析詳情頁資料
        :param detail_html: 詳情頁網頁原始碼
        :return: None
        """
        # [('本天', '6.7', '2010')]
        data = re.findall(re.compile(r'<h1 class="title-name rrc.*?">(.*?)</h1>.*?<p class="price.*?">(.*?)</p>.*?<p class="money.*?首付(.*?)<.*?月供(.*?)</p>.*?<ul class=".*?box-list-primary-detail">.*?<strong class="car-summary rrc.*?">(.*?)</strong>.*?<p class="small-title rrc.*?">(.*?)</p>.*?<strong.*?id="car-licensed">(.*?)</strong>.*?<p>.*?<strong class="car-summary">(.*?)</strong>.*?<p class="transfer-record">.*?<strong.*?>(.*?)</strong>', re.S), detail_html)[0]
        print(data)

    def start_spider(self, num):
        """
        爬蟲程式啟動入口
        :return:
        """
        print('正在請求第{}頁'.format(num))
        list_html, list_url = self.get_list_html(num)
        if list_html:
            detail_urls = self.parse_list_html(list_html, list_url)
            if detail_urls:
                for detail_url in detail_urls:
                    url = 'https://www.renrenche.com' + detail_url
                    detail_html, d_url = self.get_detail_html(url)
                    if detail_html:
                        self.parse_detail_html(detail_html, d_url)

if __name__ == '__main__':
    obj = RRCSpider()

    # 這是同步for迴圈
    # for x in range(1,2):
    #     obj.start_spider(x)

    #多程序for迴圈：第一頁、第二頁...同時開始獲取資料
    #建立程序池物件。並指定建立程序的數量。
    pool=Pool(3)

    pool.map(obj.start_spider,[x for x in range(1,11)])

    #讓主程序等待：等待子程序的任務執行完畢之後，再執行主程序的後續程式碼
    #主程序是控制程式的啟動和結束，一旦主程序停止，那麼整個程式也就終止了。預設情況下，主程序是不會等待子程序的任務執行完畢的，因為程序間的任務執行是相互獨立的，所有，如果主程序在子程序任務沒有執行完畢的前提下就關閉了主程序，那麼子程序剩餘的工作就無法執行了，所以必須讓主程序等待子程序，否則任務無法全部執行完畢。
    pool.close()
    pool.join()

【爬蟲入門】【正則表示式】【非同步】爬取人人車車輛資訊1.0

# 爬取人人車車車輛資訊。 # 多執行緒/多程序：提高程式碼的執行效率，放在爬蟲中就是提高爬取效率。因為可以使用多個程序同時對多個頁面發起請求。 # 之前的糗事百科/51job同步執行：按照先後順序一個一個執行。 from urllib.request import urlopen from ur

【爬蟲入門】【正則表示式】【同步】爬取人人車車輛資訊1.0

# 爬取人人車車車輛資訊。 from urllib.request import urlopen from urllib.error import HTTPError import re, sqlite3 class RRCSpider(object): """ 人人車爬蟲類

【爬蟲入門】【非同步】爬取人人車車輛資訊1.0

【爬蟲入門】【同步】爬取人人車車輛資訊1.0

# 爬取人人車車車輛資訊。 from urllib.request import urlopen from urllib.error import HTTPError import re, sqlite3 class RRCSpider(object): """ 人人車爬蟲類

Python爬蟲入門七之正則表示式

在前面我們已經搞定了怎樣獲取頁面的內容，不過還差一步，這麼多雜亂的程式碼夾雜文字我們怎樣把它提取出來整理呢？下面就開始介紹一個十分強大的工具，正則表示式！ 1.瞭解正則表示式正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元、及這些

【C++】regex 正則表示式

正則表示式是一種描述字元序列的方法，是C++11標準庫中新加入的強大工具。正則表示式是一種用於字串處理的微型語言，適用於一些與字串相關的操作。C++11包含了對以下幾種語法的支援：ECMAScript、basic、extended、awk、grep和egrep。C++

【javascript】使用正則表示式驗證

管理系統專案上用到的正則表示式驗證：一、驗證手機號碼最新的手機號驗證。 function checkMobilePhone(str){ var reg = /^(13[0-9]|14[579]|15[0-3,5-9]|16[6]|17[0135678]|18[0-9]|1

【LeetCode】#10正則表示式匹配(Regular Expression Matching)

【LeetCode】#10正則表示式匹配(Regular Expression Matching) 題目描述給定一個字串 (s) 和一個字元模式 §。實現支援 ‘.’ 和 ‘’ 的正則表示式匹配。 ‘.’ 匹配任意單個字元。 '’ 匹配零個或多個前面的元素。匹配應該覆蓋整個字串

【PHP】PHP正則表示式驗證表單

以下內容轉載自：https://www.jb51.net/article/93375.htm 模式匹配符： \：轉義字元例如：\b轉義了b ^：正則表示式開始符號 $：正則表示式結束符號 *：匹配前面的字元出現0次或者n次 +：匹配前面的字元出現1次或者n次 ?：匹配前面的字元出現

Javascript正則表示式筆錄【2】

文章目錄方形括號的用法示例-禁止在表單中輸入非字母預定義類邊界符匹配示例量詞量詞 * 示例量詞 + 示例

Javascript正則表示式筆錄【1】

關於量詞/元字元等用法見 Javascript正則表示式筆錄【2】文章目錄新建正則表示式的方法全域性匹配時需要引入額外選項 'g' 匹配多行時需要引入選項'm'，同時還要引入'g' 使用正則表示式查詢字串中

【語法12】Python正則表示式

正則表示式正則表示式是一個特殊的字元序列，它能幫助你方便的檢查一個字串是否與某種模式匹配。 Python 自1.5版本起增加了re 模組，它提供 Perl 風格的正則表示式模式。 re 模組使 Python 語言擁有全部的正則表示式功能。 compile 函式

【python 正則表示式】python正則表示式提取郵箱、網址、手機號、ip地址

要從文字中提取電子郵件、url、手機號、ip地址等，我們可以使用殺手鐗正則表示式。下面是我封裝的函式，方便以後拿來直接用。 # encoding: utf-8 import re # 自定義獲取文

【java 正則表示式】java正則表示式匹配圖片個數

Java 正則表示式和 Perl 的是最為相似的。 java.util.regex 包主要包括以下三個類： 1、Pattern 類： pattern 物件是一個正則表示式的編譯表示。Pattern 類沒

常用的正則表示式整理【轉載，防丟失】

轉載文章，好資源，防丟失。原文連結： http://blog.cspojie.cn/2017/09/26/常用的正則表示式整理/ 一、校驗數字的表示式 1 數字： ^[0-9]$ 2 n位的數字： ^\d{n}$ 3 至少n位的數字： ^\d{n,}$ 4 m-n位的數字：^

1000行程式碼徒手寫正則表示式引擎【1】--JAVA中正則表示式的使用

簡介：本文是系列部落格的第一篇，主要講解和分析正則表示式規則以及JAVA中原生正則表示式引擎的使用。在後續的文章中會涉及基於NFA的正則表示式引擎內部的工作原理，並在此基礎上用1000行左右的JAVA程式碼,實現一個支援常用功能的正則表示式引擎。它支援貪婪匹配和懶惰匹配；支援零寬度字元（如“\b”， “\B

jquery正則表示式驗證【是否帶有小數、是否中文名稱組成、是否全由8位數字組成、電話碼格式、郵件地址】

1 <form name="myform" action="" onsubmit="return fun1()"> 2 <div align="center"> 3 <table border="1" width="60%" > 4 <tr>

【正則】JavaScript正則表示式

一、元字元二、修飾符三、屬性四、貪婪模式&&非貪婪模式正則表示式會盡可能多的匹配，直到無法匹配，我們稱之為貪婪模式下面的數字匹配會返回能匹配到的最多的數字 var str = "123456789"; str.replace

【lua】Lua正則表示式匹配郵箱

function isRightEmail(str) if string.len(str or "") < 6 then return false end local b,e = string.find(str or "", '@') local bstr =

【筆記】IPV6正則表示式

/^\s*((([0-9A-Fa-f]{1,4}:){7}([0-9A-Fa-f]{1,4}|:))|(([0-9A-Fa-f]{1,4}:){6}(:[0-9A-Fa-f]{1,4}|((25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)(\.(25[0-5]|2[0-4]\d|1\d\d|[

【爬蟲入門】【正則表示式】【非同步】爬取人人車車輛資訊1.0

相關推薦