爬蟲——爬蟲中使用正則表達式

阿新 • • 發佈：2017-07-20

txt文件點擊頁碼 range safari 頁面 gen odin ace

下面我們嘗試爬取內涵段子網站：http://www.neihan8.com/article/list_5_1.html

打開之後，當你進行翻頁的時候，不能註意到，url地址的變化：

第一頁url: http: //www.neihan8.com/article/list_5_1 .html
第二頁url: http: //www.neihan8.com/article/list_5_2 .html
第三頁url: http: //www.neihan8.com/article/list_5_3 .html
第四頁url: http: //www.neihan8.com/article/list_5_4 .html

這樣，我們把url規律找到了，要想爬取所有的段子，只需要修改一個參數即可。下面，我們就開始一步一步將所有的段子爬取下來。

第一步：獲取網頁數據（網頁上全部內容）

1.按照我們之前的用法，我們需要寫一個加載頁面的方法。

這裏我們定義一個類，將url請求作為一個成員方法處理。

我們創建一個duanzi_spider.py文件。

然後定義一個Spider類，並且添加一個加載頁面的成員方法

#!/usr/bin/python3
# -*- conding:utf-8 -*-
__author__ = ‘mayi‘

import requests

class Spider(object):
    """
    一個爬蟲類
    """
    def loadPage(self, url):
        """
        下載指定url頁面的內容
        :return:
        """
        # User-Agent頭
        header = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36‘}
        response = requests.get(url = url, headers = header)
        html = response.content.decode("gb18030")
        
        # 打印頁面內容
        print(html)
        
        # 返回頁面內容
        return html

2.寫main函數測試loadPage()方法

if __name__ == ‘__main__‘:
    # 實例化類對象
    my_spider = Spider()
    # 讓用戶輸入需爬取頁面的頁碼
    page = int(input("請輸入你需要爬取的頁碼："))
    # 拼接用戶需爬取頁面的url地址
    url = "http://www.neihan8.com/article/list_5_{}.html".format(page)
    html = my_spider.loadPage(url)

第二步：篩選數據

我們已經得到了整個頁面的數據。但是，裏面有很多內容我們並不需要，所以下一步我們需要對上面爬取的內容進行篩選。如果篩選，這裏就用到了我們前面講到的正則表達式。

首先

import re

然後：在我們得到的html中進行篩選匹配。

我們需要一個匹配規則：

我們可以打開內涵段子的網頁，鼠標點擊右鍵“查看源代碼”，你會發現，我們需要的每個段子的內容都是在一個<div>標簽中，而且每個div都有一個屬性class="f18 mb20"

技術分享

所以，我們只需要匹配到網頁中所有<div class="f18 mb20">到</div>的數據就可以了。

根據正則表達式，我們可以推算出一個公式是：

<div class="f18 mb20">(.*?)</div>

這個表達式實際上就是匹配到所有div中class="f18 mb20"裏面的內容
然後將這個正則應用到代碼中，我們會得到以下代碼：

#!/usr/bin/python3
# -*- conding:utf-8 -*-
__author__ = ‘mayi‘

import requests
import re

class Spider(object):
    """
    一個爬蟲類
    """
    def loadPage(self, url):
        """
        下載指定url頁面的內容
        :return:
        """
        # User-Agent頭
        header = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36‘}
        response = requests.get(url = url, headers = header)
        html = response.content

        return html.decode("gb18030")

    def screenPage(self, html):
        """
        篩選html內容，返回列表
        :param html:
        :return:
        """
        # <div class="f18 mb20">...</div>
        pattern = re.compile(r‘<div class="f18 mb20">(.*?)</div>‘, re.S)
        item_list = pattern.findall(html)

        return item_list

if __name__ == ‘__main__‘:
    # 實例化類對象
    my_spider = Spider()
    # 讓用戶輸入需爬取頁面的頁碼
    page = int(input("請輸入你需要爬取的頁碼："))
    # 拼接用戶需爬取頁面的url地址
    url = "http://www.neihan8.com/article/list_5_{}.html".format(page)
    # 下載網頁內容
    html = my_spider.loadPage(url)
    # 篩選數據
    item_list = my_spider.screenPage(html)

這裏需要註意的是re.S是正則表達式中匹配的一個參數。
如果沒有re.S，則是只匹配一行中有沒有符合規則的字符串，如果沒有則下一行重新匹配。
如果加上re.S則是將所有的字符串作為一個整體進行匹配，findall將所有匹配到的結果返回列表中。

第三步：保存數據

我們可以將所有的段子存放在文件中。

    def writePage(self, list):
        """
        以追加的形式存儲篩選後的內容
        :param list: 篩選後的數據，列表形式
        :return:
        """
        with open(self.file_name, "a", encoding = "utf-8") as f:
            for content in list:
                # 段子內容：因為段子中有很多<p>，</p>，<br />。。。，還有一些轉義字符。在這裏作下替換
                content = content.replace("…", "…").replace("“", "“").replace("”", "”")
                content = content.replace("　", "").replace("\t", "").replace(":", "：")
                content = content.replace("<p>", "").replace("</p>", "").replace("<br />", "").replace(" ", "")
                content = content.replace("\u3000", "").replace("\r\n\r\n", "\r\n")
                content = content.strip()

                # 寫入一個段子的內容
                f.write(content)
                # 我是分割線
                f.write("*" * 30)

第四步：完整的程序

#!/usr/bin/python3
# -*- conding:utf-8 -*-
__author__ = ‘mayi‘

import requests
import re

class Spider(object):
    """
    一個爬蟲類
    """
    def __init__(self, start_page, end_page):
        """
        類的初始化函數
        :param start_page:
        :param end_page:
        :return:
        """
        self.start_page = start_page
        self.end_page = end_page
        self.file_name = "duanzi.txt"

    def loadPage(self, url):
        """
        下載指定url頁面的內容
        :return:
        """
        # User-Agent頭
        header = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36‘}
        response = requests.get(url = url, headers = header)
        html = response.content

        return html.decode("gb18030")

    def screenPage(self, html):
        """
        篩選html內容，返回列表
        :param html:
        :return:
        """
        # <div class="f18 mb20">...</div>
        pattern = re.compile(r‘<div class="f18 mb20">(.*?)</div>‘, re.S)
        item_list = pattern.findall(html)

        return item_list

    def writePage(self, list):
        """
        以追加的形式存儲篩選後的內容
        :param list: 篩選後的數據，列表形式
        :return:
        """
        with open(self.file_name, "a", encoding = "utf-8") as f:
            for content in list:
                # 段子內容：因為段子中有很多<p>，</p>，<br />。。。，還有一些轉義字符。在這裏作下替換
                content = content.replace("…", "…").replace("“", "“").replace("”", "”")
                content = content.replace("　", "").replace("\t", "").replace(":", "：")
                content = content.replace("<p>", "").replace("</p>", "").replace("<br />", "").replace(" ", "")
                content = content.replace("\u3000", "").replace("\r\n\r\n", "\r\n").replace("\r\n", "\n")
                content = content.strip()

                # 寫入一個段子的內容
                f.write(content)
                # 我是分割線
                f.write("*" * 30)

    def run(self):
        """
        讓爬蟲開始工作
        :return:
        """
        # 循環處理我們需要爬取的頁面
        for page in range(self.start_page, self.end_page + 1):
            # 拼接當前頁碼page的url地址
            url = "http://www.neihan8.com/article/list_5_{}.html".format(str(page))
            print("正在下載第{}頁".format(str(page)))
            # 下載url對應的全部內容
            html = self.loadPage(url)
            # 篩選數據
            item_list = self.screenPage(html)
            # 存儲篩選後的數據
            self.writePage(item_list)

# 主函數
if __name__ == ‘__main__‘:
    # 讓用戶輸入需爬取頁面的起始頁碼
    start_page = int(input("請輸入您需要爬取的起始頁："))
    # 讓用戶輸入需爬取頁面的終止頁碼
    end_page   = int(input("請輸入您需要爬取的終止頁："))
    # 實例化類對象
    mySpider = Spider(start_page, end_page)
    # 讓爬蟲開始工作
    mySpider.run()

最後，我們執行上面的代碼，完成後查看當前路徑下的duanzi.txt文件，裏面已經有我們要的內涵段子。

以上便是一個非常精簡的小爬蟲程序，使用起來很方便，如果想要爬取其他網站的信息，只需要修改其中某些參數和一些細節就行了。

爬蟲——爬蟲中使用正則表達式

Python爬蟲之利用正則表達式爬取內涵吧

file res start cnblogs all save nts quest ide 首先，我們來看一下，爬蟲前基本的知識點概括一. match()方法：這個方法會從字符串的開頭去匹配（也可以指定開始的位置），如果在開始沒有找到，立即返回None，匹配到一個結果

python 爬蟲入門之正則表達式一

簡單換行 find www. ever page oct search utf python 正則表達式知識點正則常用符號. : 匹配任意字符，換行符除外* ：匹配前一個字符 0 次或者無限次？：匹配前一個字符 0次或者1次.* ：貪心算法.*？：非貪心算

Python爬蟲學習之正則表達式爬取個人博客

9.png turn () htm parent ast string 則表達式 urn 實例需求：運用python語言爬取http://www.eastmountyxz.com/個人博客的基本信息，包括網頁標題，網頁所有圖片的url，網頁文章的url、標題以及摘要。實

#025爬蟲引出的正則表達式。

href space get port The strong 爬蟲 tutorials 處理正則表達式（Python）作者: 莫煩編輯: 莫煩 2017-11-29 筆記簡單的匹配 # matching string pattern1 = "

Python中正則表達式（re模塊）的使用

python中正則表達式Python中正則表達式（re模塊）的使用1、正則表達式的概述（1）概述：正則表達式是一些由字符和特殊符號組成的字符串，他們描述了模式的重復或者表示多個字符，正則表達式能按照某種模式匹配一系列有相似特征的字符串。正則表達式是一種小型的、高度的專業化的編程語言，（2）Python語言中的

Jmeter中正則表達式提取器使用詳解

含義需要過程所有表達介紹 amp 組成 nbsp 在使用Jmeter過程中，會經常使用到正則表達式提取器提取器，雖然並不直接涉及到請求的測試，但是對於數據的傳遞起著很大的作用，本篇博文就是主要講解關於正則表達式及其在Jmeter的Sampler中的調用。一、首先

1000行代碼徒手寫正則表達式引擎【1】--JAVA中正則表達式的使用

基礎上 unicode 要求 [1] 分配 find 通過 images char 簡介：本文是系列博客的第一篇，主要講解和分析正則表達式規則以及JAVA中原生正則表達式引擎的使用。在後續的文章中會涉及基於NFA的正則表達式引擎內部的工作原理，並在此基礎上用1000行左右

【RegExp】JavaScript中正則表達式判斷匹配規則以及常用方法

返回空字符串 tro true 正則表達式 str 本地大小表示範圍字符串是編程時涉及到的最多的一種數據結構，對字符串進行操作的需求幾乎無處不在。正則表達式是一種用來匹配字符串的強有力的武器。它的設計思想是用一種描述性的語言來給字符串定義一個規則，凡是符合規則的字

JAVA中正則表達式學習總結

等價 regex 5.1 表示最好方法 system lin 劃線一、JAVA中正則表達式相關的類 1. java.util.regex.Pattern 　　該類用於編譯模式，模式可以理解為一個正則表達式，比如：a*b。　　用法如下：　　// 創

rename命令中正則表達式的使用

執行權 bsp png mod 格式 har gpo 命令 .sh rename命令用字符串替換的方式批量改變文件名。格式如下： rename 原字符串目標字符串文件(列表) 原字符串：將文件名需要替換的字符串；目標字符串：將文件名中含有的原字符替換成目標字符

java中正則表達式基本用法（轉）

code ack acea print 表達式劃線跟著以及 n) https://www.cnblogs.com/xhj123/p/6032683.html 正則表達式是一種可以用於模式匹配和替換的規範，一個正則表達式就是由普通的字符（例如字符a到z）以及特殊字符（元

python 中正則表達式的使用

定義重復 png expr color 事先正則表達式的使用轉義字符數字正則表達式的定義正則表達式（re）（Regular Expression）。正則表達式是對字符串操作的一種邏輯公式，就是用事先定義好的一些特定字符、及這些特定字符的組合，組成一個“規則字符串

java中正則表達式要進行轉義的字符。

ace {} 則表達式 cap str AC stat exp 正則表達 /** * 轉義正則特殊字符（$()*+.[]?\^{},|） * * @param keyword * @return */public static String escapeExprSpec

Go語言中正則表達式的使用

Go語言正則表達式 Go語言正則表達式的使用 Go語言正則表達式許多程序語言都支持使用正則表達式對字符串進行操作，Go語言也不例外，正則表達式的語法網上很多教程，本文主要介紹在Go語言中如何使用正則表達式，通過以下實例進行說明，並添加了詳細的註釋，不會的小夥伴一看就明白了。 func ma

jquery中正則表達式運用樣例

jquery 正則 <script> // 獲取文檔讀取完成時機 $(function(){ // 正則在jquery中的兩種寫法 // 1.通過 new RegExp(‘ 正則表達式 ‘)

Linux中正則表達式的練習集合

python中正則表達式的一些問題

多次 eva family image 位數開心的人 rda span 今天聽到一句話，覺得很在理——"當你遇到一個問題，想到用正則表達式解決時，就變成了兩個問題" 這也從側面說明了正則表達式比較難理解。下面我將用通俗易懂的方式總結一下，最近遇到的一些正則表達式的問題

UE中正則表達式

如果不惜 http 多次 mac 刪除替換說明方式 UltraEdit（後簡稱UE），是我經常使用的文本編輯軟件，其功能的強大，令我由衷地愛上了它。每天不用就全身不爽。從最開始的9。0到現在的 12。10a（本人只用到這個版本），UE都是系統重裝後必安之物。UE本身

JS中正則表達式

d+ 換行 font 替換 import p s 比較模式匹配 str2 正則表達式用於對字符串模式匹配及檢索替換，是對字符串執行模式匹配的強大工具。簡單來說正則表達式就是處理字符串的，我們可以用它來處理一些復雜的字符串。創建方式 var reg = new RegE

pandas和re中正則表達式的意思

冒號分享圖片告訴圖片範圍行存儲正則表達意思句子這裏（）有兩種意思，第一個就是表示匹配範圍，另外一個就是輸出這個匹配下面那條語句就是告訴程序，是輸出整個句子，“？：”非獲取匹配，匹配冒號後的內容

爬蟲——爬蟲中使用正則表達式

第一步：獲取網頁數據（網頁上全部內容）

1.按照我們之前的用法，我們需要寫一個加載頁面的方法。

2.寫main函數測試loadPage()方法

第二步：篩選數據

第三步：保存數據

第四步：完整的程序

相關推薦