Python網路爬蟲中的網頁中文正則表示式匹配小心得

阿新 • • 發佈：2018-12-31

這是第一篇部落格，關於在正則表示式的情況下通過python的re模組對爬蟲爬下的網頁資料進行正則表示式，匹配得出所有中文字元

#!/usr/bin/python
# -*- coding: utf-8 -*-

import re


def matchURL_info():

    # 對儲存在data_based的資料進行篩選

    try:
        qp = open('data_base.txt', 'rb')  # 開啟data_base.txt進行匹配
    except:
        print 'open data_base failed'
        return 0
    wp = open('result_final.txt', 'wb')
    ep = open('result_final_1.txt', 'wb')  # 測試新的正則表示式
    # 預編譯敏感詞的正則表示式 u"([\u4e00-\u9fa5]+)"
    pattern = re.compile(u'[\u4e00-\u9fa5]+')
    pattern_1 = re.compile(u'[\u4e00-\u9fa5\u3040-\u309f\u30a0-\u30ff]+')
    while 1:
        s = qp.read()
        if not s:
            break
        temp = s.decode('utf8')
        result_info = pattern.findall(temp)

        result_info_1 = pattern_1.findall(temp)

        for r in result_info:
            r_1 = r.encode('utf8')
            wp.write('%s\r\n' % r_1)  # 往op中寫入新檔案
            print r_1
        for i in result_info_1:
            i_1 = i.encode('utf8')
            ep.write('%s\r\n' % i_1)  # 往ep中寫入新的資料
            print i_1
        print 'i have been here'
    qp.close()
    wp.close()
    ep.close()
    return 1


if __name__ = "__main__":
    matchURL_info()

本人通過在爬蟲在本地生成一個data_base.txt文件，儲存爬蟲爬下的所有網頁資料

然後通過這段程式碼開啟這個檔案

pattern與pattern_1是我為了測試不同正則表示式所設定的

大家使用時候可以去除其中一個

在測試時曾遇到過各種錯誤

包括NameError: global name 'decode' is not defined等錯誤，python文字中的格式是utf-8，而網頁中的是unicode

所有第一步一定要將data_base.txt中的文字以二進位制的形式讀出

然後通過decode('utf8')將檔案解碼成unicode，此時開始正則表示式

匹配完之後通過encode('utf8')將資料編碼成為utf-8的格式，寫入本地的另一個檔案之中

這就是最近的大概感想吧，謝謝收看

Python網路爬蟲中的網頁中文正則表示式匹配小心得

這是第一篇部落格，關於在正則表示式的情況下通過python的re模組對爬蟲爬下的網頁資料進行正則表示式，匹配得出所有中文字元 #!/usr/bin/python # -*- coding: utf-8 -*- import re def matchURL_info(

Python 網路爬蟲 009 (程式設計) 通過正則表示式來獲取一個網頁中的所有的URL連結，並下載這些URL連結的原始碼

通過正則表示式來獲取一個網頁中的所有的 URL連結，並下載這些 URL連結的原始碼使用的系統：Windows 10 64位 Python 語言版本：Python 2.7.10 V 使用的程式設計 Python 的整合開發環境：PyCharm 201

Python中使用中文正則表示式匹配指定的中文字串

業務場景：從中文字句中匹配出指定的中文子字串 .這樣的情況我在工作中遇到非常多, 特梳理總結如下. 難點: 處理GBK和utf8之類的字元編碼, 同時正則匹配Pattern中包含漢字,要漢字正常發揮作用,必須非常謹慎.推薦最好統一為utf8編碼,如果不是這種最優情況,也有

python網路爬蟲例項：Requests+正則表示式爬取貓眼電影TOP100榜

一、前言最近在看崔慶才先生編寫的《Python3網路爬蟲開發實戰》這本書，學習了requests庫和正則表示式，爬取貓眼電影top100榜單是這本書的第一個例項，主要目的是要掌握requests庫和正則表示式在實際案例中的使用。二、開發環境執行平

python—【爬蟲】學習_2(正則表示式篇）_2(practice)

習題來源：hackerrank Matching Anything But a Newline(.的用法） answer ： regex_pattern = r"^(.{3}\.){3}.{3}$" Matching Digits &am

python—【爬蟲】學習_2(正則表示式篇）1.基礎知識

一、簡介正則表示式本身是一種小型的、高度專業化的程式語言，而在python中，通過內嵌整合re模組，程式媛們可以直接呼叫來實現正則匹配。正則表示式模式被編譯成一系列的位元組碼，然後由用C編寫的匹配引擎執行。 r標識代表後面是正則的語句二、正則表示式中常用的字元含義 1、普通字元和

python—【爬蟲】學習_2(正則表示式篇）3.re模組函式的深入理解

1. re.complie() 作用：如果需要重複地使用某個正則表示式，那麼你可以先將該正則表示式編譯成模式物件。complie（）函式就幫助我們將正則表示式，編譯成為一個pattern物件。 2.re.search(pattern ,string) regex.search(strin

網路爬蟲必備知識之正則表示式

就庫的範圍，個人認為網路爬蟲必備庫知識包括urllib、requests、re、BeautifulSoup、concurrent.futures，接下來將結對re正則表示式的使用方法進行總結 1. 正則表示式概念　　正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元、及這些特定字

python中如何用正則表示式匹配漢字

由於需求原因，需要匹配提取中文，大量google下，並沒有我需要的。花了一個小時大概測試，此utf8中文通過，特留文。參考： http://hi.baidu.com/nivrrex/blog/item/e6ccaf511d0926888d543071.html http://to

python入門—2常見問題_1_正則表示式匹配中文

python2.7 在使用正則表示式來匹配中文字元時，經常會出現意想不到的問題，比如下面這個匹配問題： 1、問題字串：飛利浦（PHILIPS）飛利浦(PHILIPS) 飛利浦（PHILIPS) 飛利浦(PHILIPS）從字串中

Nginx模組開發中使用PCRE正則表示式匹配

Nginx內部對pcre庫的常用操作進行了封裝. 封裝的原始碼位於nginx/src/core/ngx_regex.c, 同時將pcre內使用的記憶體池更變為了Nginx的記憶體池. pcre_compile: Nginx封裝了pcre_compile方法. 方法名為ngx_regex_

[小知識] grep中如何使用正則表示式匹配數字

如何使用grep搜尋包含數字的行？記得“\d”可以表示任意數字，遂寫成grep "\d" test.txt 沒有返回任何資料，難道不支援“\d” 你在命令列下執行man grep 檢視幫助，可以看到grep是支援多種正則表示式的，需要用引數去切換。 Matche

中文正則表示式匹配-正則中文匹配

原文連結：http://caibaojian.com/zhongwen-regexp.html這篇文章主要講如何使用正則匹配中文字元，中文正則表示式的匹配規則不像其他正則規則一樣容易記住，下面一起看看這個中文正則表示式是怎麼樣的。\w匹配的僅僅是中文，數字，字母，對於國人來講

python網路爬蟲之解析網頁的正則表示式(爬取4k動漫圖片)[三]

前言 hello,大家好本章可是一個重中之重，因為我們今天是要爬取一個圖片而不是一個網頁或是一個json 所以我們也就不用用到selenium模組了，當然有興趣的同學也一樣可以使用selenium去爬取。為了方便我們就用requests模組就夠了，因為夠快。。。上章的課程傳送門： [python網路爬蟲

Python中文文字資訊抽取中常見的正則表示式

我在使用python做一些文字資訊抽取的時候，用到了python的正則表示式匹配。所以這裡對常見的python正則表示式做一個歸納。找乾貨直接看粗體字本文使用的是python2.7.13版本直譯器。要點包括：中文的正則匹配，python的編碼格式，re包

Python學習之路（五）爬蟲（四）正則表示式爬去名言網

auth Python標準庫我們 color 匯總 eight code 比較 school 爬蟲的四個主要步驟明確目標 (要知道你準備在哪個範圍或者網站去搜索) 爬 (將所有的網站的內容全部爬下來) 取 (去掉對我們沒用處的數據) 處理數據（按照我們想要的

Python中常用的正則表示式

正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元、及這些字元的組合，組成一個“規則字串”，這個“規則字串”用來表達對字串的一種過濾邏輯。（非python獨有，但是python的re模組提供了實現，在python中寫正則表示式幾乎都用這個庫）樣例展示：這裡要用到線上正則

自學python爬蟲（三）正則表示式

一、什麼是正則表示式正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元，及這些特定字元的組合，組成一個“規則字串”，這個“規則字串”用來表達對字串的一種過濾邏輯。（非Python獨有，python中re模組實現）二、常見的匹配模式 re.match

python中常用的正則表示式符號

'.' 預設匹配除\n之外的任意一個字元，若指定flag DOTALL,則匹配任意字元，包括換行 '^' 匹配字元開頭，若指定flags MULTILINE,這種也可以匹配上(r"^a","\nabc\neee",flags=re.MULTILINE) '$' 匹配字元結尾，或e

Python 正則表示式匹配中文

在python2.x中，匹配中文，首先要宣告utf8的編碼方式。 # coding:utf-8 其次，被匹配的字串一定要是utf8編碼： string = u'我是個好人。' 最後，正則表示式一定要是utf8編碼： pat = u'\u6211.

Python網路爬蟲中的網頁中文正則表示式匹配小心得

相關推薦