1. 程式人生 > >正則表達式 & re

正則表達式 & re

含義 組成 除了 就會 昨天 pri 過濾 靈魂 屬於

本節主要內容:

1.正則表達式

2.re模塊的使用

一.正則表達式

正則表達式,又稱規則表達式。(英語:Regular Expression,在代碼中常簡寫為regex、regexp或RE),

計算機科學的一個概念。正則表達式通常被用來檢索、替換那些符合某個模式(規則)的文本。

正則表達式是對字符串操作的一種邏輯公式.我們一般使用正則表達式對字符串進行匹配和過濾.使用正則的優缺點:

優點: 靈活,功能性強,邏輯性強.

缺點:上手難.

工具:各大文本編輯器一般都有正則匹配功能.也可去 http://tool.chinaz.com/regex 進行在線測試.

正則表達式有普通字符和元字符組成. 普通字符包含大小寫字母,數字. 在匹配普通字符的時候我們直接寫就可以了.

元字符:元字符才是正則表達式的靈魂.

1.字符組

字符組用[]括起來. 在[]中出現的內容會被匹配.例如:[abc] 匹配a或b或c

如果字符組的內容過多還可以使用-,例如: [a-z] 匹配a到z之間的所有字? [0-9] 匹配所有阿拉伯數字

2.簡單元字符

常用的元字符:

 . 匹配除換?符以外的任意字符
\w 匹配字?或數字或下劃線
\s 匹配任意的空?符
\d 匹配數字
\n 匹配?個換?符
\t 匹配?個制表符
\b 匹配?個單詞的結尾
^ 匹配字符串的開始
$ 匹配字符串的結尾
\W 匹配?字?或數字或下劃線
\D 匹配?數字
\S 匹配?空?符
a|b 匹配字符a或字符b
() 匹配括號內的表達式,也表示?個組
[...] 匹配字符組中的字符
[
^...] 匹配除了字符組中字符的所有字符

3.量詞

* 重復零次或更多次
+ 重復?次或更多次
? 重復零次或?次
{n} 重復n次
{n,} 重復n次或更多次
{n,m} 重復n到m次

4.惰性匹配和貪婪匹配

在量詞中的*,+,{}都屬於貪婪匹配.就是盡可能多的匹配到結果

str: 麻花藤昨天讓英雄聯盟關服了
reg: 麻花藤.*
此時匹配的是整句話

在使用.*後面如果加上?則是盡可能少的匹配.表示惰性匹配

str: 麻花藤昨天讓英雄聯盟關服了
reg: 麻花藤.*?
此時匹配的是 麻花藤
str: <div>胡辣湯</div>
reg: 
<.*> 結果: <div>胡辣湯</div> str: <div>胡辣湯</div> reg: <.*?> 結果: <div> </div> str: <div>胡辣湯</div> reg: <(div|/div*)?> 結果: <div> </div>

.*?x思維特殊含義,找到下一個x為止

str: abcdefgxhijklmn
reg: .*?x
結果:abcdefgx

5.分組

在正則中使用()進行分組.括號中的內容表示一個元字符.

例如:我們要匹配?個相對復雜的?份證號. ?份證號分 成兩種. 老的?份證號有15位.

新的?份證號有18位. 並且新的?份證號結尾有可能是x.我們可以使用下列正則:

給出以下正則:
^[1-9]\d{13,16}[0-9x]$
^[1-9]\d{14}(\d{2}[0-9x])?$
^([1-9]\d{16}[0-9x]|[1-9]\d{14})$

6.轉義

在正則表達式中, 有很多有特殊意義的是元字符, ?如\n和\s等,如果要在正則中匹 配正常的"\n"?

不是"換?符"就需要對"\"進?轉義, 變成‘\\‘.在python中, ?論是正則表達式, 還 是待匹配的內容, 都

是以字符串的形式出現的, 在字符串中\也有特殊的含義, 本身還需要轉 義. 所以如果匹配?次"\n", 字

符串中要寫成‘\\n‘, 那麽正則?就要寫成"\\\\n",這樣就太麻煩了. 這個時候我們就?到了r‘\n‘這個概念,

此時的正則是r‘\\n‘就可以了.

二. re模塊

re模塊是python提供的一套關於處理正則表達式的模塊.核心功能有四個:

1.findall 查找所有.返回list

import re

lst = re.findall("m", "mai le fo len, mai ni mei a !")
print(lst)  # [‘m‘, ‘m‘, ‘m‘]

lst = re.findall(r"\d+", "5點之前, 要給我500萬")
print(lst)  # [‘5‘, ‘500‘]

2.search 會進行匹配.但是如果匹配到了第一個結果.就會返回這個結果.如果匹配不到search返回的則是None

ret = re.search(r\d, 5點之前. 你要給我5000萬).group()
print(ret) # 5

3.match只能從字符串的開頭進行匹配,匹配不到會報錯

ret = re.match(a, abc).group()
print(ret) # a

4.finditer 和 findall差不多.只不過返回的是叠代器

it = re.finditer("m", "mai le fo len, mai ni mei!")
for el in it:
    print(el.group()) # 依然需要分組

5.其他操作

import re

ret = re.split(‘[ab]‘, ‘qwerafjbcd‘) # 先按‘a‘分割得到‘qwer‘和‘fjbcd‘,在對‘qwer‘和‘fjbcd‘分別按‘b‘分割
print(ret) # [‘qwer‘, ‘fj‘, ‘cd‘]

ret = re.sub(r"\d+", "_sb_", "alex250taibai250wusir250ritian38") # 把字符串中的數字換成__sb__
print(ret) # alex_sb_taibai_sb_wusir_sb_ritian_sb_

ret = re.subn(r"\d+", "_sb_", "alex250taibai250wusir250ritian38") # 將數字替換成‘__sb__‘,返回元組(替換的結果,替換了多少次)
print(ret) # (‘alex_sb_taibai_sb_wusir_sb_ritian_sb_‘, 4)

obj = re.compile(r‘\d{3}‘) # 將正則表達式編譯成為?個 正則表達式對象, 規則要匹配的是3個數字
ret = obj.search(‘abc123eeee‘) # 正則表達式對象調?search, 參數為待匹配的字符串
print(ret.group()) # 結果: 123

# 爬蟲重點
obj = re.compile(r‘(?P<id>\d+)(?P<name>e+)‘) # 從正則表達式匹配的內容每個組起名字
ret = obj.search(‘abc123eeee‘) # 搜索
print(ret.group()) # 結果: 123eeee
print(ret.group("id")) # 結果: 123 # 獲取id組的內容
print(ret.group("name")) # 結果: eeee # 獲取name組的內容

6.兩個坑

註意:在re模塊中和我們在線測試工具中的結果可能是不一樣的,

import re

ret = re.findall(www\.(baidu|oldboy)\.com, www.oldboy.com)
print(ret)  # [‘oldboy‘] 這是因為findall會優先把組裏的內容的匹配結果返回,如果想要匹配結果,取消權限即可

ret = re.findall(www\.(?:baidu|oldboy)\.com, www.oldboy.com)
print(ret)  # [‘www.oldboy.com‘]

split裏的坑.

import re

ret = re.split("\d+","eva3egon4yuan")
print(ret)  # 結果: [‘eva‘, ‘egon‘, ‘yuan‘]

ret = re.split("(\d+)","eva3egon4yuan")
print(ret)  # 結果: [‘eva‘, ‘3‘, ‘egon‘, ‘4‘, ‘yuan‘]

#在匹配部分加上()之後所切出的結果是不同的,
#沒有()的沒有保留所匹配的項,但是有()的卻能夠保留了匹配的項,
#這個在某些需要保留匹配部分的使?過程是?常重要的。

簡易爬蟲:

爬取豆瓣top250裏的內容

from urllib.request import urlopen
import re


obj = re.compile(r<div class="item">.*?<span class="title">(?P<name>.*?)</span>.*?導演: 
                 r(?P<daoyan>.*?)&nbsp;&nbsp;&nbsp;.*?<span class="rating_num" property=
                 r"v:average">(?P<fen>.*?)</span>.*?<span>(?P<ren>.*?)人評價</span>, re.S)


def getContent(url):
    content = urlopen(url).read().decode("utf-8")
    return content

def parseContent(content):
    it = obj.finditer(content) # 把頁面中所有匹配的內容進行匹配. 返回叠代器
    for el in it:
        yield {
            "name":el.group("name"),
            "daoyan":el.group("daoyan"),
            "ren":el.group("ren"),
            "fen":el.group("fen")
        }




for i in range(10):
    url = "https://movie.douban.com/top250?start=%s&filter="
    g = parseContent(getContent(url))
    f = open("movie.txt", mode="a", encoding="utf-8")
    for el in g:
        f.write(str(el)+"\n")
    f.close()

正則表達式 & re