正則表達式 & re

阿新 • • 發佈：2018-11-17

含義組成除了就會昨天 pri 過濾靈魂屬於

本節主要內容:

1.正則表達式

2.re模塊的使用

一.正則表達式

正則表達式，又稱規則表達式。（英語：Regular Expression，在代碼中常簡寫為regex、regexp或RE），

計算機科學的一個概念。正則表達式通常被用來檢索、替換那些符合某個模式(規則)的文本。

正則表達式是對字符串操作的一種邏輯公式.我們一般使用正則表達式對字符串進行匹配和過濾.使用正則的優缺點:

優點: 靈活,功能性強,邏輯性強.

缺點:上手難.

工具:各大文本編輯器一般都有正則匹配功能.也可去 http://tool.chinaz.com/regex 進行在線測試.

正則表達式有普通字符和元字符組成. 普通字符包含大小寫字母,數字. 在匹配普通字符的時候我們直接寫就可以了.

元字符:元字符才是正則表達式的靈魂.

1.字符組

字符組用[]括起來. 在[]中出現的內容會被匹配.例如:[abc] 匹配a或b或c

如果字符組的內容過多還可以使用-,例如: [a-z] 匹配a到z之間的所有字? [0-9] 匹配所有阿拉伯數字

2.簡單元字符

常用的元字符:

 . 匹配除換?符以外的任意字符
\w 匹配字?或數字或下劃線
\s 匹配任意的空?符
\d 匹配數字
\n 匹配?個換?符
\t 匹配?個制表符
\b 匹配?個單詞的結尾
^ 匹配字符串的開始
$ 匹配字符串的結尾
\W 匹配?字?或數字或下劃線
\D 匹配?數字
\S 匹配?空?符
a|b 匹配字符a或字符b
() 匹配括號內的表達式，也表示?個組
[...] 匹配字符組中的字符
[ 
^...] 匹配除了字符組中字符的所有字符

3.量詞

* 重復零次或更多次
+ 重復?次或更多次
? 重復零次或?次
{n} 重復n次
{n,} 重復n次或更多次
{n,m} 重復n到m次

4.惰性匹配和貪婪匹配

在量詞中的*,+,{}都屬於貪婪匹配.就是盡可能多的匹配到結果

str: 麻花藤昨天讓英雄聯盟關服了
reg: 麻花藤.*
此時匹配的是整句話

在使用.*後面如果加上?則是盡可能少的匹配.表示惰性匹配

str: 麻花藤昨天讓英雄聯盟關服了
reg: 麻花藤.*?
此時匹配的是 麻花藤
str: <div>胡辣湯</div>
reg:  
<.*>
結果: <div>胡辣湯</div>
str: <div>胡辣湯</div>
reg: <.*?>
結果: 
 <div>
 </div>
str: <div>胡辣湯</div>
reg: <(div|/div*)?>
結果:
 <div>
 </div>

.*?x思維特殊含義,找到下一個x為止

str: abcdefgxhijklmn
reg: .*?x
結果:abcdefgx

5.分組

在正則中使用()進行分組.括號中的內容表示一個元字符.

例如:我們要匹配?個相對復雜的?份證號. ?份證號分成兩種. 老的?份證號有15位.

新的?份證號有18位. 並且新的?份證號結尾有可能是x.我們可以使用下列正則:

給出以下正則:
^[1-9]\d{13,16}[0-9x]$
^[1-9]\d{14}(\d{2}[0-9x])?$
^([1-9]\d{16}[0-9x]|[1-9]\d{14})$

6.轉義

在正則表達式中, 有很多有特殊意義的是元字符, ?如\n和\s等,如果要在正則中匹配正常的"\n"?

不是"換?符"就需要對"\"進?轉義, 變成‘\\‘.在python中, ?論是正則表達式, 還是待匹配的內容, 都

是以字符串的形式出現的, 在字符串中\也有特殊的含義, 本身還需要轉義. 所以如果匹配?次"\n", 字

符串中要寫成‘\\n‘, 那麽正則?就要寫成"\\\\n",這樣就太麻煩了. 這個時候我們就?到了r‘\n‘這個概念,

此時的正則是r‘\\n‘就可以了.

二. re模塊

re模塊是python提供的一套關於處理正則表達式的模塊.核心功能有四個:

1.findall 查找所有.返回list

import re

lst = re.findall("m", "mai le fo len, mai ni mei a !")
print(lst)  # [‘m‘, ‘m‘, ‘m‘]

lst = re.findall(r"\d+", "5點之前, 要給我500萬")
print(lst)  # [‘5‘, ‘500‘]

2.search 會進行匹配.但是如果匹配到了第一個結果.就會返回這個結果.如果匹配不到search返回的則是None

ret = re.search(r‘\d‘, ‘5點之前. 你要給我5000萬‘).group()
print(ret) # 5

3.match只能從字符串的開頭進行匹配,匹配不到會報錯

ret = re.match(‘a‘, ‘abc‘).group()
print(ret) # a

4.finditer 和 findall差不多.只不過返回的是叠代器

it = re.finditer("m", "mai le fo len, mai ni mei!")
for el in it:
    print(el.group()) # 依然需要分組

5.其他操作

import re

ret = re.split(‘[ab]‘, ‘qwerafjbcd‘) # 先按‘a‘分割得到‘qwer‘和‘fjbcd‘,在對‘qwer‘和‘fjbcd‘分別按‘b‘分割
print(ret) # [‘qwer‘, ‘fj‘, ‘cd‘]

ret = re.sub(r"\d+", "_sb_", "alex250taibai250wusir250ritian38") # 把字符串中的數字換成__sb__
print(ret) # alex_sb_taibai_sb_wusir_sb_ritian_sb_

ret = re.subn(r"\d+", "_sb_", "alex250taibai250wusir250ritian38") # 將數字替換成‘__sb__‘，返回元組(替換的結果,替換了多少次)
print(ret) # (‘alex_sb_taibai_sb_wusir_sb_ritian_sb_‘, 4)

obj = re.compile(r‘\d{3}‘) # 將正則表達式編譯成為?個 正則表達式對象, 規則要匹配的是3個數字
ret = obj.search(‘abc123eeee‘) # 正則表達式對象調?search, 參數為待匹配的字符串
print(ret.group()) # 結果: 123

# 爬蟲重點
obj = re.compile(r‘(?P<id>\d+)(?P<name>e+)‘) # 從正則表達式匹配的內容每個組起名字
ret = obj.search(‘abc123eeee‘) # 搜索
print(ret.group()) # 結果: 123eeee
print(ret.group("id")) # 結果: 123 # 獲取id組的內容
print(ret.group("name")) # 結果: eeee # 獲取name組的內容

6.兩個坑

註意:在re模塊中和我們在線測試工具中的結果可能是不一樣的,

import re

ret = re.findall(‘www\.(baidu|oldboy)\.com‘, ‘www.oldboy.com‘)
print(ret)  # [‘oldboy‘] 這是因為findall會優先把組裏的內容的匹配結果返回,如果想要匹配結果,取消權限即可

ret = re.findall(‘www\.(?:baidu|oldboy)\.com‘, ‘www.oldboy.com‘)
print(ret)  # [‘www.oldboy.com‘]

split裏的坑.

import re

ret = re.split("\d+","eva3egon4yuan")
print(ret)  # 結果: [‘eva‘, ‘egon‘, ‘yuan‘]

ret = re.split("(\d+)","eva3egon4yuan")
print(ret)  # 結果: [‘eva‘, ‘3‘, ‘egon‘, ‘4‘, ‘yuan‘]

#在匹配部分加上（）之後所切出的結果是不同的，
#沒有（）的沒有保留所匹配的項，但是有（）的卻能夠保留了匹配的項，
#這個在某些需要保留匹配部分的使?過程是?常重要的。

簡易爬蟲:

爬取豆瓣top250裏的內容

from urllib.request import urlopen
import re


obj = re.compile(r‘<div class="item">.*?<span class="title">(?P<name>.*?)</span>.*?導演: ‘
                 r‘(?P<daoyan>.*?)&nbsp;&nbsp;&nbsp;.*?<span class="rating_num" property=‘
                 r‘"v:average">(?P<fen>.*?)</span>.*?<span>(?P<ren>.*?)人評價</span>‘, re.S)


def getContent(url):
    content = urlopen(url).read().decode("utf-8")
    return content

def parseContent(content):
    it = obj.finditer(content) # 把頁面中所有匹配的內容進行匹配. 返回叠代器
    for el in it:
        yield {
            "name":el.group("name"),
            "daoyan":el.group("daoyan"),
            "ren":el.group("ren"),
            "fen":el.group("fen")
        }




for i in range(10):
    url = "https://movie.douban.com/top250?start=%s&filter="
    g = parseContent(getContent(url))
    f = open("movie.txt", mode="a", encoding="utf-8")
    for el in g:
        f.write(str(el)+"\n")
    f.close()

正則表達式 & re

正則表達式&re模塊

最小 [ ] 一個 pil 字母開始調用 arch style 正則表達式：功能：字符串模糊匹配查詢元字符：. ,^, $, *, +, ？, {}, [ ],| ( ),\ . 通配符點：匹配除換行符以外的任意一個符號 ^：只匹配字符串的開始位置 $：只匹配字符

正則表達式 & re

含義組成除了就會昨天 pri 過濾靈魂屬於本節主要內容: 1.正則表達式 2.re模塊的使用一.正則表達式正則表達式，又稱規則表達式。（英語：Regular Expression，在代碼中常簡寫為regex、regexp或RE），計算機科學的一個概念

Python中正則表達式（re模塊）的使用

python中正則表達式Python中正則表達式（re模塊）的使用1、正則表達式的概述（1）概述：正則表達式是一些由字符和特殊符號組成的字符串，他們描述了模式的重復或者表示多個字符，正則表達式能按照某種模式匹配一系列有相似特征的字符串。正則表達式是一種小型的、高度的專業化的編程語言，（2）Python語言中的

通配符&正則表達式&特殊符號總結

ron 排列總結 tab 基礎 a-z 擴展正則 cor sym 通配符概念 bash操作環境下的功能。 *　　代表0個到任意多個字符？　　代表一定有一個任意字符 []　　代表一定有[]中的一

Python基礎----正則表達式和re模塊

去除 [ ] 在一起 asd 編程語言 strong 優先級詳細說明 call 正則表達式就其本質而言，正則表達式（或 re）是一種小型的、高度專業化的編程語言，（在Python中）它內嵌在Python中，並通過 re 模塊實現。正則表達式模式被編譯成一系列的字節碼，

正則表達式和re模塊

arch imp 模式 ret tor 元字符進行 -h pat 正則表達式和re模塊 1、正則表達式（1）定義：匹配字符串內容的一種規則。正則表達式是對字符串操作的一種邏輯公式，就是用事先定義好的一些特定字符、及這些特定字符的組合，組成一個“規則字符串”，這個“規則字

正則表達式，re 和collect

pan 都沒有 close 結果 dad split strong re.search 方法各種括號在正則裏的用法：（）包裹一段字符串，外面用一個功能符號包含。 {}裏面加一個數字，表示運行多少次，如果{1,3}則表示運行1-3次。 []，裏面加數字，表示從哪到哪，例：

day19——常用正則表達式、re正則對象和正則匹配效率比較、編譯正則對象

import com pattern ima 優先打印來看 image python 正則網站：regex101.com 在了解re模塊之前，我們可以先了解一下正則表達式，正則表達式在很多語言中都有使用，但是不同的語言直接又有有些細小的區別，下面我們就來列舉一下

二十一、正則表達式（re模塊）

ons brush 內容 page 返回對象 req 規則 www. 叠代 re模塊正則表達式：　　字符串模糊匹配字符（普通字符、元字符）普通字符：普通字母，字符　　完全匹配 import re print(re.findall(‘chen‘,‘shuaiges

python中的正則表達式（re模塊）

配方修改 src 引用表達 ima 左右 flag ica 一、簡介正則表達式本身是一種小型的、高度專業化的編程語言，而在python中，通過內嵌集成re模塊，程序媛們可以直接調用來實現正則匹配。正則表達式模式被編譯成一系列的字節碼，然後由用C編寫的匹配引擎執行。二

Python 正則表達式、re模塊

劃線函數單詞 pos 技術分享 border 十六進制範圍特點一、正則表達式對字符串的操作的需求幾乎無處不在，比如網站註冊時輸入的手機號、郵箱判斷是否合法。雖然可以使用python中的字符串內置函數，但是操作起來非常麻煩，代碼冗余不利於重復使用。正則表達式是一

8-1　正則表達式概覽 RE

shell 正則表達式正則表達式的模式正則表達式用的非常的廣泛,主要是對文本進行匹配的一種方式以後看到放在雙斜線之間的就是模式註意shell元字符和正則元字符是有區別的加號自己是不能活的用元字符組成的就是模式,它不能更改字符串,只能進行匹配加號並不是自己活著的,它要依靠前面的字符沒有太多理解的,更多

python 正則表達式 (重點) re模塊

db2 idt 好的騰訊qq regex clas def 12個函數京東的註冊頁面，打開頁面我們就看到這些要求輸入個人信息的提示。假如我們隨意的在手機號碼這一欄輸入一個11111111111，它會提示我們格式有誤。這個功能是怎麽實現的呢？假如現在你用python寫一

python正則表達式之re模塊使用

匹配 flag clas art 則表達式 python fin pre div python第一個正則表達式 r‘imooc‘ Pattern Match result In [2]: import re In [3]: pa = re.compile(r‘imoo

python中的正則表達式（re模塊）三

正則表達式 group ret 字符 findall arc pan sdfs 定義元字符之分組 () #!/usr/bin/env python # -*- coding:utf-8 -*- import re print(re.findall(r"(abc)+",‘a

Java_正則表達式&時間日期

simple 允許匹配規則 lose 格式 minute static 獲取 date類正則表達式 1.概念正則表達式（英語：Regular Expression，在代碼中常簡寫為regex）。正則表達式是一個字符串，使用單個字符串來描述、用來定義匹配規則，匹配一系

python正則表達式與re模塊

finditer target next http tin 成功正向顯示 tell python中的re模塊常用函數/方法 0.正則表達式對象　　（re.compile(pattern, flags=0)）將正則表達式編譯成正則表達式對象，該對象可調用正則表達式對象

python基礎之正則表達式，re模塊

方便轉義 python pan imp 解決進行 nbsp 每一個正則表達式：是字符串的規則，只是檢測字符串是否符合條件的規則而已 1.檢測某一段字符串是否符合規則 2.將符合規則的匹配出來 re模塊：是用來操作正則表達式的 2.正則表

3.2 re--正則表達式操作（Regular expression operations）

rac code trac ont 性能 font reg 解決字符串查找本模塊提供了正則表達式的匹配操作，它的功能跟Perl語言裏的功能一樣。不管是Unicode字符串還是單字節8位組成的字符串，都能夠使用模式匹配和字符串查找的功能。只是要註意的是Unicode字

python之(re)正則表達式上

文件 port 正則表達式操作數字一次空白下劃線應該 python正則表達式知識預備正則表達式使用反斜杠" \ "來代表特殊形式或用作轉義字符，這裏跟Python的語法沖突，因此，Python用" \\\\ "表示正則表達式中的" \ "，因為正

正則表達式 & re

相關推薦