day023 正則表示式和re模組

阿新 • • 發佈：2018-11-17

一.正則
1.字元組  
  [a-zA-Z0-9]字元組中的　  [^a] 除了字元組的

2.


二.re模組

re.S   設定   .的換行       obj=re

1.ret=re.search(正則，content)   找到一個結果就返回  
　　拿到結果  需要.group   ret.group()
2.ret=re.match(正則，content)   從頭匹配.  如果匹配到了。 就返回
　　也需要 ret.group()
3.ret=re.findall(正則，content) 匹配到的結果全部放入列表中 ，下級元素以元組存放

import re

ret = re.findall('www.(baidu|oldboy).com', 'www.oldboy.com')
print(ret)  # ['oldboy']     這是因為findall會優先把匹配結果組裡內容返回,如果想要匹配結果,取消許可權即可

ret = re.findall('www.(?:baidu|oldboy).com', 'www.oldboy.com')
print(ret)  # ['www.oldboy.com']

findall優先順序查詢


4.ret=re.finditer(正則，content) 得到一個迭代 
器，迴圈迭代器時，取值時，也要 用group
for el in ret:
　　el.group()
5.re.split(正則，字串)  用正則中的每個元素分別進行切割

ret=re.split("\d+","eva3egon4yuan")
print(ret) #結果 ： ['eva', 'egon', 'yuan']

ret=re.split("(\d+)","eva3egon4yuan")
print(ret) #結果 ： ['eva', '3', 'egon', '4', 'yuan']

#在匹配部分加上（）之後所切出的結果是不同的，
#沒有（）的沒有保留所匹配的項，但是有（）的卻能夠保留了匹配的項， 

#這個在某些需要保留匹配部分的使用過程是非常重要的。

split優先順序查詢

6.re.sub(正則，new,字串)  替換  用新的 替換符合正則的元素
7.re.subn(正則，new,字串)  替換  用新的 替換符合正則的元素替換。    返回的結果帶有次數
8. obj=re.compile(正則)    預載入 正則          lst=obj.findall(content)
　　obj=re.compile(r"start.*?(?P<自定義名字>.*j)end",re.S)

import re

res = re.search("e", "alex and exp") # 搜尋. 搜到結果就返回
print(res.group())

res = re.match("\w+", "alex is not a good man") #  從頭匹配.  如果匹配到了。 就返回
print(res.group())

lst = re.findall("\w+", "alex and exo")
print(lst)

it = re.finditer("\w+", "mai le fo leng")
for el in it:
    print(el.group())

# # 這個分組是優先順序
lst = re.findall(r"www\.(baidu|oldboy)\.com", "www.oldboy.com")
print(lst)

# (?: )  去掉優先順序
lst = re.findall(r"www\.(?:baidu|oldboy)\.com", "www.oldboy.com")
print(lst)

# 加了括號。 split會保留你切的刀
lst = re.split("([ab])", "alex is not a sb, no he is a big sb") # 根據正則表示式進行切割
print(lst)
#
# # 替換
res = re.sub(r"\d+", "_sb_", "alex333wusir666taibai789ritian020feng")
print(res)
#
# # 替換。 返回的結果帶有次數
res = re.subn(r"\d+", "_sb_", "alex333wusir666taibai789ritian020feng")
print(res)

a = eval("1+3+5+6")
print(a)

code = "for i in range(10):print(i)"
c = compile(code, "", "exec") # 編譯程式碼
exec(c)

obj = re.compile(r"alex(?P<name>\d+)and") # 把正則表示式預載入
res = obj.search("alex250andwusir38ritian2")
print(res.group())
print(res.group("name"))

re模組

import re
from urllib.request import urlopen

#正則
obj=re.compile(r'<div class="item">.*? <a href=(?P<URL>.*?)">.*?<span class="title">(?P<name>.*?)</span>'
               r'.*?<span class="rating_num" property="v:average">(?P<fen>.*?)</span>.*?<span>(?P<pingjia>.*?)人評價</span>',re.S)

#獲取網頁內容函式 
def get_content(url):
    content=urlopen(url).read().decode("utf-8")
    return content

#獲取網頁所要內容轉化成字典的函式
def parse(content):
    g=obj.finditer(content)  
    for el in g:
        yield {
            '電影名':el.group("name"),
            'url':el.group("URL"),
            '評分':el.group('fen'),
            '評價人數':el.group("pingjia")
        }

#分頁爬取 
for i in range(10):  
    url="https://movie.douban.com/top250?start=%s&filter="%i*25  #每頁的url  每頁共25部電影
    g=parse(get_content(url))
    f=open("dian.txt","a",encoding="utf-8")
    for el in g:
        f.write(str(el)+"\n")
        # print(el)
    f.close()

爬豆瓣

import re
from urllib.request import urlopen
import json
url="https://www.dytt8.net/"
content=urlopen(url).read().decode("gbk")
obj=re.compile(r"最新電影下載</a>]<a href='(?P<URL>.*?)'>.*?《(?P<name>.*?)》",re.S)
obj2=re.compile(r'<!--Content Start--><span style="FONT-SIZE: 12px"><td>.*?'
                r'【下載地址】</font></font></strong> <br /><br /><br /><a href=".*?(?P<xiazai>.*?)"><strong>',re.S)

lst=obj.findall(content)

f=open("movie",'w',encoding="utf-8")
for el in lst:
    try:
       dic= {"name":el[1],"URL":"https://www.dytt8.net"+el[0]}
       url2=dic["URL"]
       content2=urlopen(url2).read().decode("gbk")
       dz=obj2.search(content2).group("xiazai")
       dic2={"name":dic["name"],"地址":dz}
       s=json.dumps(dic2,ensure_ascii=False)
       f.write(s+"\n")
       print(dic)
    except Exception as e:
        continue
f.close()

爬電影天堂

day023 正則表示式和re模組

一.正則1.字元組 [a-zA-Z0-9]字元組中的　 [^a] 除了字元組的2.　 3. 4. 二.re模組 re.S 設定 .的換行 obj=re 1.ret=re.search(正則，content) 找到一個結果就返回　　拿

day023正則表示式，re模組，簡單爬蟲和多頁面爬蟲（幹掉數字簽名證書驗證）

本節內容： 1、正則表示式 2、re模組的運用 3、簡單的爬蟲練習一、正則表示式(Regular Expression) 正則表示式是對字串操作的⼀種邏輯公式. 我們⼀般使⽤正則表示式對字串進⾏匹配和過濾. 使⽤正則的優缺點: 優點: 靈活, 功能性強, 邏輯性強. 缺點: 上⼿難. ⼀旦上⼿, 會愛

正則表示式和re模組知識點彙總

"\^"：匹配字元的開始"\$"：匹配字元的結尾"[]"：字元組"[^a]"：如果在字元組中以^開頭，就是除了a不匹配，其他的都匹配"a|b"：匹配字元a或b 注意：使用或關係的時候，要把長規則放在短規則的前面"()"分組，需要對一個整體匹配規則量詞約束的，就對整體匹配規則加一個括號字串最前面加上r 就是不

024-2018-1010 正則表示式和re模組

1.今日內容大綱一. 昨日內容回顧序列化: pickle: 把物件序列化成bytes dumps() 序列化 loads() 反序列化

正則表示式和re模組

1. 正則表示式匹配字串　　元字元　　　　. 除了換行　　　　\w 數字, 字母, 下劃線　　　　\d 數字　　　　[] 字元組　　　　^ 字串的開始　　　　$ 字串的結束　　　　| 或者　　　　[^xxx] 非xxxx 　　　　\s 空白符　　　　\n 換行　　　　\t

正則表示式（re模組，匹配單個字元，匹配多個字元，匹配分組，python貪婪和非貪婪，r的作用）

re.match() 能夠匹配出以xxx開頭的字串匹配單個字元示例1： . #coding=utf-8 import re ret = re.match(".","M") print(ret.group()) ret = re.match("t.o","too") print

python3 學習5 正則表示式，re模組學習

正則表示式：正則表示式有特殊的語法，有些符號需要轉義，所以一般來說使用原始字串模式，也就是r''。轉自：https://blog.csdn.net/qq_33720683/article/details/81023115 模式描述

【轉】Python之正則表示式（re模組）

【轉】Python之正則表示式（re模組）本節內容 re模組介紹使用re模組的步驟 re模組簡單應用示例關於匹配物件的說明說說正則表示式字串前的r字首 re模組綜合應用例項參考文件提示：由於該站對MARKDOWN的表格支援的不是很好，所以本文中的表

資料提取——正則表示式的 re 模組

什麼是正則表示式正則表示式，又稱規則表示式，通常被用來檢索、替換那些符合某個模式(規則)的文字。正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元、及這些特定字元的組合，組成一個“規則字串”，這個“規則字串”用來表達對字串的一種過濾邏輯。給定一個正則表示式

正則表示式(python3-re模組示例）

1.常用的正則表示式 '.' 預設匹配除\n之外的任意一個字元，若指定flag DOTALL,則匹配任意字元，包括換行 '^' 匹配字元開頭，若指定flags MULTILINE,這種也可以匹配上(r"^a","\nabc\neee",flags=re.MULTILINE) '$'

正則表示式（re模組）

正則表示式，用來處理什麼的呢？它有什麼作用？正則表示式是用來處理字串匹配的！講正題之前我們先來看一個例子：：https://reg.jd.com/reg/person?ReturnUrl=https%3A//www.jd.com/ 這是京東的註冊頁面，開啟頁面我們就看到這些要求輸入個

python之正則表示式：re模組

一.正則表示式中常用的字元含義 1、普通字元和11個元字元：常用字元劃分匹配範圍示例資料匹配的正則表示式目標匹配的字串普通字元匹配自身 abc

Python 正則表示式，re模組，match匹配(預設從開頭匹配)，分組

單個字元：數量詞：匹配開頭、結尾：匹配分組： demo.py（正則表示式，match從開頭匹配，分組，分組別名）： # coding=utf-8 import re # 小括號()表示分組 \1表示取出第

python中的正則表示式（re模組）

一、簡介正則表示式本身是一種小型的、高度專業化的程式語言，而在python中，通過內嵌整合re模組，程式媛們可以直接呼叫來實現正則匹配。正則表示式模式被編譯成一系列的位元組碼，然後由用C編寫的匹配引擎執行。二、正則表示式中常用的字元含義 1、普通字元和11個元字

[轉]python中的正則表示式（re模組）

轉自:https://www.cnblogs.com/tina-python/p/5508402.html 一、簡介正則表示式本身是一種小型的、高度專業化的程式語言，而在python中，通過內嵌整合re模組，程式媛們可以直接呼叫來實現正則匹配。正則表示式模式被編譯成一系列的位元組碼

python正則表示式與re模組

python中的re模組常用函式/方法 0.正則表示式物件　　（re.compile(pattern, flags=0)）將正則表示式編譯成正則表示式物件，該物件可呼叫正則表示式物件方法如:re.match(),re.search(),re.findall等。 prog = re.c

Python3正則表示式(二)re模組

在Python3正則表示式(一)基本語法規則已經記錄了正則表示式的基本規則，接下來將寫一下在python當中如何利用正則表示式去匹配字串，即re模組中功能函式的使用。使用時要先進行匯入re模組：import re 一、re模組中常用的函式 1.c

正則表示式之re模組compile()

定義： compile(pattern[,flags] ) 根據包含正則表示式的字串建立模式物件。compile(pattern, flags=0) 通過help可以看到compile方法的介紹，返回一個pattern物件，但是卻沒有對第二個引數flags進行介紹。第二個引數

python3進階之正則表示式之re模組之分組（group）、貪心匹配、編譯

　　除了簡單地判斷是否匹配之外，正則表示式還有提取子串的強大功能。用()表示的就是要提取的分組（Group）。比如：^(\d{3})-(\d{3,8})$分別定義了兩個組，可以直接從匹配的字串中提取出區號和本地號碼m = re.match(r'^(\d{3})-(\d{3,8})$', '010-12345'

python3 正則表示式，re模組學習

正則表示式：正則表示式有特殊的語法，有些符號需要轉義，所以一般來說使用原始字串模式，也就是r''。模式描述^匹配字串的開頭$匹配字串的末尾。.匹配任意字元，除了換行符，當re.DOTALL標記被指定時，則可以匹配包括換行符的任意字元。[...]用來表示一組字元,單獨列出：[a

day023 正則表示式和re模組

相關推薦