python全棧開發 * 30知識點匯總 * 180713

阿新 • • 發佈：2018-07-13

html def 貪婪匹配浮點數起名字基礎 sci imp 驗證

30  re模塊2
一.正則表達式在線測試   在線測試工具 http://tool.chinaz.com/regex/
(一).*?的用法:
    . 是任意字符
    * 是取 0 至 無限長度
    ? 是非貪婪模式。
合在一起就是 取盡量少的任意字符，一般不會這麽單獨寫，他大多用在：.*?x
就是取前面任意長度的字符，直到一個x出現
(二).問號"?"的四種用法
    1.量詞,重復零次或一次
    2.非貪婪匹配(惰性匹配)的象征( .*? )
    3.?:  分組一開始加?:表示取消分組優先.
    4.?p: 分組命名  html 標簽預言中用到.
二.re模塊常用方法
基礎查找
1.findall   分組優先級 

 ret=re.findall(r"(\d+\.?\d+)","123.546")
 print(ret)
 print(ret.remove(""))
 #findall的優先級問題
    ret=re.findall(‘www.(baidu|oldboy).com‘, ‘www.oldboy.com‘)
    print(ret)       #[‘oldboy‘]   這是因為findall會優先把匹配結果組裏內容返回,如果想要匹配結果,取消權限即可
    ret=re.findall(‘www.(?:baidu|oldboy).com‘, ‘www.oldboy.com‘)
    print(ret)        #[‘www.oldboy.com‘]     註釋: 分組一開始加" ?: " 表示取消分組優先級. 


2.search (group)
 函數會在字符串內查找模式匹配,直到找到第一個匹配然後返回一個包含匹配信息的對象,該對象可以
 通過調用group()方法得到匹配的字符串,如果字符串沒有匹配，則返回None。
    ret=re.search("\d+","4huhi67377")
    print(ret.group())    #  4
    ret=re.search("\d+","4888huhi67377")
    print(ret.group())   #4888
3.match  (group)
     ret=re.match("\d","4huhi67377")   #match 裏的正則不管是什麽,默認在正則前加" ^ " 

     print(ret.group())
字符串處理
4.split   分組保留   優先級"正則"     "(正則)"     
    ret=re.split("(\d+)","ghgh689jhhkjkj888hjh9777")  # 用"\d+"切割字符串   加"(正則)"分組保留.
    print(ret)    #[‘ghgh‘, ‘689‘, ‘jhhkjkj‘, ‘888‘, ‘hjh‘, ‘9777‘, ‘‘]
    ret=re.split("\d+","ghgh689jhhkjkj888hjh9777")
    print(ret)     #[‘ghgh‘, ‘jhhkjkj‘, ‘hjh‘, ‘‘]
5.sub    替換  ("正則","替換目標值","字符串",2)
    ret=re.sub("\d+" ,"男神","alex1000wusir666")
    print(ret)        結果   alex男神wusir男神
    ret=re.sub("\d+" ,"男神","alex1000wusir666",1)
    print(ret)        結果   alex男神wusir666

6.subn
    ret=re.subn("\d+" ,"男神","alex1000wusir666")
    print(ret)        結果   (‘alex男神wusir男神‘, 2) 
代碼優化
7.compile
    obj=re.compile("\d{4}")
    ret=obj.search("676767hghjj787878gjggu")
    print(ret.group())      #結果  6767
    ret=obj.findall("hghjj787878gjggu")
    print(ret.group())     結果  6767 
    ret=obj.match("676767hghjj787878gjggu")
    print(ret.group())     #6767
8.finditer   叠代功能
    ret=re.finditer("\d+","ggjgu65565765hjhjk767")
    for i in ret:
    print(i.group())    #65565765     767
    <二>
    print(ret)   #  <callable_iterator object at 0x00000278077385C0>
    print(next(ret).group())      # 65565765
    print(next(ret).group())      # 767
三.綜合練習與擴展
1.匹配標簽
    (1).普通版
    ret = re.search("<\w+>\w+</\w+>","<h1>hello</h>")
        print(ret.group())    #   <h1>hello</h1>
    (2).分組命名版
        還可以在分組中利用?P<name>的形式給分組起名字,獲取的匹配結果可以直接用group(‘名字‘)拿到對應的值
    ret = re.search("<(?P<tag_name>\w+)>\w+</(?P=tag_name)>","<h1>hello</h1>")   
        ?P<tag_name>  起名字        ?P=tag_name  使用分組名字
        print(ret.group("tag_name"))   # h1
        print(ret.group())              # <h1>hello</h1>
    (3)分組索引  從1開始
        如果不給組起名字，也可以用"\序號"來找到對應的組，表示要找的內容和前面的組內容一致
    獲取的匹配結果可以直接用group(序號)拿到對應的值
    ret = re.search(r"<(\w+)>\w+</\1>","<h1>hello</h1>")
        print(ret.group())      #<h1>hello</h1>
        print(ret.group(1))     # h1
2.匹配整數和小數
    ret=re.findall(r"-?\d+\.\d+|-?\d+","1-2*(60+(-40.35/5)-(-4*3))")
        print(ret)           # [‘1‘, ‘-2‘, ‘60‘, ‘-40.35‘, ‘5‘, ‘-4‘, ‘3‘]   小數和整數都取
    ret=re.findall(r"-?\d+\.\d+|(-?\d+)","1-2*(60+(-40.35/5)-(-4*3))")
        print(ret)    #  [‘1‘, ‘-2‘, ‘60‘, ‘‘, ‘5‘, ‘-4‘, ‘3‘]   只取整數
3.數字匹配
(1). 匹配一段文本中的每行的郵箱
     http://blog.csdn.net/make164492212/article/details/51656638
     正則表達式  :    [\w:\./]{1,}
驗證:  ret=re.findall("[\w:\./]{1,}","http://blog.csdn.net/make164492212/article/details/51656638")
          print(ret)    #  [‘http://blog.csdn.net/make164492212/article/details/51656638‘]
(2).匹配一段文本中的每行的時間字符串，比如：‘1990-07-12’；^[1-9][0-9]{1,}\-[0-1][0-9]\-[0-3][0-9]
    分別取出1年的12個月  # （^(0?[1-9]|1[0-2])$）
    一個月的31天   #   ^((0?[1-9])|((1|2)[0-9])|30|31)$
(3)匹配qq     [1-9][0-9]{4,}
(4)浮點數     ^(-?\d+)(\.\d+)?$ 
四.flags有很多可選值
    re.I(IGNORECASE)忽略大小寫，括號內是完整的寫法
    re.M(MULTILINE)多行模式，改變^和$的行為
    re.S(DOTALL)點可以匹配任意字符，包括換行符
    re.L(LOCALE)做本地化識別的匹配，表示特殊字符集 \w, \W, \b, \B, \s, \S 依賴於當前環境，不推薦使用
    re.U(UNICODE) 使用\w \W \s \S \d \D使用取決於unicode定義的字符屬性。在python3中默認使用該flag
    re.X(VERBOSE)冗長模式，該模式下pattern字符串可以是多行的，忽略空白字符，並可以添加註釋
作業: 實現能計算類似 
1 - 2 * ( (60-30 +(-40/5) * (9-2*5/3 + 7 /3*99/4*2998 +10 * 568/14 )) - (-4*3)/ (16-3*2) )等類似公式的計算器程序
爬蟲練習:
import requests

import re
import json

def getPage(url):

    response=requests.get(url)
    return response.text

def parsePage(s):
    
    com=re.compile(‘<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>‘
                   ‘.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)評價</span>‘,re.S)

    ret=com.finditer(s)
    for i in ret:
        yield {
            "id":i.group("id"),
            "title":i.group("title"),
            "rating_num":i.group("rating_num"),
            "comment_num":i.group("comment_num"),
        }

def main(num):

    url=‘https://movie.douban.com/top250?start=%s&filter=‘%num
    response_html=getPage(url)
    ret=parsePage(response_html)
    print(ret)
    f=open("move_info7","a",encoding="utf8")

    for obj in ret:
        print(obj)
        data=json.dumps(obj,ensure_ascii=False)
        f.write(data+"\n")

if __name__ == ‘__main__‘:
    count=0
    for i in range(10):
        main(count)
        count+=25

html def 貪婪匹配浮點數起名字基礎 sci imp 驗證 30 re模塊2一.正則表達式在線測試在線測試工具 http://tool.chinaz.com/regex/(一).*?的用法: . 是任意字符 * 是取 0 至無限長度

python全棧開發 * 13知識點匯總 * 180619

IT 知識叠代器 ati 定義訪問分批不能知識點 13 叠代器和?成器一.叠代器 1.以通過dir函數來查看類中定義好的所有?法 2.__iter__ 用來獲取當前對象的叠代器 3.__next__ 獲取可叠代對象的元素s="我愛吃火鍋"ret=di

python全棧開發 * 23 面向對象知識點匯總 * 180704

時間 style 面向比較運算垃圾回收機制開發 ash alex key 23 面向對象　　　　　 -----特殊方法 1. isinstance(obj,類名) 判斷對象是否是此類實例化或者此類的子類實例化出來的class A:passclass B(

<python全棧開發基礎>學習過程筆記【6d】列表，字典，元組，知識點復習

ima 技術分享筆記 python nbsp .com 復習 png cnblogs 、 <python全棧開發基礎>學習過程筆記【6d】列表，字典，元組，知識點復習

20天Python全棧開發入門到精通視頻

上市公司編程語言雲計算 python 老男孩 20天Python全棧開發入門到精通視頻免費報名鏈接:https://ke.qq.com/course/206831本次課程知識點：帶你了解python目前帶給我們的機遇和挑戰。全面系統的學習python編程語言，從容應對企業中各式各樣的

Python全棧開發之4、內置函數、文件操作和遞歸

開發 hang mon alien yun alpha err fdm ax1 %E5%AD%97%E8%8A%82%E5%BA%8F%E8%BD%AC%E6%8D%A2%E4%B8%8E%E7%BB%93%E6%9E%84%E4%BD%93%E4%BD%8D%E5%9F%

python 全棧開發筆記 2

定義 dir 操作 lte 映射密碼錯誤 fun 改密 dom 函數函數式：將某功能代碼封裝到函數中，日後便無需重復編寫，僅調用函數即可面向對象：對函數進行分類和封裝，讓開發“更快更好更強...” 函數式編程最重要的是增強代碼的重用性和可讀性 def xx():

python全棧開發從入門到放棄之函數基礎

*args 才會沒有 pri 關鍵字 args none 結果類型 1、為什麽要用函數#1.避免代碼重用#2.提高代碼的可讀性 2、函數的定義def 函數名(參數1,參數2): ‘‘‘函數註釋‘‘‘ print("函數體") return "返回值"

python全棧開發從入門到放棄之裝飾器函數

def return app 不改變 art sdl 兩個 time() 必須 1、函數名可以當作函數的參數 1 import time 2 def timmer(func): 3 #函數名可以當做函數的參數 4 def inner(): 5

python全棧開發從入門到放棄之常用模塊和正則

imp 管理 gin idt 由於說明多次 mar style 什麽是模塊？常見的場景：一個模塊就是一個包含了python定義和聲明的文件，文件名就是模塊名字加上.py的後綴。但其實import加載的模塊分為四個通用類別：　　　1 使用python編寫

Python全棧開發：Javascript

component 類型 pad tin ons earch lex floor n) JavaScript是一門編程語言，瀏覽器內置了JavaScript語言的解釋器，所以在瀏覽器上按照JavaScript語言的規則編寫相應代碼之，瀏覽器可以解釋並做出相應的處理。一、

<python全棧開發基礎>學習過程筆記【17d】生成器

我們 ack cnblogs 生成式而不是簡寫為什麽 ati lin 1.列表生成式 >>> [i**2 for i in range(10)] [0, 1, 4, 9, 16, 25, 36, 49, 64, 81] 這個過程是從range(

python全棧開發從入門到放棄之socket網絡編程基礎

windows lis timeout 標準網站入門 make 取數 exce 網絡編程基礎一客戶端/服務器架構 1.硬件C/S架構(打印機) 2.軟件C/S架構　　互聯網中處處是C/S架構　　如黃色網站是服務端，你的瀏覽器是客戶端（B/S架構也是C/S架構的一

python全棧開發從入門到放棄之socket並發編程之IO模型

map 超時 sting mon recv style 好的 exceptio 得到一 IO模型介紹同步（synchronous） IO和異步（asynchronous） IO，阻塞（blocking） IO和非阻塞（non-blocking）IO分別是什麽，到底有什

Python全棧開發-有趣的小程序

() import 有趣標準輸出程序有趣的計算標準 sleep 進度條的打印　　import sys,time　　for i in range(20): 　　　　sys.stdout.write(‘$‘) #stdout是標準輸出的意思，在一

Python全棧開發-Day3-Python基礎3

找到現在 simon 變量作用域全局變量 index 全部 dataset 減少本節內容　　1. 函數基本語法及特性　　2. 參數與局部變量　　3.遞歸　　4.函數式編程介紹　　5.高階函數 1.函數基本語法及特性　三種編程範式：　　　1、面向過程：

python 全棧開發筆記 4

sta 基於資源網絡編程多核 final tex rop path 反射 1.通過字符串的形式導入模塊 2.通過字符串的形式，去模塊中尋找指定函數並執行 ‘‘‘ def f1(): return ‘F1‘ def f2(): return ‘F2‘

自學Python全棧開發第一次筆記

cto 列表筆記切換自己恢復一份 nbsp 磁盤大小我已經跟著視頻自學好幾天Python全棧開發了，今天決定聽老師的，開始寫blog，聽說大神都回來寫blog來記錄自己的成長。我特別認真的跟著這個視頻來學習，（他們開課前的保證書，我也寫了一份，哈

自學Python全棧開發第三次筆記（pycharm的使用）

文件 templates 空白 cti pycharm 模板 utf body 筆記這幾天學習了pycharm的使用。模板：新建：File---》settings---》File and code Templates---》PythonScript 添加頭部

Python全棧開發--遞歸函數

是不是通過內存 -s img tro 告訴開發 elif 遞歸函數初識遞歸函數遞歸函數的定義：在一個函數裏再調用這個函數本身 Python為了考慮保護內存占用情況，有一個遞歸深度的限制。探究遞歸的默認最大深度： def foo(n): print(n)

python全棧開發 * 30知識點匯總 * 180713

相關推薦