1. 程式人生 > >re模塊、os模塊、subprocess模塊

re模塊、os模塊、subprocess模塊

環境變量 posix python解釋器 ins 調用 與操作 結果 註冊 非貪婪

一、re模塊

1、什麽是正則
正則就是用一系列具有特殊含義的字符組成一套規則,該規則用來描述具有某一特征的字符串,
正則就是用來去一個大的字符串中匹配出符合規則的子字符串

2、為什麽要用正則
1、用戶註冊
2、爬蟲程序

3、如何用正則

技術分享圖片

# =================================匹配模式=================================
#一對一的匹配
# ‘hello‘.replace(old,new)
# ‘hello‘.find(‘pattern‘)

#正則匹配
import re
#\w與\W
print
(re.findall(\w,hello egon 123)) #[‘h‘, ‘e‘, ‘l‘, ‘l‘, ‘o‘, ‘e‘, ‘g‘, ‘o‘, ‘n‘, ‘1‘, ‘2‘, ‘3‘] print(re.findall(\W,hello egon 123)) #[‘ ‘, ‘ ‘] #\s與\S print(re.findall(\s,hello egon 123)) #[‘ ‘, ‘ ‘, ‘ ‘, ‘ ‘] print(re.findall(\S,hello egon 123)) #[‘h‘, ‘e‘, ‘l‘, ‘l‘, ‘o‘, ‘e‘, ‘g‘, ‘o‘, ‘n‘, ‘1‘, ‘2‘, ‘3‘]
#\n \t都是空,都可以被\s匹配 print(re.findall(\s,hello \n egon \t 123)) #[‘ ‘, ‘\n‘, ‘ ‘, ‘ ‘, ‘\t‘, ‘ ‘] #\n與\t print(re.findall(r\n,hello egon \n123)) #[‘\n‘] print(re.findall(r\t,hello egon\t123)) #[‘\n‘] #\d與\D print(re.findall(\d,hello egon 123)) #[‘1‘, ‘2‘, ‘3‘] print(re.findall(
\D,hello egon 123)) #[‘h‘, ‘e‘, ‘l‘, ‘l‘, ‘o‘, ‘ ‘, ‘e‘, ‘g‘, ‘o‘, ‘n‘, ‘ ‘] #\A與\Z print(re.findall(\Ahe,hello egon 123)) #[‘he‘],\A==>^ print(re.findall(123\Z,hello egon 123)) #[‘he‘],\Z==>$ #^與$ print(re.findall(^h,hello egon 123)) #[‘h‘] print(re.findall(3$,hello egon 123)) #[‘3‘] # 重復匹配:| . | * | ? | .* | .*? | + | {n,m} | #. print(re.findall(a.b,a1b)) #[‘a1b‘] print(re.findall(a.b,a1b a*b a b aaab)) #[‘a1b‘, ‘a*b‘, ‘a b‘, ‘aab‘] print(re.findall(a.b,a\nb)) #[] print(re.findall(a.b,a\nb,re.S)) #[‘a\nb‘] print(re.findall(a.b,a\nb,re.DOTALL)) #[‘a\nb‘]同上一條意思一樣 #* print(re.findall(ab*,bbbbbbb)) #[] print(re.findall(ab*,a)) #[‘a‘] print(re.findall(ab*,abbbb)) #[‘abbbb‘] #? print(re.findall(ab?,a)) #[‘a‘] print(re.findall(ab?,abbb)) #[‘ab‘] #匹配所有包含小數在內的數字 print(re.findall(\d+\.?\d*,"asdfasdf123as1.13dfa12adsf1asdf3")) #[‘123‘, ‘1.13‘, ‘12‘, ‘1‘, ‘3‘] #.*默認為貪婪匹配 print(re.findall(a.*b,a1b22222222b)) #[‘a1b22222222b‘] #.*?為非貪婪匹配:推薦使用 print(re.findall(a.*?b,a1b22222222b)) #[‘a1b‘] #+ print(re.findall(ab+,a)) #[] print(re.findall(ab+,abbb)) #[‘abbb‘] #{n,m} print(re.findall(ab{2},abbb)) #[‘abb‘] print(re.findall(ab{2,4},abbb)) #[‘abb‘] print(re.findall(ab{1,},abbb)) #‘ab{1,}‘ ===> ‘ab+‘ print(re.findall(ab{0,},abbb)) #‘ab{0,}‘ ===> ‘ab*‘ #[] print(re.findall(a[1*-]b,a1b a*b a-b)) #[]內的都為普通字符了,且如果-沒有被轉意的話,應該放到[]的開頭或結尾 print(re.findall(a[^1*-]b,a1b a*b a-b a=b)) #[]內的^代表的意思是取反,所以結果為[‘a=b‘] print(re.findall(a[0-9]b,a1b a*b a-b a=b)) #[]內的^代表的意思是取反,所以結果為[‘a=b‘] print(re.findall(a[a-z]b,a1b a*b a-b a=b aeb)) #[]內的^代表的意思是取反,所以結果為[‘a=b‘] print(re.findall(a[a-zA-Z]b,a1b a*b a-b a=b aeb aEb)) #[]內的^代表的意思是取反,所以結果為[‘a=b‘] #\# print(re.findall(‘a\\c‘,‘a\c‘)) #對於正則來說a\\c確實可以匹配到a\c,但是在python解釋器讀取a\\c時,會發生轉義,然後交給re去執行,所以拋出異常 print(re.findall(ra\\c,a\c)) #r代表告訴解釋器使用rawstring,即原生字符串,把我們正則內的所有符號都當普通字符處理,不要轉義 print(re.findall(a\\\\c,a\c)) #同上面的意思一樣,和上面的結果一樣都是[‘a\\c‘] #():分組 print(re.findall(ab+,ababab123)) #[‘ab‘, ‘ab‘, ‘ab‘] print(re.findall((ab)+123,ababab123)) #[‘ab‘],匹配到末尾的ab123中的ab print(re.findall((?:ab)+123,ababab123)) #findall的結果不是匹配的全部內容,而是組內的內容,?:可以讓結果為匹配的全部內容 print(re.findall(href="(.*?)",<a href="http://www.baidu.com">點擊</a>))#[‘http://www.baidu.com‘] print(re.findall(href="(?:.*?)",<a href="http://www.baidu.com">點擊</a>))#[‘href="http://www.baidu.com"‘] #| print(re.findall(compan(?:y|ies),Too many companies have gone bankrupt, and the next one is my company))

re模塊提供的方法介紹

# ===========================re模塊提供的方法介紹===========================
import re
#1
print(re.findall(e,alex make love) )   #[‘e‘, ‘e‘, ‘e‘],返回所有滿足匹配條件的結果,放在列表裏
#2
print(re.search(e,alex make love).group()) #e,只到找到第一個匹配然後返回一個包含匹配信息的對象,該對象可以通過調用group()方法得到匹配的字符串,如果字符串沒有匹配,則返回None。

#3
print(re.match(e,alex make love))    #None,同search,不過在字符串開始處進行匹配,完全可以用search+^代替match

#4
print(re.split([ab],abcd))     #[‘‘, ‘‘, ‘cd‘],先按‘a‘分割得到‘‘和‘bcd‘,再對‘‘和‘bcd‘分別按‘b‘分割

#5
print(===>,re.sub(a,A,alex make love)) #===> Alex mAke love,不指定n,默認替換所有
print(===>,re.sub(a,A,alex make love,1)) #===> Alex make love
print(===>,re.sub(a,A,alex make love,2)) #===> Alex mAke love
print(===>,re.sub(^(\w+)(.*?\s)(\w+)(.*?\s)(\w+)(.*?)$,r\5\2\3\4\1,alex make love)) #===> love make alex

print(===>,re.subn(a,A,alex make love)) #===> (‘Alex mAke love‘, 2),結果帶有總共替換的個數


#6
obj=re.compile(\d{2})

print(obj.search(abc123eeee).group()) #12
print(obj.findall(abc123eeee)) #[‘12‘],重用了obj

二、os模塊

1. os模塊是與操作系統交互的一個接口

os.getcwd() 獲取當前工作目錄,即當前python腳本工作的目錄路徑
os.chdir("dirname")  改變當前腳本工作目錄;相當於shell下cd
os.curdir  返回當前目錄: (‘.‘)
os.pardir  獲取當前目錄的父目錄字符串名:(‘..‘)
os.makedirs(‘dirname1/dirname2‘)    可生成多層遞歸目錄
os.removedirs(‘dirname1‘)    若目錄為空,則刪除,並遞歸到上一級目錄,如若也為空,則刪除,依此類推
os.mkdir(‘dirname‘)    生成單級目錄;相當於shell中mkdir dirname
os.rmdir(‘dirname‘)    刪除單級空目錄,若目錄不為空則無法刪除,報錯;相當於shell中rmdir dirname
os.listdir(‘dirname‘)    列出指定目錄下的所有文件和子目錄,包括隱藏文件,並以列表方式打印
os.remove()  刪除一個文件
os.rename("oldname","newname")  重命名文件/目錄
os.stat(‘path/filename‘)  獲取文件/目錄信息
os.sep    輸出操作系統特定的路徑分隔符,win下為"\\",Linux下為"/"
os.linesep    輸出當前平臺使用的行終止符,win下為"\t\n",Linux下為"\n"
os.pathsep    輸出用於分割文件路徑的字符串 win下為;,Linux下為:
os.name    輸出字符串指示當前使用平臺。win->‘nt‘; Linux->‘posix‘
os.system("bash command")  運行shell命令,直接顯示
os.environ  獲取系統環境變量
os.path.abspath(path)  返回path規範化的絕對路徑
os.path.split(path)  將path分割成目錄和文件名二元組返回
os.path.dirname(path)  返回path的目錄。其實就是os.path.split(path)的第一個元素
os.path.basename(path)  返回path最後的文件名。如何path以/或\結尾,那麽就會返回空值。即os.path.split(path)的第二個元素
os.path.exists(path)  如果path存在,返回True;如果path不存在,返回False
os.path.isabs(path)  如果path是絕對路徑,返回True
os.path.isfile(path)  如果path是一個存在的文件,返回True。否則返回False
os.path.isdir(path)  如果path是一個存在的目錄,則返回True。否則返回False
os.path.join(path1[, path2[, ...]])  將多個路徑組合後返回,第一個絕對路徑之前的參數將被忽略
os.path.getatime(path)  返回path所指向的文件或者目錄的最後存取時間
os.path.getmtime(path)  返回path所指向的文件或者目錄的最後修改時間
os.path.getsize(path) 返回path的大小


2.os模塊處理路徑方法:
方式一:
import os
具體應用
import os,sys
possible_topdir = os.path.normpath(os.path.join(
    os.path.abspath(__file__),
    os.pardir, #上一級
    os.pardir,
    os.pardir
))
sys.path.insert(0,possible_topdir)


方式二:
os.path.dirname(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))



三、suprocess模塊
import subprocess

obj=subprocess.Popen(‘dir‘,
shell=True,
stdout=subprocess.PIPE,
stderr=subprocess.PIPE
)

# print(obj)

res1=obj.stdout.read()
print(‘正確結果1111: ‘,res1)

res2=obj.stdout.read()
print(‘正確結果2222: ‘,res2) #只能取一次,取走了就沒有了

# res2=obj.stderr.read()
# print(‘錯誤結果:‘,res2.decode(‘gbk‘)

re模塊、os模塊、subprocess模塊