python爬蟲正則表達式
1、正則表達式概念:用來簡潔表達字符串的方式。(regular expression regex RE)
通用的字符串框架
針對字符串表達“簡潔”和“特征”思想的工具。
2、正則表達式的語法:
2.1、“.” :表示任何單個字符
2.2、“[]” :字符集,對單個字符給出取值範圍
[abc]表示a、b、c,[a-z]表示a到z單個字符
2.3、“[^]” :非字符集
[^abc]表示不是a,b,c,的單個字符
2.4、“*” :前一個字符的0次或無限次擴展
2.5、“+” :前一個字符1次或無限次擴展
2.6、“?” :前一個字符的0次或1次擴展
2.7、“|” :或,左右表達式任意一個
abc|def 表示abc或def
2.8、“{m}” :擴展前一個字符m次
2.9、“{m,n}” :擴展前一個字符m至n次(含n)
2.10、“^” :匹配字符串開頭
^abc 表示abc開頭字符串
2.11、“$” :匹配字符串結尾
abc$ 表示abc結尾字符串
2.12、“()” :分組標記,內部智能使用“|”操作符
2.13、“\d” :數字,等價於[0-9]
2.14、“\w” :單詞字符,等價於[A-Za-z0-9_]
eg:^[A-Za-z]+$ :表示由26個字母組成的字符串
:^[A-Za-z0-9]+$:表示由26個字母和數字組成的字符串
:^-?\d+$:整數形式的字符串 #“-”擴展0次或一次,表示正負
:^[0-9]*[1-9][0-9]*$:表示正整數形式的字符串
:[1-9]\d{5}:中國境內郵政編碼,6位
:[\u4e00-\u9fa5]:匹配中文字符
3、re庫的使用
python爬蟲正則表達式