1. 程式人生 > >python爬蟲正則表達式

python爬蟲正則表達式

值範圍 開頭 工具 郵政編碼 a-z def lar 正整數 expr

1、正則表達式概念:用來簡潔表達字符串的方式。(regular expression regex RE)

          通用的字符串框架

          針對字符串表達“簡潔”和“特征”思想的工具。

2、正則表達式的語法:

  2.1、“.”  :表示任何單個字符

  2.2、“[]”  :字符集,對單個字符給出取值範圍

         [abc]表示a、b、c,[a-z]表示a到z單個字符

  2.3、“[^]”  :非字符集

        [^abc]表示不是a,b,c,的單個字符

  2.4、“*”  :前一個字符的0次或無限次擴展

  2.5、“+”  :前一個字符1次或無限次擴展

  2.6、“?”  :前一個字符的0次或1次擴展

  2.7、“|”  :或,左右表達式任意一個

        abc|def 表示abc或def

  2.8、“{m}”  :擴展前一個字符m次

  2.9、“{m,n}”  :擴展前一個字符m至n次(含n)

  2.10、“^”  :匹配字符串開頭

        ^abc 表示abc開頭字符串

  2.11、“$”  :匹配字符串結尾

        abc$ 表示abc結尾字符串

  2.12、“()”  :分組標記,內部智能使用“|”操作符

  2.13、“\d”  :數字,等價於[0-9]

  2.14、“\w”  :單詞字符,等價於[A-Za-z0-9_]

      

     eg:^[A-Za-z]+$ :表示由26個字母組成的字符串

      :^[A-Za-z0-9]+$:表示由26個字母和數字組成的字符串

      :^-?\d+$:整數形式的字符串     #“-”擴展0次或一次,表示正負

      :^[0-9]*[1-9][0-9]*$:表示正整數形式的字符串

      :[1-9]\d{5}:中國境內郵政編碼,6位

      :[\u4e00-\u9fa5]:匹配中文字符

3、re庫的使用

python爬蟲正則表達式