1. 程式人生 > >正則表示式——Unicode 屬性

正則表示式——Unicode 屬性

  每一個 Unicode 字元,除了有 Code Point 與之對應外,還具體其他屬性,在正則表示式中常用到三種 Unicode 屬性: Unicode Property、Unicode Script,分別對應字元符的功能、所屬程式碼區段、書寫系統;它們的表現形式都類似\p{property}

7.6.1 Unicode Property

  Unicode Property 的記法類似\p{L}\p{p}。它按照字元的功能分類 Unicode 字元,每個 Unicode 字元只能屬於一個Unicode Property。

  可以這樣理解 Unicode Property:它並不關心字元所屬的語言,只關心字元的功能,比如\p{Z}

表示任意的空白字元或不可見的分隔符;\p{P}表示任意標點字元,等等。遇到中英文混排、全形、半形字元同時出現的情況,看可以用\p{Z}匹配所有的空白字元(而不用關心空格到底是全形空格還是半形空格),用\p{P}匹配所有的標點字元(而不用關心逗號到底是中文逗號還是英文逗號)。