1. 程式人生 > >匹配中文字符的正則表達式: [/u4e00-/u9fa5]

匹配中文字符的正則表達式: [/u4e00-/u9fa5]

應該 ast 總計 文本 取ip地址 國內 xxx clipboard 地址轉換

匹配中文字符的正則表達式: [/u4e00-/u9fa5]

這裏是幾個主要非英文語系字符範圍(google上找到的):

2E80~33FFh:中日韓符號區。收容康熙字典部首、中日韓輔助部首、註音符號、日本假名、韓文音符,中日韓的符號、標點、帶圈或帶括符文數字、月份,以及日本的假名組合、單位、年號、月份、日期、時間等。

3400~4DFFh:中日韓認同表意文字擴充A區,總計收容6,582個中日韓漢字。

4E00~9FFFh:中日韓認同表意文字區,總計收容20,902個中日韓漢字。

A000~A4FFh:彜族文字區,收容中國南方彜族文字和字根。

AC00~D7FFh:韓文拼音組合字區,收容以韓文音符拼成的文字。

F900~FAFFh:中日韓兼容表意文字區,總計收容302個中日韓漢字。

FB00~FFFDh:文字表現形式區,收容組合拉丁文字、希伯來文、阿拉伯文、中日韓直式標點、小符號、半角符號、全角符號等。

比如需要匹配所有中日韓非符號字符,那麽正則表達式應該是^[/u3400-/u9FFF]+$
理論上沒錯, 可是我到msn.co.ko隨便復制了個韓文下來, 發現根本不對, 詭異
再到msn.co.jp復制了個‘お‘, 也不得行..

然後把範圍擴大到^[/u2E80-/u9FFF]+$, 這樣倒是都通過了, 這個應該就是匹配中日韓文字的正則表達式了, 包括我們臺灣省還在盲目使用的繁體中文

而關於中文的正則表達式, 應該是^[/u4E00-/u9FFF]+$, 和論壇裏常被人提起的^[/u4E00-/u9FA5]+$很接近

需要註意的是論壇裏說的^[/u4E00-/u9FA5]+$這是專門用於匹配簡體中文的正則表達式, 實際上繁體字也在裏面, 我用測試器測試了下‘中華人民共和國‘, 也通過了, 當然, ^[/u4E00-/u9FFF]+$也是一樣的結果

匹配雙字節字符(包括漢字在內):[^x00-xff]
  評註:可以用來計算字符串的長度(一個雙字節字符長度計2,ASCII字符計1)
  匹配空白行的正則表達式:ns*r
  評註:可以用來刪除空白行
  匹配HTML標記的正則表達式:<(S*?)[^>]*&gt;.*?|<.*? />
  評註:網上流傳的版本太糟糕,上面這個也僅僅能匹配部分,對於復雜的嵌套標記依舊無能為力
  匹配首尾空白字符的正則表達式:^s*|s*$
  評註:可以用來刪除行首行尾的空白字符(包括空格、制表符、換頁符等等),非常有用的表達式
  匹配Email地址的正則表達式:w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*
  評註:表單驗證時很實用
  匹配網址URL的正則表達式:[a-zA-z]+://[^s]*
  評註:網上流傳的版本功能很有限,上面這個基本可以滿足需求
  匹配帳號是否合法(字母開頭,允許5-16字節,允許字母數字下劃線):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
  評註:表單驗證時很實用
  匹配國內電話號碼:d{3}-d{8}|d{4}-d{7}
  評註:匹配形式如 0511-4405222 或 021-87888822
  匹配騰訊QQ號:[1-9][0-9]{4,}
  評註:騰訊QQ號從10000開始
  匹配中國郵政編碼:[1-9]d{5}(?!d)
  評註:中國郵政編碼為6位數字
  匹配身份證:d{15}|d{18}
  評註:中國的身份證為15位或18位
  匹配ip地址:d+.d+.d+.d+
  評註:提取ip地址時有用
  匹配特定數字:
  ^[1-9]d*$    //匹配正整數
  ^-[1-9]d*$   //匹配負整數
  ^-?[1-9]d*$   //匹配整數
  ^[1-9]d*|0$  //匹配非負整數(正整數 + 0)
  ^-[1-9]d*|0$   //匹配非正整數(負整數 + 0)
  ^[1-9]d*.d*|0.d*[1-9]d*$   //匹配正浮點數
  ^-([1-9]d*.d*|0.d*[1-9]d*)$  //匹配負浮點數
  ^-?([1-9]d*.d*|0.d*[1-9]d*|0?.0+|0)$  //匹配浮點數
  ^[1-9]d*.d*|0.d*[1-9]d*|0?.0+|0$   //匹配非負浮點數(正浮點數 + 0)
  ^(-([1-9]d*.d*|0.d*[1-9]d*))|0?.0+|0$  //匹配非正浮點數(負浮點數 + 0)
  評註:處理大量數據時有用,具體應用時註意修正
  匹配特定字符串:
  ^[A-Za-z]+$  //匹配由26個英文字母組成的字符串
  ^[A-Z]+$  //匹配由26個英文字母的大寫組成的字符串
  ^[a-z]+$  //匹配由26個英文字母的小寫組成的字符串
  ^[A-Za-z0-9]+$  //匹配由數字和26個英文字母組成的字符串
  ^w+$  //匹配由數字、26個英文字母或者下劃線組成的字符串
  在使用RegularExpressionValidator驗證控件時的驗證功能及其驗證表達式介紹如下:
  只能輸入數字:“^[0-9]*$”
  只能輸入n位的數字:“^d{n}$”
  只能輸入至少n位數字:“^d{n,}$”
  只能輸入m-n位的數字:“^d{m,n}$”
  只能輸入零和非零開頭的數字:“^(0|[1-9][0-9]*)$”
  只能輸入有兩位小數的正實數:“^[0-9]+(.[0-9]{2})?$”
  只能輸入有1-3位小數的正實數:“^[0-9]+(.[0-9]{1,3})?$”
  只能輸入非零的正整數:“^+?[1-9][0-9]*$”
  只能輸入非零的負整數:“^-[1-9][0-9]*$”
  只能輸入長度為3的字符:“^.{3}$”
  只能輸入由26個英文字母組成的字符串:“^[A-Za-z]+$”
  只能輸入由26個大寫英文字母組成的字符串:“^[A-Z]+$”
  只能輸入由26個小寫英文字母組成的字符串:“^[a-z]+$”
  只能輸入由數字和26個英文字母組成的字符串:“^[A-Za-z0-9]+$”
  只能輸入由數字、26個英文字母或者下劃線組成的字符串:“^w+$”
  驗證用戶密碼:“^[a-zA-Z]w{5,17}$”正確格式為:以字母開頭,長度在6-18之間,
  只能包含字符、數字和下劃線。
  驗證是否含有^%&‘,;=?$"等字符:“[^%&‘,;=?$x22]+”
  只能輸入漢字:“^[u4e00-u9fa5],{0,}$”
  驗證Email地址:“^w+[-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*$”
  驗證InternetURL:“^http://([w-]+.)+[w-]+(/[w-./?%&=]*)?$”
  驗證電話號碼:“^((d{3,4})|d{3,4}-)?d{7,8}$”
  正確格式為:“XXXX-XXXXXXX”,“XXXX-XXXXXXXX”,“XXX-XXXXXXX”,
  “XXX-XXXXXXXX”,“XXXXXXX”,“XXXXXXXX”。
  驗證身份證號(15位或18位數字):“^d{15}|d{}18$”
  驗證一年的12個月:“^(0?[1-9]|1[0-2])$”正確格式為:“01”-“09”和“1”“12”
  驗證一個月的31天:“^((0?[1-9])|((1|2)[0-9])|30|31)$”
  正確格式為:“01”“09”和“1”“31”。
  匹配中文字符的正則表達式: [u4e00-u9fa5]
  匹配雙字節字符(包括漢字在內):[^x00-xff]
  匹配空行的正則表達式:n[s| ]*r
  匹配HTML標記的正則表達式:/<(.*)>.*|<(.*) />/
  匹配首尾空格的正則表達式:(^s*)|(s*$)
  匹配Email地址的正則表達式:w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*
  匹配網址URL的正則表達式:http://([w-]+.)+[w-]+(/[w- ./?%&=]*)?
  (1)應用:計算字符串的長度(一個雙字節字符長度計2,ASCII字符計1)
  String.prototype.len=function(){return this.replace([^x00-xff]/g,"aa").length;}
  (2)應用:javascript中沒有像vbscript那樣的trim函數,我們就可以利用這個表達式來實現
  String.prototype.trim = function()
  {
  return this.replace(/(^s*)|(s*$)/g, "");
  }
  (3)應用:利用正則表達式分解和轉換IP地址
  function IP2V(ip) //IP地址轉換成對應數值
  {
  re=/(d+).(d+).(d+).(d+)/g //匹配IP地址的正則表達式
  if(re.test(ip))
  {
  return RegExp.$1*Math.pow(255,3))+RegExp.$2*Math.pow(255,2))+RegExp.$3*255+RegExp.$4*1
  }
  else
  {
  throw new Error("Not a valid IP address!")
  }
  }
  (4)應用:從URL地址中提取文件名的javascript程序
  s="http://www.9499.net/page1.htm";
  s=s.replace(/(.*/){0,}([^.]+).*/ig,"$2") ;//Page1.htm
  (5)應用:利用正則表達式限制網頁表單裏的文本框輸入內容
  用正則表達式限制只能輸入中文:onkeyup="value=value.replace(/[^u4E00-u9FA5]/g,‘) "onbeforepaste="clipboardData.setData(‘text‘,clipboardData.getData(‘text‘).replace(/[^u4E00-u9FA5]/g,‘))"
  用正則表達式限制只能輸入全角字符: onkeyup="value=value.replace(/[^uFF00-uFFFF]/g,‘) "onbeforepaste="clipboardData.setData(‘text‘,clipboardData.getData(‘text‘).replace(/[^uFF00-uFFFF]/g,‘))"
  用正則表達式限制只能輸入數字:onkeyup="value=value.replace(/[^d]/g,‘) "onbeforepaste= "clipboardData.setData(‘text‘,clipboardData.getData(‘text‘).replace(/[^d]/g,‘))"
  用正則表達式限制只能輸入數字和英文:onkeyup="value=value.replace(/[W]/g,‘) "onbeforepaste="clipboardData.setData(‘text‘,clipboardData.getData(‘text‘).replace(/[^d]/g,‘

匹配中文字符的正則表達式: [/u4e00-/u9fa5]