1. 程式人生 > >比較準確完整的中文字元正則校驗

比較準確完整的中文字元正則校驗

網上大多數校驗中文的正則都是\u4e00-\u9fa5,經過實際測試,這個正則無法匹配中文標點,如(),。等

仔細研究了unicode的規範,本著儘量寬泛、遵循unicode分類的原則,總結了一套比較準確完整的校驗規則:  
// http://www.unicode.org/charts/PDF/U2000.pdf 一般標點
// http://www.unicode.org/charts/PDF/U3000.pdf CJK符號和標點
// http://www.unicode.org/charts/PDF/U4E00.pdf CJK統一表意文字
// http://www.unicode.org/charts/PDF/UFF00.pdf 半寬全寬形狀
String COMMON_STRING_REGEX = "[\u2000-\u206f\u3000-\u303f\u4e00-\u9fef\uff00-\uffef]*";