1. 程式人生 > >打造屬於自己的正則表示式

打造屬於自己的正則表示式

 概述

首先需要說明的一點,無論是Winform,還是Webform,都有很成熟的日曆控制元件,無論從易用性還是可擴充套件性上看,日期的選擇和校驗還是用日曆控制元件來實現比較好。
前幾天在CSDN多個版塊看到需要日期正則的帖子,所以整理了這篇文章,和大家一起討論交流,如有遺漏或錯誤的地方,還請大家指正。
日期正則一般是對格式有要求,且資料不是直接由使用者輸入時使用。因應用場景的不同,寫出的正則也不同,複雜程度也自然不同。正則的書寫需要根據具體情況具體分析,一個基本原則就是:只寫合適的,不寫複雜的。
對於日期提取,只要能與非日期區分開,寫最簡單的正則即可,如
/d{4}-/d{2}-/d{2}
如果可以在源字串中唯一定位yyyy-MM-dd格式的日期,則可用做提取。
對於驗證,如果僅僅是驗證字元組成及格式是沒有多大意義的,還要加入對規則的校驗。由於閏年的存在,使得日期的校驗正則變得比較複雜。
先來考察一下日期的有效範圍以及什麼是閏年。

2 日期的規則
2.1 日期的有效範圍

對於日期的有效範圍,不同的應用場景會有所不同。
MSDN中定義的DateTime物件的有效範圍是:0001-01-01 00:00:00到9999-12-31 23:59:59。
UNIX時間戳的0按照ISO 8601規範為 :1970-01-01T00:00:00Z。
而實際應用中,日期的範圍基本上不會超出DateTime所規定的範圍,所以正則驗證取其中常用的日期範圍即可。

2.2 什麼是閏年

(以下摘自百度百科)
閏年(leap year)是為了彌補因人為曆法規定造成的年度天數與地球實際公轉週期的時間差而設立的。補上時間差的年份為閏年。
地球繞日執行週期為365天5小時48分46秒(合365.24219天),即一回歸年(tropical year)。公曆的平年只有365日,比迴歸年短約0.2422 日,每四年累積約一天,把這一天加於2月末(即2月29日),使當年時間長度變為366日,這一年就為閏年。
需要注意的是,現在的公曆是根據羅馬人的“儒略曆”改編而得。由於當時沒有了解到每年要多算出0.0078天的問題,從公元前46年,到16世紀,一共累計多出了10天。為此,當時的教皇格雷果裡十三世,將1582年10月5日人為規定為10月15日。並開始了新閏年規定。即規定公曆年份是整百數的,必須是400的倍數才是閏年,不是400的倍數的就是平年。比如,1700年、1800年和1900年為平年,2000年為閏年。此後,平均每年長度為365.2425天,約4年出現1天的偏差。按照每四年一個閏年計算,平均每年就要多算出0.0078天,經過四百年就會多出大約3天來,因此,每四百年中要減少三個閏年。閏年的計算,歸結起來就是通常說的:四年一閏;百年不閏,四百年再閏。

2.3 日期的格式

根據不同的語言文化,日期的連字元會有所不同,通常有以下幾種格式:
yyyyMMdd
yyyy-MM-dd
yyyy/MM/dd
yyyy.MM.dd

3 日期正則表示式構建
3.1 規則分析

寫複雜正則的一個常用方法,就是先把不相關的需求拆分開,分別寫出對應的正則,然後組合,檢查一下相互的關聯關係以及影響,基本上就可以得出對應的正則。
按閏年的定義可知,日期可以有幾種分類方法。

3.1.1 根據天數是否與年份有關劃分為兩類

與年份無關的一類中,根據每月天數的不同,又可細分為兩類
 1、3、5、7、8、10、12月為1-31日
 4、6、9、11月為1-30日
與年份有關的一類中
 平年2月為1-28日
 閏年2月為1-29日

3.1.2 根據包含日期不同可劃分為四類

 所有年份的所有月份都包含1-28日
 所有年份除2月外都包含29和30日
 所有年份1、3、5、7、8、10、12月都包含31日
 閏年2月包含29日

3.1.3 分類方法選擇

因為日期分類之後的實現,是要通過(exp1|exp2|exp3)這種分支結構來實現的,而分支結構是從左側分支依次向右開始嘗試匹配,當有一個分支匹配成功時,就不再向右嘗試,否則嘗試所有分支後並報告失敗。
分支的多少,每個分支的複雜程度都會影響匹配效率,考慮到被驗證日期概率分佈,絕大多數都是落到1-28日內,所以採用第二種分類方法,會有效提高匹配效率。

3.2 正則實現

採用3.1.2節的分類方法,就可以針對每一個規則寫出對應的正則,以下暫按MM-dd格式進行實現。
先考慮與年份無關的前三條規則,年份可統一寫作
(?!0000)[0-9]{4}
下面僅考慮月和日的正則
 包括平年在內的所有年份的月份都包含1-28日
(0[1-9]|1[0-2])-(0[1-9]|1[0-9]|2[0-8])
 包括平年在內的所有年份除2月外都包含29和30日
(0[13-9]|1[0-2])-(29|30)
 包括平年在內的所有年份1、3、5、7、8、10、12月都包含31日
(0[13578]|1[02])-31)
合起來就是除閏年的2月29日外的其它所有日期
(?!0000)[0-9]{4}-((0[1-9]|1[0-2])-(0[1-9]|1[0-9]|2[0-8])|(0[13-9]|1[0-2])-(29|30)|(0[13578]|1[02])-31)
接下來考慮閏年的實現
 閏年2月包含29日
這裡的月和日是固定的,就是02-29,只有年是變化的。
可通過以下程式碼輸出所有的閏年年份,考察規則

C# code
for (int i =1; i <10000; i++) { if ((i %4==0&& i %100!=0) || i %400==0) { richTextBox2.Text +=string.Format("{0:0000}", i) +"/n"; } }


根據閏年的規則,很容易整理出規則,四年一閏;
([0-9]{2}(0[48]|[2468][048]|[13579][26])
百年不閏,四百年再閏。
(0[48]|[2468][048]|[13579][26])00
合起來就是所有閏年的2月29日
([0-9]{2}(0[48]|[2468][048]|[13579][26])|(0[48]|[2468][048]|[13579][26])00)-02-29)
四條規則都已實現,且互相間沒有影響,合起來就是所有符合DateTime範圍的日期的正則
^((?!0000)[0-9]{4}-((0[1-9]|1[0-2])-(0[1-9]|1[0-9]|2[0-8])|(0[13-9]|1[0-2])-(29|30)|(0[13578]|1[02])-31)|([0-9]{2}(0[48]|[2468][048]|[13579][26])|(0[48]|[2468][048]|[13579][26])00)-02-29)$
考慮到這個正則表示式僅僅是用作驗證,所以捕獲組沒有意義,只會佔用資源,影響匹配效率,所以可以使用非捕獲組來進行優化。
^(?:(?!0000)[0-9]{4}-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[13578]|1[02])-31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)-02-29)$
以上正則年份0001-9999,格式yyyy-MM-dd。可以通過以下程式碼驗證正則的有效性和效能

C# code
DateTime dt =new DateTime(1, 1, 1); DateTime endDay =new DateTime(9999, 12, 31); Stopwatch sw =new Stopwatch(); sw.Start(); Regex dateRegex =new Regex(@"^(?:(?!0000)[0-9]{4}-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[13578]|1[02])-31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)-02-29)$
"); //Regex dateRegex = new Regex(@"^((?!0000)[0-9]{4}-((0[1-9]|1[0-2])-(0[1-9]|1[0-9]|2[0-8])|(0[13-9]|1[0-2])-(29|30)|(0[13578]|1[02])-31)|([0-9]{2}(0[48]|[2468][048]|[13579][26])|(0[48]|[2468][048]|[13579][26])00)-02-29)$");Console.WriteLine("開始日期: "+ dt.ToString("yyyy-MM-dd")); while (dt <= endDay) { if (!dateRegex.IsMatch(dt.ToString("yyyy-MM-dd"))) { Console.WriteLine(dt.ToString("yyyy-MM-dd") +" false"); } if (dt == endDay) { break; } dt = dt.AddDays(1); } Console.WriteLine("結束日期: "+ dt.ToString("yyyy-MM-dd")); sw.Stop(); Console.WriteLine("測試用時: "+ sw.ElapsedMilliseconds +"ms"); Console.WriteLine("測試完成!"); Console.ReadLine();



4 日期正則表示式擴充套件
4.1 “年月日”形式擴充套件

以上實現的是yyyy-MM-dd格式的日期驗證,考慮到連字元的不同,以及月和日可能為M和d,即yyyy-M-d的格式,可以對以上正則進行擴充套件
^(?:(?!0000)[0-9]{4}([-/.]?)(?:(?:0?[1-9]|1[0-2])([-/.]?)(?:0?[1-9]|1[0-9]|2[0-8])|(?:0?[13-9]|1[0-2])([-/.]?)(?:29|30)|(?:0?[13578]|1[02])([-/.]?)31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)([-/.]?)0?2([-/.]?)29)$
使用反向引用進行簡化,年份0001-9999,格式yyyy-MM-dd或yyyy-M-d,連字元可以沒有或是“-”、“/”、“.”之一。
^(?:(?!0000)[0-9]{4}([-/.]?)(?:(?:0?[1-9]|1[0-2])/1(?:0?[1-9]|1[0-9]|2[0-8])|(?:0?[13-9]|1[0-2])/1(?:29|30)|(?:0?[13578]|1[02])/1(?:31))|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)([-/.]?)0?2/2(?:29))$
這就是“年月日”這種形式最全的一個正則了,不同含義部分以不同顏色標識,可以根據自己的需要進行栽剪。

4.2 其它形式擴充套件

瞭解了以上正則各部分代表的含義,互相間的關係後,就很容易擴充套件成其它格式的日期正則,如dd/MM/yyyy這種“日月年”格式的日期。
^(?:(?:(?:0?[1-9]|1[0-9]|2[0-8])([-/.]?)(?:0?[1-9]|1[0-2])|(?:29|30)([-/.]?)(?:0?[13-9]|1[0-2])|31([-/.]?)(?:0?[13578]|1[02]))([-/.]?)(?!0000)[0-9]{4}|29([-/.]?)0?2([-/.]?)(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00))$
這種格式需要注意的就是不能用反向引用來進行優了。連字元等可根據自己的需求栽剪。

4.3 新增時間的擴充套件

時間的規格很明確,也很簡單,基本上就HH:mm:ss和H:m:s兩種形式。
([01][0-9]|2[0-3]):[0-5][0-9]:[0-5][0-9]
合入到日期的正則中,yyyy-MM-dd HH:mm:ss
^(?:(?!0000)[0-9]{4}-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[13578]|1[02])-31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)-02-29)/s+([01][0-9]|2[0-3]):[0-5][0-9]:[0-5][0-9]$

4.4 年份定製

以上所有涉及到平年的年份裡,使用的是0001-9999。當然,年份也可以根據閏年規則定製。
如年份1600-9999,格式yyyy-MM-dd或yyyy-M-d,連字元可以沒有或是“-”、“/”、“.”之一。
^(?:(?:1[6-9]|[2-9][0-9])[0-9]{2}([-/.]?)(?:(?:0?[1-9]|1[0-2])/1(?:0?[1-9]|1[0-9]|2[0-8])|(?:0?[13-9]|1[0-2])/1(?:29|30)|(?:0?[13578]|1[02])/1(?:31))|(?:(?:1[6-9]|[2-9][0-9])(?:0[48]|[2468][048]|[13579][26])|(?:16|[2468][048]|[3579][26])00)([-/.]?)0?2/2(?:29))$

5 特別說明

以上正則採用的是最基本的正則語法規則,絕大多數採用傳統NFA引擎的語言都可以支援,包括JavaScript、Java、.NET等。
另外需求說明的是,雖然日期的規則相對明確,可以採用這種方式裁剪來得到符合要求的日期正則,但是並不推薦這樣使用正則,正則的強大在於它的靈活性,可以根據需求,量身打造最合適的正則,如果只是用來套用模板,那正則也就不稱其為正則了。
正則的語法規則並不多,而且很容易入門,掌握語法規則,量體裁衣,才是正則之“道”。