1. 程式人生 > >R語言︱文字(字串)處理與正則表示式

R語言︱文字(字串)處理與正則表示式

處理文字是每一種計算機語言都應該具備的功能,但不是每一種語言都側重於處理文字。R語言是統計的語言,處理文字不是它的強項,perl語言這方面的功能比R不知要強多少倍。幸運的是R語言的可擴充套件能力很強,DNA/RNA/AA等生物序列現在已經可以使用R來處理。

nchar字元的個數
toupper轉換為大寫字元
tolower轉換為小寫字元
substr求字串的字串
grep基於正則表示式的匹配
sub基於正則表示式的替換
strsplit字串分割
paste字元向量連線
match匹配元素位置組成的向量

R語言處理文字的能力雖然不強,但適當用用還是可以大幅提高工作效率的,而且有些文字操作還不得不用。高效處理文字少不了正則表示式(regular expression),雖然R在這方面先天不高效,但它處理字串的絕大多數函式都使用正則表示式。

0、正則表示式簡介:

正則表示式不是R的專屬內容,所以用0編號,這裡也只簡單介紹,更詳細的內容請查閱其他文章。

正則表示式是用於描述/匹配一個文字集合的表示式。

1.  所有英文字母、數字和很多可顯示的字元本身就是正則表示式,用於匹配它們自己。比如 'a' 就是匹配字母 'a' 的正則表示式

2.  一些特殊的字元在正則表示式中不在用來描述它自身,它們在正則表示式中已經被“轉義”,這些字元稱為“元字元”。

perl型別的正則表示式中被轉義的字元有:. \ | ( ) [ ] { } ^ $ * + ?。被轉義的字元已經有特殊的意義,如點號 . 表示任意字元;

方括號表示選擇方括號中的任意一個(如[a-z] 表示任意一個小寫字元);^ 放在表示式開始出表示匹配文字開始位置,放在方括號內開始處表示非方括號內的任一字元;大括號表示前面的字元或表示式的重複次數;| 表示可選項,即 | 前後的表示式任選一個。

3.  如果要在正則表示式中表示元字元本身,比如我就要在文字中查詢問號‘?’, 那麼就要使用引用符號(或稱換碼符號),一般是反斜槓 '\'。需要注意的是,在R語言中得用兩個反斜槓即 ‘\\’,如要匹配括號就要寫成 ’\\(\\)‘

4.  不同語言或應用程式(事實上很多規則都通用)定義了一些特殊的元字元用於表示某類字元,

如 \d 表示數字0-9, 

\D 表示非數字,

\s 表示空白字元(包括空格、製表符、換行符等),

\S 表示非空白字元,

\w 表示字(字母和數字),

\W 表示非字,

\< 和 \> 分別表示以空白字元開始和結束的文字。

5.  正則表示式符號運算順序:圓括號括起來的表示式最優先,然後是表示重複次數的操作(即:* + {} ),接下來是連線運算(其實就是幾個字元放在一起,如abc),最後是表示可選項的運算(|)。所以 'foot|bar' 可以匹配’foot‘或者’bar‘,但是 'foot|ba{2}r'匹配的是’foot‘或者’baar‘。

元字元描述
\將下一個字元標記符、或一個向後引用、或一個八進位制轉義符。例如,“\\n”匹配\n。“\n”匹配換行符。序列“\\”匹配“\”而“\(”則匹配“(”。即相當於多種程式語言中都有的“轉義字元”的概念。
^匹配輸入字串的開始位置。如果設定了RegExp物件的Multiline屬性,^也匹配“\n”或“\r”之後的位置。
$匹配輸入字串的結束位置。如果設定了RegExp物件的Multiline屬性,$也匹配“\n”或“\r”之前的位置。
*匹配前面的子表示式任意次。例如,zo*能匹配“z”,也能匹配“zo”以及“zoo”。
+匹配前面的子表示式一次或多次(大於等於1次)。例如,“zo+”能匹配“zo”以及“zoo”,但不能匹配“z”。+等價於{1,}。
?匹配前面的子表示式零次或一次。例如,“do(es)?”可以匹配“do”或“does”中的“do”。?等價於{0,1}。
{n}n是一個非負整數。匹配確定的n次。例如,“o{2}”不能匹配“Bob”中的“o”,但是能匹配“food”中的兩個o。
{n,}n是一個非負整數。至少匹配n次。例如,“o{2,}”不能匹配“Bob”中的“o”,但能匹配“foooood”中的所有o。“o{1,}”等價於“o+”。“o{0,}”則等價於“o*”。
{n,m}m和n均為非負整數,其中n<=m。最少匹配n次且最多匹配m次。例如,“o{1,3}”將匹配“fooooood”中的前三個o。“o{0,1}”等價於“o?”。請注意在逗號和兩個數之間不能有空格。
?當該字元緊跟在任何一個其他限制符(*,+,?,{n},{n,},{n,m})後面時,匹配模式是非貪婪的。非貪婪模式儘可能少的匹配所搜尋的字串,而預設的貪婪模式則儘可能多的匹配所搜尋的字串。例如,對於字串“oooo”,“o+?”將匹配單個“o”,而“o+”將匹配所有“o”。
.點匹配除“\r\n”之外的任何單個字元。要匹配包括“\r\n”在內的任何字元,請使用像“[\s\S]”的模式。
(pattern)匹配pattern並獲取這一匹配。所獲取的匹配可以從產生的Matches集合得到,在VBScript中使用SubMatches集合,在JScript中則使用$0…$9屬性。要匹配圓括號字元,請使用“\(”或“\)”。
(?:pattern)非獲取匹配,匹配pattern但不獲取匹配結果,不進行儲存供以後使用。這在使用或字元“(|)”來組合一個模式的各個部分是很有用。例如“industr(?:y|ies)”就是一個比“industry|industries”更簡略的表示式。
(?=pattern)非獲取匹配,正向肯定預查,在任何匹配pattern的字串開始處匹配查詢字串,該匹配不需要獲取供以後使用。例如,“Windows(?=95|98|NT|2000)”能匹配“Windows2000”中的“Windows”,但不能匹配“Windows3.1”中的“Windows”。預查不消耗字元,也就是說,在一個匹配發生後,在最後一次匹配之後立即開始下一次匹配的搜尋,而不是從包含預查的字元之後開始。
(?!pattern)非獲取匹配,正向否定預查,在任何不匹配pattern的字串開始處匹配查詢字串,該匹配不需要獲取供以後使用。例如“Windows(?!95|98|NT|2000)”能匹配“Windows3.1”中的“Windows”,但不能匹配“Windows2000”中的“Windows”。
(?<=pattern)非獲取匹配,反向肯定預查,與正向肯定預查類似,只是方向相反。例如,“(?<=95|98|NT|2000)Windows”能匹配“2000Windows”中的“Windows”,但不能匹配“3.1Windows”中的“Windows”。
(?<!pattern)非獲取匹配,反向否定預查,與正向否定預查類似,只是方向相反。例如“(?<!95|98|NT|2000)Windows”能匹配“3.1Windows”中的“Windows”,但不能匹配“2000Windows”中的“Windows”。這個地方不正確,有問題此處用或任意一項都不能超過2位,如“(?<!95|98|NT|20)Windows正確,“(?<!95|980|NT|20)Windows 報錯,若是單獨使用則無限制,如(?<!2000)Windows 正確匹配
x|y匹配x或y。例如,“z|food”能匹配“z”或“food”(此處請謹慎)。“(z|f)ood”則匹配“zood”或“food”。
[xyz]字元集合。匹配所包含的任意一個字元。例如,“[abc]”可以匹配“plain”中的“a”。
[^xyz]負值字元集合。匹配未包含的任意字元。例如,“[^abc]”可以匹配“plain”中的“plin”。
[a-z]字元範圍。匹配指定範圍內的任意字元。例如,“[a-z]”可以匹配“a”到“z”範圍內的任意小寫字母字元。注意:只有連字元在字元組內部時,並且出現在兩個字元之間時,才能表示字元的範圍; 如果出字元組的開頭,則只能表示連字元本身.
[^a-z]負值字元範圍。匹配任何不在指定範圍內的任意字元。例如,“[^a-z]”可以匹配任何不在“a”到“z”範圍內的任意字元。
\b匹配一個單詞邊界,也就是指單詞和空格間的位置(即正則表示式的“匹配”有兩種概念,一種是匹配字元,一種是匹配位置,這裡的\b就是匹配位置的)。例如,“er\b”可以匹配“never”中的“er”,但不能匹配“verb”中的“er”。
\B匹配非單詞邊界。“er\B”能匹配“verb”中的“er”,但不能匹配“never”中的“er”。
\cx匹配由x指明的控制字元。例如,\cM匹配一個Control-M或回車符。x的值必須為A-Z或a-z之一。否則,將c視為一個原義的“c”字元。
\d匹配一個數字字元。等價於[0-9]。grep 要加上-P,perl正則支援
\D匹配一個非數字字元。等價於[^0-9]。grep要加上-Pperl正則支援
\f匹配一個換頁符。等價於\x0c和\cL。
\n匹配一個換行符。等價於\x0a和\cJ。
\r匹配一個回車符。等價於\x0d和\cM。
\s匹配任何不可見字元,包括空格、製表符、換頁符等等。等價於[ \f\n\r\t\v]。
\S匹配任何可見字元。等價於[^ \f\n\r\t\v]。
\t匹配一個製表符。等價於\x09和\cI。
\v匹配一個垂直製表符。等價於\x0b和\cK。
\w匹配包括下劃線的任何單詞字元。類似但不等價於“[A-Za-z0-9_]”,這裡的"單詞"字元使用Unicode字符集。
\W匹配任何非單詞字元。等價於“[^A-Za-z0-9_]”。
\xn匹配n,其中n為十六進位制轉義值。十六進位制轉義值必須為確定的兩個數字長。例如,“\x41”匹配“A”。“\x041”則等價於“\x04&1”。正則表示式中可以使用ASCII編碼。
\num匹配num,其中num是一個正整數。對所獲取的匹配的引用。例如,“(.)\1”匹配兩個連續的相同字元。
\n標識一個八進位制轉義值或一個向後引用。如果\n之前至少n個獲取的子表示式,則n為向後引用。否則,如果n為八進位制數字(0-7),則n為一個八進位制轉義值。
\nm標識一個八進位制轉義值或一個向後引用。如果\nm之前至少有nm個獲得子表示式,則nm為向後引用。如果\nm之前至少有n個獲取,則n為一個後跟文字m的向後引用。如果前面的條件都不滿足,若n和m均為八進位制數字(0-7),則\nm將匹配八進位制轉義值nm。
\nml如果n為八進位制數字(0-7),且m和l均為八進位制數字(0-7),則匹配八進位制轉義值nml。
\un匹配n,其中n是一個用四個十六進位制數字表示的Unicode字元。例如,\u00A9匹配版權符號(&copy;)。
\p{P}小寫 p 是 property 的意思,表示 Unicode 屬性,用於 Unicode 正表示式的字首。中括號內的“P”表示Unicode 字符集七個字元屬性之一:標點字元。其他六個屬性:L:字母;M:標記符號(一般不會單獨出現);Z:分隔符(比如空格、換行等);S:符號(比如數學符號、貨幣符號等);N:數字(比如阿拉伯數字、羅馬數字等);C:其他字元。*注:此語法部分語言不支援,例:javascript。
< >匹配詞(word)的開始(<)和結束(>)。例如正則表示式<the>能夠匹配字串"for the wise"中的"the",但是不能匹配字串"otherwise"中的"the"。注意:這個元字元不是所有的軟體都支援的。
( )將( 和 ) 之間的表示式定義為“組”(group),並且將匹配這個表示式的字元儲存到一個臨時區域(一個正則表示式中最多可以儲存9個),它們可以用 \1 到\9 的符號來引用。
|將兩個匹配條件進行邏輯“或”(Or)運算。例如正則表示式(him|her) 匹配"it belongs to him"和"it belongs to her",但是不能匹配"it belongs to them."。注意:這個元字元不是所有的軟體都支援的。
+匹配1或多個正好在它之前的那個字元。例如正則表示式9+匹配9、99、999等。注意:這個元字元不是所有的軟體都支援的。
?匹配0或1個正好在它之前的那個字元。注意:這個元字元不是所有的軟體都支援的。
{i} {i,j}匹配指定數目的字元,這些字元是在它之前的表示式定義的。例如正則表示式A[0-9]{3} 能夠匹配字元"A"後面跟著正好3個數字字元的串,例如A123、A348等,但是不匹配A1234。而正則表示式[0-9]{4,6} 匹配連續的任意4個、5個或者6個數字
(摘自《正則表示式之道》)

————————————————————————————————————————————————————————

一、字元數統計和字元翻譯

nchar這個函式簡單,統計向量中每個元素的字元個數,注意這個函式和length函式的差別:

nchar是向量元素的字元個數,而length是向量長度(向量元素的個數)。其他沒什麼需要說的。

  1. > x <- c("Hellow", "World", "!") 
  2. > nchar(x) 
  3. [1] 6 5 1 
  4. > length(''); nchar('') 
  5. [1] 1 
  6. [1] 0 

另外三個函式用法也很簡單:

  1. > DNA <- "AtGCtttACC" 
  2. > tolower(DNA) 
  3. [1] "atgctttacc" 
  4. > toupper(DNA) 
  5. [1] "ATGCTTTACC" 
  6. > chartr("Tt", "Uu", DNA) 
  7. [1] "AuGCuuuACC" 
  8. > chartr("Tt", "UU", DNA) 
  9. [1] "AUGCUUUACC" 

————————————————————————————————————————————————————————

二、字串連線

paste應該是R中最常用字串函數了,也是R字串處理函式裡面非常純的不使用正則表示式的函式(因為用不著)。它相當於其他語言的strjoin,但是功能更強大。它把向量連成字串向量,其他型別的資料會轉成向量,但不一定是你要的結果:

  1. > paste("CK", 1:6, sep=""
  2. [1] "CK1" "CK2" "CK3" "CK4" "CK5" "CK6" 
  3. > x <- list(a="aaa"b="bbb"c="ccc"
  4. > y <- list(d=1e=2
  5. > paste(x, y, sep="-")     #較短的向量被迴圈使用 
  6. [1] "aaa-1" "bbb-2" "ccc-1" 
  7. > z <- list(x,y) 
  8. > paste("T", z, sep=":")   #這樣的結果不知合不合用 
  9. [1] "T:list(a = \"aaa\", b = \"bbb\", c = \"ccc\")" 
  10. [2] "T:list(d = 1e = 2)" 

短向量重複使用,列表資料只有一級列表能有好的表現,能不能用看自己需要。會得到什麼樣的結果是可以預知的,用as.character函式看吧,這又是一個字串處理函式:

  1. > as.character(x) 
  2. [1] "aaa" "bbb" "ccc" 
  3. > as.character(z) 
  4. [1] "list(a = \"aaa\", b = \"bbb\", c = \"ccc\")" 
  5. [2] "list(d = 1e = 2)"  

paste函式還有一個用法,設定collapse引數,連成一個字串:

  1. > paste(x, y, sep="-"collapse='; '
  2. [1] "aaa-1; bbb-2; ccc-1" 
  3. > paste(x, collapse='; '
  4. [1] "aaa; bbb; ccc" 

————————————————————————————————————————————————————————

三、字串拆分

strsplit函式使用正則表示式,使用格式為:strsplit(x, split, fixed = FALSE, perl = FALSE, useBytes = FALSE)

引數x為字串向量,每個元素都將單獨進行拆分。

引數split為拆分位置的字串向量,預設為正則表示式匹配(fixed=FALSE)。如果你沒接觸過正則表示式,設定fixed=TRUE,表示使用普通文字匹配或正則表示式的精確匹配。普通文字的運算速度快。

perl=TRUE/FALSE的設定和perl語言版本有關,如果正則表示式很長,正確設定表示式並且使用perl=TRUE可以提高運算速度。

引數useBytes設定是否逐個位元組進行匹配,預設為FALSE,即按字元而不是位元組進行匹配。

下面的例子把一句話按空格拆分為單詞:

> text <- "Hello Adam!\nHello Ava!"

> strsplit(text, ' ')

[[1]]

[1] "Hello"        "Adam!\nHello" "Ava!"     

       

R語言的字串事實上也是正則表示式,上面文字中的\n在圖形輸出中是被解釋為換行符的。     

> strsplit(text, '\\s')

[[1]]

[1] "Hello" "Adam!" "Hello" "Ava!"  


strsplit得到的結果是列表,後面要怎麼處理就得看情況而定了:

> class(strsplit(text, '\\s'))

[1] "list"


有一種情況很特殊:如果split引數的字元長度為0,得到的結果就是一個個的字元:

> strsplit(text, '')

[[1]]

[1] "H"  "e"  "l"  "l"  "o"  " "  "A"  "d"  "a"  "m"  "!"  "\n" "H"  "e"  "l"  "l" 

[17] "o"  " "  "A"  "v"  "a"  "!" 


從這裡也可以看到R把 \n 是當成一個字元來處理的。

————————————————————————————————————————————————————————

四、字串查詢:

1、grep和grepl函式:

這兩個函式返回向量水平的匹配結果,不涉及匹配字串的詳細位置資訊。

  1. grep(pattern, x, ignore.case = FALSEperl = FALSEvalue = FALSE
  2.      fixed = FALSEuseBytes = FALSEinvert = FALSE
  3. grepl(pattern, x, ignore.case = FALSEperl = FALSE
  4.       fixed = FALSEuseBytes = FALSE

雖然引數看起差不多,但是返回的結果不一樣。下來例子列出C:\windows目錄下的所有檔案,然後用grep和grepl查詢exe檔案:

  1. > files <- list.files("c:/windows") 
  2. > grep("\\.exe$", files) 
  3.  [1]   8  28  30  35  36  57  68  98  99 101 110 111 114 116 
  4. > grepl("\\.exe$", files) 
  5.   [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE  TRUE FALSE FALSE FALSE FALSE FALSE 
  6.  [14] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
  7. #...... 

grep僅返回匹配項的下標,而grepl返回所有的查詢結果,並用邏輯向量表示有沒有找到匹配。兩者的結果用於提取資料子集的結果都一樣:

  1. > files[grep("\\.exe$", files)] 
  2.  [1] "bfsvc.exe"      "explorer.exe"   "fveupdate.exe"  "HelpPane.exe"   
  3.  [5] "hh.exe"         "notepad.exe"    "regedit.exe"    "twunk_16.exe"   
  4.  [9] "twunk_32.exe"   "uninst.exe"     "winhelp.exe"    "winhlp32.exe"   
  5. [13] "write.exe"      "xinstaller.exe" 
  6. > files[grepl("\\.exe$", files)] 
  7.  [1] "bfsvc.exe"      "explorer.exe"   "fveupdate.exe"  "HelpPane.exe"   
  8.  [5] "hh.exe"         "notepad.exe"    "regedit.exe"    "twunk_16.exe"   
  9.  [9] "twunk_32.exe"   "uninst.exe"     "winhelp.exe"    "winhlp32.exe"   
  10. [13] "write.exe"      "xinstaller.exe" 

2、regexpr、gregexpr和regexec

這三個函式返回的結果包含了匹配的具體位置和字串長度資訊,可以用於字串的提取操作。

  1. > text <- c("Hellow, Adam!", "Hi, Adam!", "How are you, Adam.") 
  2. > regexpr("Adam", text) 
  3. [1]  9  5 14 
  4. attr(,"match.length") 
  5. [1] 4 4 4 
  6. attr(,"useBytes") 
  7. [1] TRUE 
  8. > gregexpr("Adam", text) 
  9. [[1]] 
  10. [1] 9 
  11. attr(,"match.length") 
  12. [1] 4 
  13. attr(,"useBytes") 
  14. [1] TRUE 
  15. [[2]] 
  16. [1] 5 
  17. attr(,"match.length") 
  18. [1] 4 
  19. attr(,"useBytes") 
  20. [1] TRUE 
  21. [[3]] 
  22. [1] 14 
  23. attr(,"match.length") 
  24. [1] 4 
  25. attr(,"useBytes") 
  26. [1] TRUE 
  27. > regexec("Adam", text) 
  28. [[1]] 
  29. [1] 9 
  30. attr(,"match.length") 
  31. [1] 4 
  32. [[2]] 
  33. [1] 5 
  34. attr(,"match.length") 
  35. [1] 4 
  36. [[3]] 
  37. [1] 14 
  38. attr(,"match.length") 
  39. [1] 4 

五、字串替換

雖然sub和gsub是用於字串替換的函式,但嚴格地說R語言沒有字串替換的函式,因為R語言不管什麼操作對引數都是傳值不傳址。

  1. > text 
  2. [1] "Hello Adam!\nHello Ava!" 
  3. > sub(pattern="Adam"replacement="world", text) 
  4. [1] "Hello world!\nHello Ava!" 
  5. > text 
  6. [1] "Hello Adam!\nHello Ava!" 

可以看到:雖然說是“替換”,但原字串並沒有改變,要改變原變數我們只能通過再賦值的方式。

sub和gsub的區別是前者只做一次替換(不管有幾次匹配),而gsub把滿足條件的匹配都做替換:

  1. > sub(pattern="Adam|Ava"replacement="world", text) 
  2. [1] "Hello world!\nHello Ava!" 
  3. > gsub(pattern="Adam|Ava"replacement="world", text) 
  4. [1] "Hello world!\nHello world!" 

sub和gsub函式可以使用提取表示式(轉義字元+數字)讓部分變成全部:

> sub(pattern=".*(Adam).*", replacement="\\1", text)

[1] "Adam"

六、字串提取

substr和substring函式通過位置進行字串拆分或提取,它們本身並不使用正則表示式,但是結合正則表示式函式regexpr、gregexpr或regexec使用可以非常方便地從大量文字中提取所需資訊。兩者的引數設定基本相同:

  1. substr(x, start, stop) 
  2. substring(text, first, last = 1000000L

第 1個引數均為要拆分的字串向量,第2個引數為擷取的起始位置向量,第3個引數為擷取字串的終止位置向量。但它們的返回值的長度(個數)有差 別:substr返回的字串個數等於第一個引數的長度;而substring返回字串個數等於三個引數中最長向量長度,短向量迴圈使用。先看第1引數(要 拆分的字元向量)長度為1例子:

  1. > x <- "123456789" 
  2. > substr(x, c(2,4), c(4,5,8))