1. 程式人生 > >第二周_文本處理

第二周_文本處理

-a 字母數 單詞數 mit grep sort 開頭 第二周 成功

簡單文本處理工具:
cut -d分隔符 -f字段數(格式可以 # #,#... #-# #,#-#) -c 安字符切割 --output-dellimiter=STRING指定輸出分隔符
wc 文本統計 默認統計行數 字數 字節數 -l只計行數 -w只計單詞數 -c只計字節數 -m只計字符數 -L顯示文件中最長行的長度
sort 排序 -n 按數字大小升序排序 -f忽略字符串大小寫 -u刪除重復行 -t STR指定分隔符 -k指定字段 tk組合使用
uniq -c顯示每行重復出現的次數 -d僅顯示重復過的行 -u僅顯示不重復的行
grep -v取反 -i忽略大小寫 -n顯示匹配的行號 -c統計匹配的行數 -o僅顯示匹配到的字符串 -q不輸出任何信息($?可以顯示命令是否執行成功 0為成功 非0為失敗) -A#前#行 -B#後#行 -C#前後各#行 -e 或(grep -e PATTERN -e PATTERN file) -w匹配整個單詞

正則表達式:
單詞 連續的字母數字下劃線
字符匹配:
. 任意單個字符
[STRING] 範圍內任意單個字符
[^STRING] 範圍內外任意單個字符

匹配次數:

  • 匹配前字符任意次 0-任意次
    .
    任意長度字符
    \? 匹配前字符0-1次 懶惰模式
    + 匹配\前字符至少一次
    {n} 匹配n次
    {n,m} 匹配n到m次

位置錨定:
^ 行首錨定 "^PATTERN"以字符串開頭的行
$ 行尾錨定 "PATTERN"以字符串結尾的行
\<或\b 詞首錨定 "\<PATTERN"以字符串開頭的單詞
\>或\b 詞尾錨定 "PATTERN\>"以字符串結尾的單詞

\<PATTERN\> 匹配整個單詞

第二周_文本處理