1. 程式人生 > >bash技巧:求集合的交集、並集、差集、對稱差集

bash技巧:求集合的交集、並集、差集、對稱差集

網上轉的,不錯,比使用awk容易點

給定兩個檔案 a.txt 和 b.txt ,每行是一個記錄(假設沒有重複),要求輸出兩集合的交集、並集、差集,輸出的結果只包括唯一項。交集定義為同時出現在兩個檔案中的記錄項,並集定義為出現在任何一個檔案中的記錄項,差集(A-B)定義為出現在A中而且不出現在B中的記錄,對稱差集定義為只出現在一個檔案中的記錄。


假設 a.txt 包括 a, c, b 三行。假設 b.txt 包括 d, e, c, b 四行。

交集,把兩個檔案放到一起排序,只輸出次數多於一次的項:
$ sort a.txt b.txt | uniq -d
b
c

並集,把兩個檔案放到一起排序,重複的項只算一次:

$ sort a.txt b.txt | uniq
a
b
c
d
e

差集(A-B),把B的元素重複2份和A的元素放到一起排序,只輸出出現一次的項:
$ sort a.txt b.txt b.txt | uniq -u
a

對稱差,把兩個檔案放到一起排序,只輸出出現一次的項:
$ sort a.txt b.txt | uniq -u
a
d
e