如何高效地做到大文字去除重複行

阿新 • • 發佈：2019-02-13

如果只是去重，用sort的效率很低（指的是上千萬行的量級），因為做了額外操作，因為你只是要去重，而不是排序

用awk陣列來實現很簡單很快，利用了awk陣列是hashtable實現的特性。記憶體佔用和去重後（注意是去重後)的行數（注意是行數，而不是你的文字內容）成正比。

cat 一堆檔案 | awk '{ if (!seen[$0]++) { print $0; } }'

來個實際的測試結果吧，取100w 不重複的URL，簡單複製一份，形成一個200w行的檔案（請原諒我不能拿幾億的數量做測試，因為sort實在太慢了，上面說可以接受的肯定是沒有測試過。。）

$ wc -l 200w
2000000 200w
$ tail -1 200w
http://photo.blog.sina.com.cn/photo/511c583f448cc39a9cb5c

$ time cat 200w | sort | uniq > sort_uniq
cat 200w 0.01s user 0.08s system 0% cpu 21.844 total
sort 35.13s user 0.24s system 76% cpu 46.279 total
uniq > sort_uniq 21.43s user 0.17s system 46% cpu 46.278 total

sort && uniq 耗時 46s，並且會打滿一個CPU核

$ time cat 200w | sort -u > sort_u
cat 200w 0.01s user 0.08s system 0% cpu 24.806 total
sort -u > sort_u 47.56s user 0.31s system 99% cpu 48.002 total

** sort -u 耗時48s，差不多吧 **

$ time cat 200w | awk '{ if (!seen[$0]++) { print $0; } }' > awk
cat 200w 0.01s user 0.08s system 3% cpu 3.144 total
awk '{ if (!seen[$0]++) { print $0; } }' > awk 2.83s user 0.23s system 96% cpu 3.158 total

awk 方法耗時3s , 而且最重要的awk方法的時間複雜度是O(n)， sort是O(nlogn)，200w就差這麼大，2000w呢，2億麼，可想而知
轉自：http://segmentfault.com/q/1010000000445384

如何高效地做到大文字去除重複行

如何高效地做到大文字去除重複行

pandas 去除重複行

uniq 去除重複行或統計

通過cmd命令讀取大文字檔案的行數

【shell】awk按域去除重複行

python對txt文件內容去除重複行

去除重複行或列的一些sql語句

notepad++ 去除重複行

perl去除重複行和排序

NPP++去除文字中的重複行

大神教你如果學習Python爬蟲如何才能高效地爬取海量數據

C# DataTable 去某幾個欄位相等的重複行，給入需要做疊加的欄位名做數值疊加

文字自適應,超出最大寬度自動換行

如何通過Scrapy簡單高效地部署和監控分散式爬蟲專案！這才是大牛

PYthon 從numpy陣列去除重複元素，行或列

MATLAB中去除重複的行

mysql servlet呼叫插入帶有格式的大文字換行符無效的問題

Python----使用正則re查詢文字中特定中文字串,去除重複的資料，取有某個特定字串的前幾位與後幾位數據（適應web回包查詢）

Java 大文字多執行緒高效讀取

去除DataTable中的重複行

如何高效地做到大文字去除重複行

相關推薦