1. 程式人生 > >大資料基礎之詞頻統計Word Count

大資料基礎之詞頻統計Word Count

對檔案進行詞頻統計,是一個大資料領域的hello word級別的應用,來看下實現有多簡單:

1 Linux單機處理

egrep -o "\b[[:alpha:]]+\b" test_word.log|sort|uniq -c|sort -rn|head -10

2 Spark分散式處理(Scala)

val sparkConf = new SparkConf()
val sc = new SparkContext(sparkConf)
sc.textFile("test_word.log").flatMap(_.split("\\s+")).map((_, 1)).reduceByKey(_ + _).sortBy(_._2, false
).take(10).foreach(println)

 

測試檔案test_word.log內容如下:

hello world
hello www

輸出如下:

2 hello
1 world
1 barney