掌握Spark機器學習庫-06-基礎統計部分
阿新 • • 發佈:2018-12-16
說明
本章主要講解基礎統計部分,包括基本統計、假設檢驗、相關係數等
資料集
資料集有兩個檔案,分別是:
- beijing.txt 北京歷年降水量,不帶年份
- beijing2.txt 北京歷年降水量,帶年份
原始碼
原始碼比較少,故在此給出:
基礎統計
val txt = sc.textFile("beijing.txt")
val data = txt.flatMap(_.split(",")).map(value => Vectors.dense(value.toDouble))
Statistics.colStats(data)
一致性
val txt = sc.textFile("beijing2.txt") val data = txt.flatMap(_.split(",")).map(_.toDouble) val years = data.filter(_>1000) val values = data.filter(_<=1000) Statistics.corr(years,values)
假設檢驗
男,女
右利手 127,147
左利手 19,10
Statistics.chiTest(Matrices.dense(2,2,Array(127,19,147,10)))