1. 程式人生 > >掌握Spark機器學習庫-06-基礎統計部分

掌握Spark機器學習庫-06-基礎統計部分

說明

本章主要講解基礎統計部分,包括基本統計、假設檢驗、相關係數等

資料集

資料集有兩個檔案,分別是:

  1. beijing.txt 北京歷年降水量,不帶年份
  2. beijing2.txt 北京歷年降水量,帶年份

原始碼

原始碼比較少,故在此給出:

基礎統計

val txt = sc.textFile("beijing.txt")
val data = txt.flatMap(_.split(",")).map(value => Vectors.dense(value.toDouble))
Statistics.colStats(data)

一致性

val txt = sc.textFile("beijing2.txt")
val data = txt.flatMap(_.split(",")).map(_.toDouble)
val years = data.filter(_>1000)
val values = data.filter(_<=1000)
Statistics.corr(years,values)

假設檢驗

        男,女
右利手 127,147
左利手 19,10
Statistics.chiTest(Matrices.dense(2,2,Array(127,19,147,10)))