樸素貝葉斯演算法原理及Scala實現
阿新 • • 發佈:2019-01-08
樸素貝葉斯分類器基於一個簡單的假定:給定目標值時屬性之間相互條件獨立。
P( Category | Document) = P ( Document | Category ) * P( Category) / P(Document)
更多學習其理論可以參看:http://wenku.baidu.com/link?url=Hu9YryuNlmH-bZcU_dcKYDOsOKU8Wm3ysTVsTI76ZZLynjUWnVmL_XuJdvRkiM7DH3e5Ec8h9gpCUy-d7576NI3TuaAOtZ58DGlTvzwXk27
程式碼編寫思想:
兩層迴圈一層迴圈實列,第二層迴圈每一個實列的屬性對其進行操作。
具體案列:
一個人買電腦的預測,假定影響一個買電腦的影響因素有兩個他的身份,還有收入。
樣本資料:
by:買電腦,bn:不買,sty:表示學生,stn:非學生,inh:收入高
inl:收入低
1,by sty inh
2,by sty inh
3,bn sty inl
4,by stn inh
5,bn stn inh
6,by stn inh
7,bn stn inl
8,bn stn inl
9,by stn inl
Scala程式碼: import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.regression.LabeledPoint import org.apache.spark.{SparkContext, SparkConf} /** * Created by Administrator on 2016/7/19. */ object MyNaiveBayes { def main(args: Array[String]) { val conf =new SparkConf().setAppName("WordCount").setMaster("local"); val sc = new SparkContext(conf) val data = sc.textFile("file///F:/1/buycomputer.txt") val feature=data.map(_.split(",")) val feature1=feature.toArray() var sty : Float = 0 var by : Float=0 var ihy: Float=0 var ihn:Float=0 var stn:Float=0 var bn:Float=0 for(j <- 0 to feature1.length-1){ var flags:Boolean=false var flag:Boolean=false var flagsn:Boolean=false var flagn:Boolean=false val feature2=feature1(j) //println("--------------"+feature2(1))//.toString.split(" ").toList(0)+"==========") val feature3=feature2(1).toString.split(" ").toList for(i <-0 to feature3.length-1){ if(feature3(i).equals("by")){ by+=1 flags=true flag=true } if(feature3(i).equals("sty")&& flags){ sty+=1 flags=false } if(feature3(i).equals("inh") && flag){ ihy=ihy+1 flag=false } if(feature3(i).equals("bn")){ bn+=1 flagsn=true flagn=true } if(feature3(i).equals("inh") && flagn){ ihn=ihn+1 flagn=false } if(feature3(i).equals("sty") && flagsn){ stn=stn+1 flagsn=false } } } var allby : Float=by/(feature1.length).toFloat var sby :Float=sty/by var iny: Float=ihy/by var py:Float=allby*sby*iny var allbn:Float=bn/(feature1.length).toFloat var sbn:Float=stn/bn var inn:Float=ihn/by var pn:Float=allbn*sbn*inn if(py>pn){ println("通過該樣本分析會購買電腦!!!!") }else{ println("通過該樣本分析不會購買電腦!!!!") } } }