1. 程式人生 > >樸素貝葉斯演算法原理及Scala實現

樸素貝葉斯演算法原理及Scala實現

樸素貝葉斯分類器基於一個簡單的假定:給定目標值時屬性之間相互條件獨立。
P( Category | Document) = P ( Document | Category ) * P( Category) / P(Document)
更多學習其理論可以參看:http://wenku.baidu.com/link?url=Hu9YryuNlmH-bZcU_dcKYDOsOKU8Wm3ysTVsTI76ZZLynjUWnVmL_XuJdvRkiM7DH3e5Ec8h9gpCUy-d7576NI3TuaAOtZ58DGlTvzwXk27
程式碼編寫思想:
兩層迴圈一層迴圈實列,第二層迴圈每一個實列的屬性對其進行操作。
具體案列:
一個人買電腦的預測,假定影響一個買電腦的影響因素有兩個他的身份,還有收入。
樣本資料:
by:買電腦,bn:不買,sty:表示學生,stn:非學生,inh:收入高
inl:收入低
1,by sty inh
2,by sty inh
3,bn sty inl
4,by stn inh
5,bn stn inh
6,by stn inh
7,bn stn inl
8,bn stn inl
9,by stn inl

Scala程式碼:

    import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.{SparkContext, SparkConf}

/**
 * Created by Administrator on 2016/7/19.
 */
object MyNaiveBayes {
  def main(args: Array[String]) {
    val conf =new SparkConf().setAppName("WordCount").setMaster("local");
    val sc = new SparkContext(conf)
    val data = sc.textFile("file///F:/1/buycomputer.txt")
    val feature=data.map(_.split(","))
    val feature1=feature.toArray()
    var sty : Float = 0
    var by : Float=0
    var ihy: Float=0

    var ihn:Float=0
    var stn:Float=0
    var bn:Float=0
    for(j <- 0 to feature1.length-1){
      var flags:Boolean=false
      var flag:Boolean=false
      var flagsn:Boolean=false
      var flagn:Boolean=false
      val feature2=feature1(j)
      //println("--------------"+feature2(1))//.toString.split(" ").toList(0)+"==========")
      val feature3=feature2(1).toString.split(" ").toList
      for(i <-0 to feature3.length-1){
        if(feature3(i).equals("by")){
          by+=1
          flags=true
          flag=true
        }
        if(feature3(i).equals("sty")&& flags){
          sty+=1
          flags=false
        }
        if(feature3(i).equals("inh") && flag){
          ihy=ihy+1
          flag=false
        }
        if(feature3(i).equals("bn")){
          bn+=1
          flagsn=true
          flagn=true
        }
        if(feature3(i).equals("inh") && flagn){
          ihn=ihn+1
          flagn=false
        }
        if(feature3(i).equals("sty") && flagsn){
          stn=stn+1
          flagsn=false
        }

      }
    }

   var allby : Float=by/(feature1.length).toFloat
    var sby :Float=sty/by
    var iny: Float=ihy/by
    var py:Float=allby*sby*iny


  var allbn:Float=bn/(feature1.length).toFloat
    var sbn:Float=stn/bn
    var inn:Float=ihn/by
    var pn:Float=allbn*sbn*inn

  if(py>pn){
    println("通過該樣本分析會購買電腦!!!!")
  }else{
    println("通過該樣本分析不會購買電腦!!!!")
  }


  }
}