1. 程式人生 > >第十一次作業——正太(高斯),多項式,伯努利

第十一次作業——正太(高斯),多項式,伯努利

1.使用樸素貝葉斯模型對iris資料集進行花分類

嘗試使用3種不同型別的樸素貝葉斯:

高斯分佈型

多項式型

伯努利型

2.使用sklearn.model_selection.cross_val_score(),對模型進行驗證。

  1. 垃圾郵件分類

資料準備:

用csv讀取郵件資料,分解出郵件類別及郵件內容。
對郵件內容進行預處理:去掉長度小於3的詞,去掉沒有語義的詞等
嘗試使用nltk庫:

pip install nltk

import nltk

nltk.download

不成功:就使用詞頻統計的處理方法

訓練集和測試集資料劃分

from sklearn.model_selection import train_test_split