第十二次作業

阿新 • • 發佈：2018-11-30

limit ray dict isa pst 一行讀數 select 代碼

樸素貝葉斯應用：垃圾郵件分類

代碼：

import csv
# 讀數據
file_path = r‘EmailData.txt‘
EmailData = open(file_path,‘r‘,encoding=‘utf-8‘)
Email_data = []
Email_target = []
csv_reader = csv.reader(EmailData,delimiter=‘\t‘)
# 將數據分別存入數據列表和目標分類列表
for line in csv_reader:
    Email_data.append(line[1])
    Email_target.append(line[0])
EmailData.close()

 
# 把無意義的符號都替換成空格
Email_data_clear = []
for line in Email_data:
    # line :‘Go until jurong point, crazy.. Available only in bugis n great world la e buffet...‘
    # 每一行都去掉無意義符號並按空格分詞
    for char in line:
        if char.isalpha() is False:
            # 不是字母，發生替換操作:
            newString = line.replace(char," 
 ")
    tempList = newString.split(" ")
    # 將處理好後的一行數據追加到存放幹凈數據的列表
    Email_data_clear.append(tempList)

# 去掉長度不大於3的詞和沒有語義的詞
Email_data_clear2 = []
for line in Email_data_clear:
    tempList = []
    for word in line:
        if word != ‘‘ and len(word) > 3 and word.isalpha():
            tempList.append(word)
    tempString  
= ‘ ‘.join(tempList)
    Email_data_clear2.append(tempString)
Email_data_clear = Email_data_clear2

# 將數據分為訓練集和測試集
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(Email_data_clear2,Email_target,test_size=0.3,random_state=0,stratify=Email_target)

# 建立數據的特征向量
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer()
X_train = tfidf.fit_transform(x_train)
X_test = tfidf.transform(x_test)

# 觀察向量
import numpy as np
X_train = X_train.toarray()
X_test = X_test.toarray()
X_train.shape
# 輸出不為0的列
for i in range(X_train.shape[0]):
    for j in range(X_train.shape[1]):
        if X_train[i][j] != 0:
            print(i,j,X_train[i][j])

# 建立模型
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()
module = gnb.fit(X_train,y_train)
y_predict = module.predict(X_test)

# 輸出模型分類的各個指標
from sklearn.metrics import classification_report
cr = classification_report(y_predict,y_test)
print(cr)

截圖：

清洗後的數據：

技術分享圖片

特征向量：

技術分享圖片

模型指標：

技術分享圖片

第十二次作業

第十二次作業——每周例行報告

學習java image 時間 att 文件的 ble top nbsp 折線 PSP C類別 C內容 S開始時間 E結束時間 I時間間隔 T凈時間會議會議 12月1日11時35分 12月1日12時10分 0分 3

0717 第十二次作業

判斷 vat 機制連接 oid 成員垃圾回收機制 ket setname 一、選擇題1. C2. B3. C4. AC5. AB6. BD7. AC8. BC 二、判斷題1. T2. F3. T4. T5. T6. F7. T8. T9. F10. T11. F 三、簡

第十二次作業

limit ray dict isa pst 一行讀數 select 代碼樸素貝葉斯應用：垃圾郵件分類代碼： import csv # 讀數據 file_path = r‘EmailData.txt‘ EmailData = open(file_path,‘r‘

第十二次作業——樸素貝葉斯應用：垃圾郵件分類

text = "Everybody knows waste paper and used coke cans are discarded everywhere. You might have seen plastic bags flying in the sky and getting caught i

第十二次作業——基於波士頓資料集的迴歸模型與房價預測0.0

任務：匯入boston房價資料集一元線性迴歸模型，建立一個變數與房價之間的預測模型，並圖形化顯示。多元線性迴歸模型，建立13個變數與房價之間的預測模型，並檢測模型好壞，並圖形化顯示檢查結果。一元多項式迴歸模

第十二次OO作業

很好 left IE center ali 缺少 contains 良好的行數　　隨著第四次出租車作業的結束，整個OO課程最艱難的工程部分就宣告結束了，頭發總算是保住了。首先感謝各位測我的dalao沒有對本菜雞兒的代碼大開殺戒（諸如報20個JSF錯之類的），這還是讓我挺

python第六十八天--第十二周作業

結構圖 log 屬於登陸 com 自己的 img 一個事情主題：需求：用戶角色，講師＼學員，用戶登陸後根據角色不同，能做的事情不同，分別如下講師視圖　　管理班級，可創建班級，根據學員qq號把學員加入班級　　可創建指定班級的上課紀錄，註意一節上課紀錄對應多條學員的

【第四組】第十二次沖刺會議報告

commit 執行完成技術文檔整體 alt 點擊轉換導入張：做了：美化初始化界面，解決文件沖突　　困難：嵌入js的時候傳的是string[]，但是只執行string[0]　　規劃：多個點的連接（動態添加point），點擊標簽跳轉，導入圖片，顯示界面孔：做了：細

【第一組】第十二次沖刺例會紀要

磁貼什麽 bsp 做了李白二次昨天 png ges 開發小組：Neu Old Driver 沖刺經理：何圖小組成員：李白洋、王彬宇、李恒雨、黃文睿、安迪 1、昨天做了什麽黃文睿：調整界面，重新整理代碼李白洋：、完成空教室查詢頁面何圖：完成教師評價頁面

11.13 第十二次、

person style sco 技術分享 nbsp set over bstr [] package GJS; public abstract class Person { private String name; private int age;

Thunder-Beta發布-事後諸葛亮會議-2017秋-軟件工程第十一次作業

個人條件重要功能交付在線閱讀屬於場景事情 you 小組名稱：Thunder項目名稱：愛閱APP小組成員：王航李傳康翟宇豪鄒雙黛苗威宋雨胡佑蓉楊梓瑞一、設想和目標　　1、我們的軟件要解決什麽問題?是否定義得很清楚?是否對典型用戶和典型場景有清晰的描

2017年軟件工程第十一次作業-每周例行報告

一次表格 ble 技術 height 用戶 row image rowspan 1.PSP表格 C（類別） C（內容） ST（開始時間) ET（結束時間） INT（間隔時間） Δ（凈時間）事後諸葛亮會議對β發布進行總結 2017.11.29 18：

第十一次作業——每周例行報告

cnblogs 代碼行數 family http span 文件的 body 會議字數 PSP C類別 C內容 S開始時間 E結束時間 I時間間隔 T凈時間會議諸葛亮會議 11月24日17時 11月24日17時30分

軟件工程第十一次作業——例行報告

修改 body border 分類圖片整理工程 ges 工作一、本周PSP，類型、任務、開始時間、結束時間、中斷時間，delta時間。要求開始和結束時間包括日期。類型任務開始時間結束時間中斷時間實際用時事後諸葛

201621123042《java程序設計》第十一次作業

forkjoin get 結束 lambda表達式 3.2 net 交流作業所有 1. 本周學習總結 1.1 以你喜歡的方式（思維導圖或其他）歸納總結多線程相關內容。 2. 書面作業本次PTA作業題集多線程 1. 源代碼閱讀：多線程程序BounceThread 1.

Java第十二周作業

相關同步 mark 很快對象鎖文件通信同步代碼塊成了 1.本周學習總結 1.1以你喜歡的方式（思維導圖或其他）歸納總結集合相關內容。 1.1.1 請解釋Thread類和Runnable接口實現多線程的區別 Thread類繼承於Runnable接口，是Runn

第十二次ScrumMeeting博客

更新每日 class ima href enter ges 人的文檔第十二次ScrumMeeting博客本次會議於11月30日（四）22時整在3公寓725房間召開，持續35分鐘。與會人員：劉暢、辛德泰、張安瀾、趙奕、方科棟。 1. 每個人的工作（有Issue的內容

17 李騰飛第十一次作業

com alt mage es2017 img class 分享圖片技術分享 src 17 李騰飛第十一次作業

2017-2018-1 20179215《Linux內核原理與分析》第十二周作業

繼續解壓判斷語句 cti 數據信息接下來分組後臺數據庫就是 Sql註入基礎原理介紹分組：和20179205王雅哲共同完成實驗一、實驗說明 1.1 sql註入 ?SQL註入攻擊通過構建特殊的輸入作為參數傳入Web應用程序，而這些輸入大都是SQL語法裏的一些組合

20179203 《Linux內核原理與分析》第十二周作業

系統管理 ash 數據讀取用戶控制 tar 初始設置可執行 uid time Return-to-libc 攻擊實驗一、實驗描述緩沖區溢出的常用攻擊方法是用 shellcode 的地址來覆蓋漏洞程序的返回地址，使得漏洞程序去執行存放在棧中 shellcode。為了

第十二次作業

樸素貝葉斯應用：垃圾郵件分類

相關推薦