泰坦尼克號資料探勘專案實戰——Task3 模型構建

阿新 • • 發佈：2019-01-08

參考：【1】https://github.com/AaronJny/simple_titanic

【2】 https://zhuanlan.zhihu.com/p/30538352

經過task 2 ，已經對資料進行了初步分析，特徵選擇，最終留下了12個特徵。接下來將特徵送入分類器中，進行對模型的訓練。

# 匯入庫
from sklearn.svm import SVC
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import AdaBoostClassifier
# 支援向量機
svc = SVC()
# 決策樹
dtc = DecisionTreeClassifier()
# 隨機森林
rfc = RandomForestClassifier()
# 邏輯迴歸
lr = LogisticRegression()
# 貝葉斯
nb = MultinomialNB()
# K鄰近
knn = KNeighborsClassifier()
# AdaBoost
boost = AdaBoostClassifier()

對訓練資料選擇10折交叉驗證，檢視交叉驗證的正確率

print('\n\n\n模型驗證:')
print ('SVM acc is', np.mean(cross_val_score(svc, train_X, target_Y, cv=10)))
print( 'DecisionTree acc is', np.mean(cross_val_score(dtc, train_X, target_Y, cv=10)))
print ('RandomForest acc is', np.mean(cross_val_score(rfc, train_X, target_Y, cv=10)))
print ('LogisticRegression acc is', np.mean(cross_val_score(lr, train_X, target_Y, cv=10)))
print( 'NaiveBayes acc is', np.mean(cross_val_score(nb, train_X, target_Y, cv=10)))
print ('KNN acc is', np.mean(cross_val_score(knn, train_X, target_Y, cv=10)))
print ('AdaBoost acc is', np.mean(cross_val_score(boost, train_X, target_Y, cv=10)))

發現邏輯迴歸的分類效果最好，所以選擇lr進行訓練。隨機森林的也較高，不知道是不是因為特徵選擇那裡用的是隨機森林方法。

 # 訓練
lr.fit(train_X, target_Y)
# 預測
y_predict = lr.predict(test_X)

利用sum函式看有多少人預測存活了下來

y_predict.sum()

得到結果171人。

泰坦尼克號資料探勘專案實戰——Task3 模型構建

參考：【1】https://github.com/AaronJny/simple_titanic 【2】 https://zhuanlan.zhihu.com/p/30538352 經過ta

泰坦尼克號資料探勘專案實戰——Task4 模型構建之整合模型

參考：【1】https://cloud.tencent.com/developer/article/1064013 【2】https://blog.csdn.net/wxq_1993/article/details/85853808 【3】https://blog.csdn

泰坦尼克號資料探勘專案實戰——Task7 模型融合

參考：【1】https://blog.csdn.net/qq_39422642/article/details/78566763 【2】https://blog.csdn.net/u014356002/article/details/54376138 【3】https://blog

泰坦尼克號資料探勘專案實戰——Task6 模型調優

任務6：使用網格搜尋法對5個模型進行調優（調參時採用五折交叉驗證的方式），並進行模型評估。參考：【1】https://blog.csdn.net/qfire/article/details/77601901 【2】https://blog.csdn.net/jasonding1354/

泰坦尼克號資料探勘專案實戰——Task5 模型評估

任務5：記錄5個模型（邏輯迴歸、SVM、決策樹、隨機森林、XGBoost）關於accuracy、precision，recall和F1-score、auc值的評分表格，並畫出ROC曲線。參考：【1】https://www.cnblogs.com/sddai/p/5696870.html

泰坦尼克號資料探勘專案實戰——Task2 特徵工程

參考：【1】https://www.cnblogs.com/wxquare/p/5484636.html 【2】https://blog.csdn.net/weishiym/article/details/79

泰坦尼克號資料探勘專案實戰——Task1 資料分析

參考資料：https://www.bilibili.com/video/av27536643 https://blog.csdn.net/aaronjny/article/details/79735998 https://github.com/AaronJny/simple_titani

利用python對泰坦尼克號資料集進行分析

一、資料來源資料集來自於Kaggle。Kaggle是一個數據分析建模的應用競賽平臺。當然也可以從其它地方下。二、相關工具 2.1 Python 3.5.2 2.2 Anaconda 3 三、牛刀小試 3.1 匯入訓練資料集 import pandas as

【SciKit-Learn學習筆記】4：決策樹擬合泰坦尼克號資料集並提交到Kaggle

學習《scikit-learn機器學習》時的一些實踐。決策樹擬合泰坦尼克號資料集這裡用繪製引數-score曲線的方式去直觀看出模型引數對模型得分的影響，作者使用了GridSearchCV來自動做k-fold交叉驗證，並且能在多組模型引數中找到最優的一組和最優值（用平均s

Python 泰坦尼克號資料分析

匯入模組import numpy as np import pandas as pd %matplotlib inline匯入資料train = pd.read_csv("./train.csv") test = pd.read_csv("./test.csv")檢視資料tr

對泰坦尼克號案例進行資料探勘

1.基本概念對歷史資料的計算，對未來還沒有發生的事情做預測。訓練集：訓練模型測試集：測試模型好壞驗證集：選擇引數（如何通過驗證集來選擇引數？）將歷史資料劃分為以上三個部分。建立模型時如何知道模型的好壞：評估標準評估標準：優化代價函式J（theta）誤差平方和

ML之SVM：基於Js程式碼利用SVM演算法的實現根據Kaggle資料集預測泰坦尼克號生存人員

ML之SVM：基於Js程式碼利用SVM演算法的實現根據Kaggle資料集預測泰坦尼克號生存人員實驗資料設計思路實現程式碼(部分程式碼) /** js程式碼實現SVM演算法 */ //ML之SVM：基於Js程式碼利用SVM演算法的實現根據Kagg

資料分析之泰坦尼克號案例

泰坦尼克號資料處理【1】實驗目錄 1 解釋步驟 2 處理資料 3 資料視覺化 4 修改資料 5 訓練模型【2】實驗步驟 1 解釋步驟 * 識別和定義問題 * 獲取訓練和測試資料 * 質疑，準備，清理資料 * 分析，識別模式並探索

R語言泰坦尼克號隨機森林模型案例資料分析

採取大量單獨不完美的模型，他們的一次性錯誤可能不會由其他人做出。如果我們對所有這些模型的結果進行平均，我們有時可以從它們的組合中找到比任何單個部分更好的模型。這就是整體模型的工作方式，他們培養了許多不同的模型，並讓他們的結果在整個團隊中得到平均或投票。我們現在很清楚決策樹

Kaggle--泰坦尼克號失蹤者生死情況預測原始碼（附Titanic資料集）

資料視覺化分析import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np titanic=pd.read_csv('train.csv') #pri

大資料入門——使用決策樹模型預測泰坦尼克號乘客的生還情況

#資料查驗 import pandas as pd titanic=pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataS

機器學習之路: python 決策樹分類預測泰坦尼克號乘客是否幸存

現象 info n) 指標 ssi 直觀 learn 保持 afr 使用python3 學習了決策樹分類器的api 涉及到特征的提取，數據類型保留，分類類型抽取出來新的類型需要網上下載數據集，我把他們下載到了本地，可以到我的git下載代碼和數據集: https

【金米米】現實版“泰坦尼克號”上演！這一刻竟是永別！

與他進行現實潛水可能重復保持個人也不能北京時間7月5日傍晚6點45分左右，在泰國南部普吉府，兩艘共載有127名中國遊客的遊船在返航普吉島途中，突遇特大暴風雨，分別在珊瑚島和梅通島發生傾覆。截止至9日上午10時已有42人遇難，41名中國遊客，其中有13名中國

泰坦尼克號之災分析

hist analysis 希望 rand 建模 mach 特征工程 queen only 大神經驗： 1、應用機器學習，千萬不要一上來就試圖做到完美，先擼一個baseline的model出來，再進行後續的分析步驟，一步步提高，所謂後續步驟可能包括『分析model現在的狀態

泰坦尼克號生存預測（python）

scores k近鄰 ace gbdt dom png 記錄 inline sse 1 數據探索對數據進行一個整體的理解 1.1 查看數據都有一些什麽特征 import pandas as pd import seaborn as sns %matplotlib inl

泰坦尼克號資料探勘專案實戰——Task3 模型構建

相關推薦