1. 程式人生 > >python之scikit-learn

python之scikit-learn

官方文件:http://scikit-learn.org/stable/#

input--模型-output

資料分析是為了發現規則

資料分析--資料探勘和機器學習,演算法相同

推薦系統

語音識別--科大訊飛,百度壟斷,比較成熟,自然語言的分支

機器視覺--卷積神經網路,影象識別,圖片搜尋,目標檢測(無人駕駛)

NLP--聊天機器人,機器翻譯,金融,與情分析

自動駕駛

垃圾郵件

自然語言??

監督學習:輸入和輸出之間有一定的關係,模型和標準是可靠的

無監督:聚類,分成幾個類,評估和標準不可靠,有點問題

強化學習:aphago象棋程式

離散型、類別型

每列:特徵(變數)==資料庫的欄位

每行:樣本/樣例

 

訓練集-訓練模型

測試集--評估模型

模型引數的訓練

探索性分析

熱力圖 seaborn模組

幾百萬資料不算大?一般有多少資料?

交叉驗證:多次測試取平均值,基本3-5次

魯棒性:強壯性,抗噪能力

一般將整個資料集分成測試集和訓練集

標準化:去均值和標準差

fit訓練

transform轉化

fit_transform訓練加轉化

score評估:R^2的得分

梯度下降GD,隨機梯度下降SGD,隨機梯度下降用的更多,每一次拿一個樣本,可以跳坑,缺點:造成震盪,迭代次數增加,達不到收斂,一般指小批量的隨機梯度下降mini_batch

收斂:無限接近

rigde優化所化,svd作為引數

 

Move mouse over image