python之scikit-learn
阿新 • • 發佈:2018-11-19
官方文件:http://scikit-learn.org/stable/#
input--模型-output
資料分析是為了發現規則
資料分析--資料探勘和機器學習,演算法相同
推薦系統
語音識別--科大訊飛,百度壟斷,比較成熟,自然語言的分支
機器視覺--卷積神經網路,影象識別,圖片搜尋,目標檢測(無人駕駛)
NLP--聊天機器人,機器翻譯,金融,與情分析
自動駕駛
垃圾郵件
自然語言??
監督學習:輸入和輸出之間有一定的關係,模型和標準是可靠的
無監督:聚類,分成幾個類,評估和標準不可靠,有點問題
強化學習:aphago象棋程式
離散型、類別型
每列:特徵(變數)==資料庫的欄位
每行:樣本/樣例
訓練集-訓練模型
測試集--評估模型
模型引數的訓練
探索性分析
熱力圖 seaborn模組
幾百萬資料不算大?一般有多少資料?
交叉驗證:多次測試取平均值,基本3-5次
魯棒性:強壯性,抗噪能力
一般將整個資料集分成測試集和訓練集
標準化:去均值和標準差
fit訓練
transform轉化
fit_transform訓練加轉化
score評估:R^2的得分
梯度下降GD,隨機梯度下降SGD,隨機梯度下降用的更多,每一次拿一個樣本,可以跳坑,缺點:造成震盪,迭代次數增加,達不到收斂,一般指小批量的隨機梯度下降mini_batch
收斂:無限接近
rigde優化所化,svd作為引數