1. 程式人生 > >機器學習實戰-第一章

機器學習實戰-第一章

機器學習的價值在於發現數據背後的價值,將雜亂的資料轉化為資訊。

因為我們無法建立精確的模型,所以我們要應用統計學。

關鍵術語:

在監督學習中:特徵,目標值,目標值也叫作類別。

無監督學習(我現在對無監督學習的理解就是聚類):聚類,尋找描述資料統計值的過程稱為密度估計。無監督學習可以減少資料特徵的維度。

如何選擇合適的演算法:

1、目的:想要完成什麼工作。(無監督學習情況下,如果想分成離散的組用聚類演算法,如果估計資料與每個分組的相似程度用密度估計演算法)

2、資料:充分了解資料可以減少演算法選擇的時間。

開發機器學習應用程式的步驟:

1、收集資料

2、準備輸入資料

3、分析輸入資料(發現垃圾資料,能用二、三維影象分析最好)

4、訓練演算法

5、測試演算法(問題常常跟資料的收集和準備有關)

自己的理解:

1、問題跟資料的預處理有關,最終跟自己對業務的理解有關?

2、如果演算法結果滿意,想優化演算法,那麼“可以使用其他的機器學習技術來改進其效能“是什麼意思?

3、第九頁說的”最好的演算法“是不是一個演算法經過自己反覆優化?自己還要改動演算法?

python的有點:

1、語法清晰2、易於操作純文字檔案3、使用廣泛,存在大量的開發文件

python的缺點:

效率不如c語言,前期使用python實現,後期更改為c語言(書中提供了方法)。