TensorFlow工具快速入門教程2機器學習簡介
機器學習介紹
機器學習是一個系統,可以通過自我改進從例項中學習,而不需要程式員明確編碼。機器學習將資料與統計工具相結合以預測輸出。機器學習與資料探勘和貝葉斯預測建模密切相關。機器接收資料作為輸入,使用演算法來制定答案。
典型的機器學習任務是提供推薦。對於擁有Netflix帳戶的使用者,所有電影或系列推薦都基於使用者的歷史資料。科技公司正在使用無監督學習來改善個性化推薦的使用者體驗。
機器學習還用於各種任務,如欺詐檢測,預測維護,投資組合優化,自動化任務等。
機器學習與傳統程式設計
在傳統的程式設計中,程式設計師在與正在開發軟體的行業專家協商時編寫所有規則。每條規則都基於邏輯,機器將按邏輯語句執行輸出。當系統變得複雜時,需要編寫更多規則,很難維護。

圖片.png
機器學習輸入和輸出提煉規則。每當有新資料時,演算法根據新資料和經驗進行調整,以提高效率。

圖片.png
機器學習如何運作?
機器學習的方式與人類相似,從經驗中學習。機器學習的核心目標是學習和推理。首先,機器通過發現模式來學習。這一發現歸功於資料。資料科學家的一個關鍵部分是仔細選擇要為機器提供哪些資料。用於解決問題的屬性列表稱為特徵向量。您可以將特徵向量視為用於解決問題的資料子集。
機器使用一些奇特的演算法來簡化現實並將此發現轉換為模型。因此,學習階段用於描述資料並將其概括為模型。

圖片.png
例如,機器試圖瞭解個人工資與去高檔餐館的可能性之間的關係。事實證明,工資與去高階餐廳之間為正比:這就是模型。
- 推理
構建模型時,可以測試它在以前從未見過的資料上的能力。將新資料轉換為特徵向量,遍歷模型並進行預測。無需更新規則或再次訓練模型。您可以使用先前訓練過的模型來推斷新資料。

圖片.png
機器學習程式的生命週期:
定義問題;收集資料;視覺化資料;訓練演算法;測試演算法;收集反饋;優化演算法;迴圈4-7次直到結果令人滿意;使用模型進行預測
機器學習演算法

圖片.png
機器學習分類:監督和非監督及半監督。
監督學習
有兩種監督學習:
- 分類任務
要預測客戶性別。您將開始從資料庫收集有關身高,體重,工作,工資,採購籃等的資料。您知道每個客戶的性別,它只能是男性或女性。分類器的目的是根據資訊(即您收集的特徵)分配男性或女性(即標籤)的概率。當模型學習如何識別男性或女性時,您可以使用新資料進行預測。例如,您剛收到來自未知客戶的新資訊,並且您想知道它是男性還是女性。如果分類器預測男性= 70%,則意味著演算法確定該客戶是男性的70%,而30%是女性。
標籤可以是兩個或更多個類。上面的例子只有兩個類,但是如果分類器需要預測物件,它有幾十個類(例如,玻璃,桌子,鞋等,每個物件代表一個類)
- 迴歸任務
當輸出是連續值可以用迴歸。例如,金融分析師可能需要根據股票,先前股票表現,巨集觀經濟指數等特徵來預測股票價值。系統將接受訓練,以估算出可能出現最低誤差的股票價格。
演算法 | 描述 | 型別 |
---|---|---|
線性迴歸 | 找到將每個特徵與輸出相關聯的方法 | 迴歸 |
邏輯迴歸 | 線性迴歸的擴充套件。輸出變數只有兩個(例如,僅黑色或白色) | 分類 |
決策樹 | 高度可解釋的分類或迴歸模型,將資料特徵值拆分為決策節點處的分支(例如顏色,每種可能的顏色成為新分支),直到做出最終決策輸出 | 迴歸分類 |
樸素貝葉斯 | 用可影響事件的每個特徵的獨立概率更新事件的先驗知識。 | 迴歸分類 |
支援向量機 | SVM(Support Vector Machine)演算法找到最佳劃分類的超平面。它最適合與非線性求解器一起使用。 | 迴歸(非常見)分類 |
隨機森林 | 基於決策樹之上,可以大大提高準確性。隨機森林生成很多次簡單的決策樹,並使用“多數投票”方法來決定返回哪個標籤。對於分類任務,最終預測將是投票最多的;而對於迴歸任務,所有樹的平均預測是最終預測。 | 迴歸分類 |
AdaBoost | 分類或迴歸技術,使用多種模型做出決策,但根據其預測結果的準確性對其進行權衡。 | 迴歸分類 |
梯度增強樹 | 先進的分類/迴歸技術。它專注於先前樹所犯的錯誤並嘗試糾正它。 | 迴歸分類 |
非監督學習
演算法探索輸入資料而不給出明確的輸出(例如,探索客戶人口統計資料以識別模式)
當您不知道如何對資料進行分類時,您可以使用它,並且您希望演算法找到模式併為您分類資料
演算法 | 描述 | 型別 |
---|
K均值聚類 |將資料放入某些組 (k),每組包含具有相似特徵的資料(由模型確定,而不是由人類預先確定) |聚類
高斯混合模型 |k-means聚類的泛化,為組(簇)的大小和形狀提供了更大的靈活性 |聚類
分層聚類 |沿分層樹拆分群集以形成分類系統。可用於群集會員卡客戶 |聚類
推薦系統 |幫助定義相關資料 |聚類
PCA / T-SNE |主要用於降低資料的維度。演算法將特徵數量減少到3或4個具有最高方差的向量。 |尺寸減小
如何選擇機器學習演算法
有很多機器學習演算法。演算法的選擇基於目標

圖片.png
在下面的例子中,任務是預測三個品種中的花的型別。預測基於花瓣的長度和寬度。圖片描繪了十種不同演算法的結果。左上角的圖片是資料集。資料分為三類:紅色,淺藍色和深藍色。有一些分組。例如,從第二張影象開始,左上角的所有內容都屬於紅色類別,中間部分則是不確定性和淡藍色的混合,而底部則對應於深色類別。其他影象顯示了不同的演算法以及它們如何嘗試對資料進行分類。
機器學習的挑戰與侷限
機器學習的主要挑戰是缺乏資料或資料集的密度。建議每組至少觀察20次,以幫助機器學習。這種約束導致評估和預測不良。
機器學習的應用
- 增強:
幫助人們完成日常任務,無論是個人還是商業,都無需完全控制輸出。機器學習以不同的方式使用,例如虛擬助手,資料分析,軟體解決方案。主要使用者是減少由於人為偏見造成的錯誤。
- 自動化:
機器學習可在任何領域完全自主工作,無需任何人為干預。例如,機器人在製造工廠中執行基本工藝步驟。
- 金融業
機器學習在金融業中越來越受歡迎。銀行主要使用ML來查詢資料中的模式,同時也防止欺詐。
- 政府組織
政府利用ML來管理公共安全和公用事業。以中國為例,面對大規模的人臉。政府使用人工智慧來防止中國式過馬路。
- 醫療行業
醫療保健是第一個使用機器學習和影象檢測的行業之一。
- 營銷
在海量資料時代之前,研究人員開發了貝葉斯分析等高階數學工具來估算客戶的價值。隨著資料的蓬勃發展,營銷部門依靠AI來優化客戶關係和營銷活動。
機器學習在供應鏈中的應用例項
機器學習為視覺模式識別提供了極好的結果,為整個供應鏈網路中的物理檢查和維護開闢了許多潛在的應用。
無監督學習可以快速搜尋不同資料集中的可比模式。反過來,機器可以在整個物流中心進行質量檢查,運輸時有損壞和磨損。
例如,IBM的Watson平臺可以確定運輸容器損壞。 Watson將基於視覺和系統的資料結合起來,實時跟蹤,報告和提出建議。
在過去一年中,倉庫經理廣泛依賴於評估和預測庫存的主要方法。在結合大資料和機器學習時,已經實施了更好的預測技術(比傳統預測工具提高了20%到30%)。就銷售而言,這意味著由於庫存成本可能降低而增加2%至3%。
機器學習谷歌汽車的例子
Google汽車車頂上裝滿了鐳射,告訴它周圍區域的位置。它前面有雷達,可以通知汽車周圍所有車輛的速度和運動。它利用所有這些資料不僅弄清楚如何駕駛汽車,而且還要弄清楚並預測汽車周圍的潛在駕駛員將會做些什麼。令人印象深刻的是,該車每秒處理幾乎1千兆位元組的資料。

圖片.png
參考資料
- 討論qq群144081101 591302926 567351477 釘釘群21745728
- ofollow,noindex">本文最新版本地址
- 本文涉及的python測試開發庫 謝謝點贊!
- 本文相關海量書籍下載
- 2018最佳人工智慧機器學習工具書及下載(持續更新)
為什麼機器學習很重要?
到目前為止,機器學習是分析,理解和識別資料模式的最佳工具。機器學習背後的主要思想之一是計算機可以被訓練以自動執行對於人類來說是窮舉或不可能的任務。機器學習可以在人為干預最少的情況下做出決策。
以下面的例子為例;零售代理商可以根據自己的經驗和他對市場的瞭解來估算房屋的價格。
可以訓練機器將專家的知識轉化為特徵。特徵是房屋,社群,經濟環境等的所有特徵,使價格差異化。對於專家來說,他花了幾年時間才掌握估算房屋價格的藝術。每次銷售後,他的專業知識越來越好。
對於機器,需要數百萬個數據(即示例)來掌握該技術。在學習的最初階段,機器出錯了,不知何故,就像初級推銷員一樣。一旦機器看到了所有的例子,它就有了足夠的知識來進行估算。同時,具有令人難以置信的準確性。機器也可以相應地調整其錯誤。
大多數大公司都瞭解機器學習和儲存資料的價值。麥肯錫估計,分析的價值在9.5萬億美元到15.4萬億美元之間,而5到7萬億美元的價值可以歸功於最先進的人工智慧技術。