1. 程式人生 > >來,了解下用Python實現的四種機器學習技術!

來,了解下用Python實現的四種機器學習技術!

歸納 多個 流行 挖掘 可能 過大 不同 聚類 nag

機器學習技術VS。算法

雖然本教程專門討論Python的機器學習技術,但我們很快就會轉向算法。但在我們開始關註技術和算法之前,讓我們先看看它們是否是同一回事。

A 技術是解決問題的方法。這是一個相當通用的術語。但當我們說我們有一個算法,我們的意思是,我們有一個輸入,並希望從它得到一個特定的輸出。我們已經明確規定了實現這一目標所應遵循的步驟。我們將不遺余力地說,一個算法可以使用多種技術來獲得輸出。

現在我們已經區分了這兩種技術,讓我們來了解更多關於機器學習技術的內容。

用Python實現機器學習技術

機器學習回歸

這,這個,那,那個字典會告訴你,倒退就是回到以前的狀態-通常是欠發達的狀態。在統計書籍中,你會發現回歸是衡量一個變量的平均值和其他值的對應值是如何相互關聯的。但讓我們談談你將如何看待它。

技術分享圖片
回歸中庸

查爾斯·達爾文的同父異父表親弗朗西斯·加爾頓(Francis Galton)觀察了幾代人對甜豌豆的大小。他得出的結論是,讓大自然去做它的工作會產生一系列的大小。但是,如果我們有選擇地培育大小的甜豌豆,它就能制造出更大的豌豆。隨著大自然的方向盤,更大的豌豆開始產生較小的後代隨著時間的推移。對於豌豆,我們有一個不同的大小,但是我們可以將這些值映射到一條特定的線或曲線上。

另一個例子:猴子和股票

1973年,普林斯頓大學教授伯頓·麥基爾(Burton Malkiel)在他的書中宣稱,華爾街的隨機漫步這是一本暢銷書,並堅持認為蒙著眼睛的猴子可以通過向報紙的財經版面扔飛鏢,在挑選投資組合方面做得同樣出色。在這樣的選股比賽中,猴子打敗了專業人士.但這是一次或兩次。隨著足夠的事件,猴子的表現下降,它倒退到平均水平。

技術分享圖片
什麽是機器學習回歸?

在這幅圖中,這條線最適合用點標記的所有數據。使用這條線,我們可以預測x=70的值(有一定程度的不確定性)。
技術分享圖片
回歸作為一種機器學習技術,其基礎是監督學習。我們用它來預測一個連續的數值目標,從我們已經知道的數據集值開始。它比較已知值和預測值,並將預期值和預測值之間的差異標記為誤差/殘差。

機器學習中的回歸類型

我們通常觀察到兩種回歸:

線性回歸:當我們可以用直線表示目標和預測器之間的關系時,我們使用線性回歸,如下所示:
Y=P1x+P2+e

非線性回歸:當我們觀察到一個目標和一個預測器之間的非線性關系時,我們不能將它表示為一條直線。
機器學習分類

什麽是機器學習分類?

分類是數據挖掘允許我們預測數據實例的組成員資格的技術。它預先使用有標記的數據,並接受監督學習。這意味著我們訓練數據,並期望預測它的未來。我們所說的“預測”,是指我們將數據分類為它們可以屬於的類。我們有兩種屬性:

輸出屬性,或者依賴屬性。
輸入屬性,或者是獨立屬性。
分類方法

決策樹歸納:我們從標記為元組。它有內部節點、分支和葉節點。內部節點表示對屬性、分支、測試結果、葉節點和類標簽的測試。涉及的兩個步驟是學習和測試,這些步驟都是快速的。
基於規則的分類:這種分類是基於一組IF-然後規則。一項規則指的是:
若條件則結論

按反向傳播分類:神經網絡學習,通常稱為連接主義學習,建立聯系。反向傳播是一種神經網絡學習算法,是目前最流行的學習算法之一。它叠代地處理數據,並將目標值與要學習的結果進行比較。
懶惰的學生:在懶惰的學習方法中,機器存儲訓練元組並等待測試元組。這支持增量學習。這與早期的學習方法形成了鮮明的對比。
ml分類示例

讓我們舉個例子。我們是來教你不同種類的密碼的。我們向您介紹ITF條形碼、碼93條形碼、QR碼、Aztecs碼和數據矩陣等。通過大多數示例之後,現在輪到您識別當我們向您展示一段代碼時的代碼類型。這是監督學習,我們使用部分的例子-訓練和測試。

註意每種類型的恒星是如何在曲線的另一邊結束的。
技術分享圖片
聚類

聚類是一種無監督的分類。這是一種探索性數據分析,沒有標簽數據可用。通過聚類,我們將未標記的數據分離為有限的和離散的數據結構集,這些數據結構是自然的和隱藏的。我們觀察到兩種聚類-

硬聚類:一個對象屬於單個集群。
軟聚類:一個對象可能屬於多個集群。
在聚類中,首先選擇特征,然後設計聚類算法,然後對聚類進行驗證。最後,我們解釋了結果。

回想一下上面的例子。你可以把這些代碼組合在一起。QR代碼,Aztec和數據矩陣將在一個組中;我們可以稱之為2D代碼。ITF條形碼和代碼39條形碼將分組為“一維代碼”類別。這就是集群的樣子:
技術分享圖片
異常檢測

異常是指偏離其預期方向的東西。有了機器學習,有時,我們可能想發現一個離群點。一個這樣的例子就是每小時檢測一張牙醫賬單85份填充物。這相當於每個病人42秒。另一種方法是只在周四才能找到一張特定的牙醫賬單。這種情況引起懷疑,異常檢測是突出這些異常的一個很好的方法,因為這不是我們要特別尋找的東西。

所以,這都是關於Python的機器學習技術。如果你跟我一樣都喜歡python,想成為一名優秀的程序員,也在學習python的道路上奔跑,歡迎你加入python學習群:839383765 群內每天都會分享最新業內資料,分享python免費課程,共同交流學習,讓學習變(編)成(程)一種習慣!

來,了解下用Python實現的四種機器學習技術!