BAT最流行的機器學習模型你真的知道?

在過去幾十年裡,機器學習領域發生了鉅變。誠然,有些方法已經存在很長一段時間,仍然是該領域的重要方法。
由於監督學習有大量可用的方法,所以人們經常提出一個問題:最好的模型是什麼?眾所周知,這個問題很難回答,正如George Box所言,所有的模型都是不好的,但也都有一些可取之處。而判斷模型有用與否則取決於手頭上的資料。因此,這個問題沒有統一答案。相比而言,下面這個問題要容易回答一些:最流行的模型是什麼?這是本文的關注點所在。

從1950年至今的監督模型使用
為了分析縱向資料,我們將機器學習劃分為兩個階段:早期(1950-1980)——只有少量模型可用;形成期(1980至今)——人們對機器學習的興趣激增,開發了很多新模型。注意,以下影象只顯示最相關的方法。

線性迴歸是1950 -1980年間的主要方法。相比之下,其他機器學習模型在科學文獻中極少被提及。然而,從20世紀60年代開始,神經網路和樹形判定分類法開始流行起來。還可以看到,邏輯迴歸尚未得到廣泛的應用,在70年代末被提及的次數也只是略有增加。
監督學習模型在不同領域的流行度
將研究不同的群體是否依賴於不同的機器學習技術。為此,我們參考了三個科學出版物資料庫:用於一般出版物的Google Scholar ,用於電腦科學出版物的 dblp ,用於生物醫學出版物的PubMed。在這個三個資料庫中,我們確定了13個機器學習模型的出現頻率。結果如圖3所示。

監督學習模型的總體使用情況
根據Google Scholar,五種最常用的監督模型是:
-
線性迴歸:3,580,000篇論文,佔34.3%
-
邏輯迴歸:2,330,000篇論文,佔22.3%
-
神經網路:1,750,000篇論文,佔16.8%
-
樹形判定分類法:875,000篇論文,佔8.4%
-
支援向量機:684,000篇論文,佔6.6%
總的來說,線性模型顯然占主導地位,在監督模型的出現率中佔50%以上。非線性方法緊隨其後:神經網路以16.8%的論文提及率排名第三,接著是樹形判定分類法(8.4%)和支援向量機(6.6%)。

文獻中提到的引數模型(包括半引數模型)和非引數模型的所佔比例。條形圖表明,機器學習研究中所研究的模型(如電腦科學出版物所示)與所應用的模型型別(如生物醫學和綜合出版物所示)之間存在很大差異。
結語
針對這些知識內容我專門錄製了倆個小時的視訊,如果有興趣學習人工智慧的可以掃下方二維碼進【公眾號】領取!新年期間我們也會在公眾號內資料大放送,另外回覆【五福臨門】可以領取新年大禮包!!
