將機器學習視覺化
如今的軟體自動化可以取代人類的決定權,例如對個人信用風險的判定、建議僱主合適的人選、判斷哪些人可能對公眾產生危害。最近幾年來各種報道都預示著未來社會將會是一個機器執行的社會,由各種無法驗證的演算法決定人類的生活。
以上的恐懼感一部分來自於人們不瞭解機器學習的運作方式,把它看作一個暗箱,輸入的指令到最後的結果輸出,有時連軟體開發人員都無法理解。隨著智慧化程度範圍越來越大,很多重要領域也開始應用機器學習,這就需要人類準確對機器學習的結果進行預測防止出現重大錯誤,也是為了讓更多的人建立起對機器學習的信任。
目前,大部分機器學習使用事後技術或像是決策樹模型來解釋機器學習的原理。通過事後分析技術,研究人員通過對輸入和輸出結果的比較,調整演算法,最終用於解釋機器學習的過程。但是這種方法研究人員只能通過猜測機器學習的過程,最後的結果很可能是錯誤的。決策樹技術則是通過選擇後的結果分支繪製出一張樹狀圖,該技術僅適用於有意義的分類資料,對於諸如計算機視覺或其他複雜資料問題不適用。
麻省理工林肯實驗室的Jonathan Su聯合杜克大學教授Cynthia Rudin以及學生Chaofan Chen,Oscar Li和Alina Barnett一起研究了一種更加視覺化的暗箱預測方法,被稱為彈性機器學習(AIM),致力於達到2個目的:能被讀懂的神經網路和具有彈性的可理解的貝葉斯規則表(BRLs)。
神經網路是一個許多相互交織的處理單元組成的網路,主要用於影象分析和物件識別。例如使用演算法識別出一堆狗的照片中的一張狗照片。研究人員表示這類神經識別問題具有非線性和遞迴性,對人類而言也具有一定的複雜性。最後神經網路對狗的定義也非常困難,需要根據說給圖片的特徵進行歸納總結。
為了表述這一問題,研究團隊開發了“樣本神經網路”,它們與傳統神經網路的最大不同在於通過建立樣本來對最後的結果進行解釋。以照片識別為例,根據輸入的影象進行樣本定義,再通過定義後的樣本來預測最後的輸出結果。不管樣本圖片是一隻狗、還是一隻貓或是一匹馬,該網路都會根據樣本中的每種動物的重要特徵進行結果判斷。
研究團隊的另一個研究方向是貝葉斯規則表,這是一個單向簡單的決策樹模型,適用於表列資料判斷準確性非常高。貝葉斯規則表根據一定條件判斷結果,最終形成一個判斷模型。例如,當血壓升高時,意味著患心臟病的機率也會提高。本次的研究團隊試圖利用貝葉斯規則表的特性判斷出結果的重要特徵。他們還開發了互動式貝葉斯規則表,可以隨著資料的增長而做出對相應的改變,保證結果判斷的準確性。
佛羅里達大學的學生Stephanie Carnell正在申請該專案在醫學診斷方面的研究課題,未來可以用來幫助醫學院學生更準確的判斷病人的病情。目前的醫學院學生只能通過與虛擬病人的面談來判斷病情並獲得相應得分,但他們不知道獲得這些分數的原因。
彈性機器學習專案屬於類人機械工程學,通過研究人類的思維方式和行為來取代純粹演算法學習。目前已經使用Python語言開發了貝葉斯規則表和互動性貝葉斯規則表,並且在不同作業系統和硬體平臺上進行可行性測試。人類在未來不僅能信任機器學習的演算法,還可以瞭解它們的原理。