1. 程式人生 > >【論文閱讀】深度學習與多種機器學習方法在不同的藥物發現數據集進行對比

【論文閱讀】深度學習與多種機器學習方法在不同的藥物發現數據集進行對比

論文來源:
Comparison of Deep Learning With Multiple Machine Learning Methods and Metrics Using Diverse Drug Discovery Data Sets

機器學習方法在醫藥研究中已經應用了幾十年。與貝葉斯方法相結合的指紋型別分子描述符的相對易用性和可用性使得該方法廣泛應用於與藥物發現相關的各種端點陣列。深度學習是最新的機器學習演算法,從對接到虛擬篩選等許多製藥應用都受到關注。深

度學習是一種基於多層隱層的人工神經網路,在許多人工智慧應用中得到了廣泛的應用。我們之前已經提出,需要將不同的機器學習方法與適用於藥物研究的不同資料集陣列中的深度學習進行比較。與藥物研究相關的終點包括吸收、分佈、代謝、排洩和毒性(ADME/Tox)特性,以及對病原體的活性和藥物發現數據集。

在本研究中,我們使用了溶解度、似度、hERG、KCNQ1、黑死病、恰加斯病、肺結核、瘧疾等資料集,比較了使用FCFP6指紋的不同機器學習方法。這些資料集表示整個細胞螢幕、單個蛋白質、物理化學特性以及具有複雜端點的資料集。我們的目的是評估在使用AUC、F1分數、Cohen’s kappa、Matthews相關係數等一系列指標進行評估時,深度學習是否對測試有任何改善。

深度神經網路(Deep Neural Networks, DNN)對指標或資料集的歸一化得分排序高於支援向量機(SVM),而SVM又高於其他所有機器學習方法。 使用雷達型別圖視覺化訓練和測試集的這些屬性,表明模型在什麼時候是較差的或者可能是訓練過度的。這些結果還表明,需要使用更大規模的比較、前瞻性測試以及不同指紋和DNN架構的評估等多個指標來進一步評估深度學習。
在這裡插入圖片描述

一、簡介

藥物發現目前正處於這樣一個階段:PubChem、ChEMBL以及越來越多由高通量篩選和高通量生物學(包括全細胞表型篩選、酶、受體等)建立的其他資料庫的公共資料量不斷增加,使其完全處於“大資料”領域。我們面臨著重大的挑戰。我們不再侷限於少數分子及其性質,我們現在有成千上萬的分子和幾十個性質要考慮。我們如何挖掘、使用這些資料,並希望從中學習,從而使藥物發現更有效、更成功?

一個方法是利用化學資訊使用機器學習處理這些大資料的方法,如使用支援向量機(SVM), K近鄰(KNN),樸素貝葉斯,決策樹等已越來越多地使用。這些方法可以用於二進位制分類、多類分類,或值的預測。

近年來,深度人工神經網路(包括卷積網路和遞迴網路)在模式識別和機器學習領域贏得了眾多的競爭。深度學習通過引入以其他更簡單的表示形式表示的表示來解決表示學習中的核心問題。n層神經網路如圖1所示。
在這裡插入圖片描述


值得注意的是,單層神經網路描述的是一個沒有隱含層的網路,其中輸入直接對映到輸出層。在這個意義上,邏輯迴歸或支援向量機只是單層神經網路的一個特例。在我們的工作中,為了簡化深度神經網路(DNN)的表示,我們將只計算隱藏層。通常1−2隱藏層神經網路被稱為淺神經網路和3或更多的隱藏層神經網路被稱為深層神經網路。

最近的一篇綜述討論了深度學習在藥物研究中的發展和應用,這種方法在其他地方的影象和語言學習中被證明是非常成功的。以前深度學習主要用於無監督學習和噪聲資料。將深度學習用於藥物應用的有限努力表明,與其他方法相比,需要進一步探索其在化學資訊學方面的效用。

深度學習在生物資訊學和計算生物學中得到了較為廣泛的應用。深度學習也被用於預測性質,如水溶性,使用四個公佈的資料集,並與其他機器學習方法比較顯示出良好的10倍交叉驗證(10-fold cross validation)結果。

到目前為止,Merck已經對深層神經網路進行了比較,並將其與隨機森林進行了比較,以使用大型定量結構活動關係(QSAR)資料集。他們發現在15個數據集中的11個表現要好於隨機森林,在第二次使用時間分割測試集的評估中,15個數據集中的13個表現優於隨機森林。但是Merck沒有研究其他的機器學習方法。與其他機器學習方法一樣,深度學習模型得到驗證的最大例子之一是Tox21挑戰。在核受體和應激反應資料集上,多工學習的深度學習略優於最接近共識的ANN方法。最近,有一個小組提出了一些分子機器學習的資料集,並將這些資料集與選定的機器學習方法進行了比較。第二組用7個ChEMBL資料集評價了若干機器學習方法,但只著重於評價效能的單一指標。深度學習常常單獨應用於單個數據集,而不是與許多可用的替代方法進行比較。有可能有更多的資料集可以從深度學習中受益,儘管它們可能更小。

這些機器學習方法越來越多地用於化合物的虛擬篩選,通過用活性化合物豐富篩選的化合物集,可以更有效地利用高通量篩選(,HTS)資源。此外,這種機器學習方法還可以用於藥物的吸收、分佈、代謝、排洩和毒性(ADME/Tox)特性,因為這些因素可以影響藥物發現過程的成功,並且它們的早期評估可以預防失敗。過去的研究表明這些計算方法可以極大地影響藥物發現效率。

在過去的十年中,我們和其他人越來越關注貝葉斯方法,因為它們的易用性和一般適用性,使用最大直徑6的分子函式類指紋和其他幾個簡單的描述符。這項工作的大部分集中在考慮細胞毒性的結核分枝桿菌模型上,並對其進行前瞻性評估,以顯示與隨機篩查相比,結核分枝桿菌的高命中率。此後,我們利用查加斯病和埃博拉病毒的資料集,對批准的藥物以及模型ADME特性(如水溶性、小鼠肝微粒體穩定性、Caco-2細胞通透性、62個毒理學資料集和轉運體)進行了重新利用。通過製作指紋,以及貝葉斯模型構建演算法的開源,有潛力進一步拓展這方面的工作。

本研究的主要目的是 評估在藥物發現和ADME/Tox資料集的其他計算方法中,使用一系列指標進行評估時,深度學習是否對測試有任何改善。在此過程中,我們開發了一種方法,使深度學習模型更容易獲取。

二、實驗

2.1 實驗環境

所有的計算都是在一個雙核處理器,四核(英特爾E5640)伺服器上完成的,執行CentOS 7, 96GB記憶體和兩個特斯拉K20c GPU。
安裝了以下軟體模組:
nltk 3.2.2、scikit-learn 0.18.1、Python 3.5.2、Anaconda 4.2.0(64位)、Keras 1.2.1、Tensorflow 0.12.1、Jupyter Notebook 4.3.1。

2.2資料集和描述符

利用公開的用於不同型別活性預測的不同藥物發現數據集開發預測管道(表1)。Clark等人使用相同的資料集,探索一系列貝葉斯模型在ADME/Tox等理化性質預測中的適用性。在目前的FCFP6指紋研究中,使用RDKit (http://www.rdkit.org/)從SDF檔案中計算出1024個bin資料集。在圖2所示的資料集中,指紋出現的典型頻率出現在1024個容器的複合表示中。
在這裡插入圖片描述
在這裡插入圖片描述

2.3機器學習

開發了兩個通用預測方法。
第一個方法僅使用經典機器學習(CML)方法構建,如伯努利樸素貝葉斯、線性邏輯迴歸、AdaBoost決策樹、隨機森林和支援向量機。開源的Scikit-learn (http://scikit-learn.org/stable/, CPU用於訓練和預測)使用ML python庫構建、調優和驗證這個方法中包含的所有CML模型。

第二個方法使用不同複雜性的深度神經網路(DNN)學習模型構建,使用Keras (https://keras.io/)、一個深度學習庫和Tensorflow (www.tensorflow.org, GPU training and CPU for prediction)作為後端。開發的方法包括將輸入資料集隨機分割為訓練(80%)和測試(20%)資料集,同時在每次分割(分層分割)中保持活動類比與非活動類比的相等比例。因此,所有模型的調優和超引數搜尋都是通過對訓練資料進行4倍交叉驗證來進行的,這樣可以更好的進行模型泛化。提供了一個示例 Jupyter notebook。
示例程式

2.4 資料分析

使用到的評估方法:
在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述

三、結果

F1-score AUC,準確性,卡帕,馬修斯相關性,精度和召回的所有訓練值表示為模型化合物FCFP6指紋在1024箱總結(表2和表S1−16)雖然個別模型檔案也提供(支援資訊)。
在這裡插入圖片描述
為了清晰起見,我們按照每個資料集、訓練集和測試集對所有指標進行了分組,並將它們表示為雷達圖。然而,在本例中,我們使用了不同的描述符和建模演算法源FCFP6 vs ECFP6,以及RDKit vs CDK。在許多情況下,SVM模型的測試集通常比同一方法中的任何其他模型都要好。

當分析雷達圖時,很容易看出哪些模型可能訓練過度。在這種情況下,模型訓練集的所有指標的得分都很高,而測試集的得分則低得多。圖的形狀也可以表示模型的質量。測試集的圓圈越大,模型就越好。

溶解度模型(圖3)是一個很好的平衡模型的例子。訓練集和測試集實際上都由相似的圓形圖表示,很明顯,BNB方法在大多數指標中表現最差。
在這裡插入圖片描述

probe樣模型(圖4)對測試集的分數進行了不規則的排列,這表明它在所有方法中對Cohen 's Kappa的表現都很差。
在這裡插入圖片描述

hERG模型的測試集(圖5)顯示,大多數方法在指標之間是可比較的,ABDT在測試集中表現最差
在這裡插入圖片描述

總體而言,Cohen’s Kappa是該資料集最敏感的度量標準。KCNQ1模型(圖6)顯示,DNN和SVM在訓練和測試方面優於其他方法,Matthews相關性和Cohen’s Kappa評分顯著低於所有其他指標
在這裡插入圖片描述

黑死病模型(圖7)是一個困難的例子,DNN在訓練和測試中很容易勝過所有方法(AUC, Matthews correlation and accuracy metric表現最好)。Chagas疾病資料集(圖8)再次顯示,以Cohen’s kappa為最敏感的指標,DNN具有較好的訓練和測試效能。
在這裡插入圖片描述

Chagas疾病資料集(圖8)再次顯示,以Cohen’s kappa為最敏感的指標,DNN具有較好的訓練和測試效能
在這裡插入圖片描述

結核病資料集(圖9)是另一個例子,除了召回統計資料外,DNN在培訓方面比所有方法都要好得多,在測試集方面也比所有方法差得多。在測試集的所有方法中,精確度、f1評分和Cohen 's Kappa都很差。
在這裡插入圖片描述

瘧疾資料集(圖10)顯示了DNN對訓練和測試集的影響,與其他機器學習方法相比,DNN在準確率、f1評分和Cohen’s Kappa方面都有很大提高
在這裡插入圖片描述

總的來說,除了probe樣資料集的AUC效能外,DNN模型在外部測試集預測中表現良好。對於AUC, DNN-3在8個數據集中的6個上優於BNB(表2)。
在這裡插入圖片描述

為了進一步瞭解哪種模型的效能最好,我們使用了按度量(表3)和資料集(表4)對每個機器學習演算法進行排序的標準化得分。這種方法以前曾被其他人用於比較多種機器學習方法和效能標準。當模型以指標或資料集進行排序時,深度學習(DNN-5和DNN-4)的排名高於SVM,其他方法均低於此(表3和表4)。
在這裡插入圖片描述
我們使用本研究中開發的所有不同的溶解度機器學習模型,對我們的一個藥物發現專案中的3種化合物的溶解度進行了評估,如表5:
在這裡插入圖片描述