1. 程式人生 > >【論文閱讀】利用深度自編碼器神經網路預測藥物相似度

【論文閱讀】利用深度自編碼器神經網路預測藥物相似度

論文來源:
Prediction of Drug-Likeness Using Deep Autoencoder Neural Networks

摘要

由於各種各樣的原因,大多數候選藥物最終不能成為上市藥物。建立可靠的預測候選化合物是否具有藥物相似度對提高藥物的發現和開發成功率具有重要意義。

在這篇文章中,做事使用全連線神經網路(FNN)來構建類藥性分類模型,並使用深度自編碼器來初始化模型引數。
收集了藥物(以ZINC World Drug為代表)、生物活性分子(以MDDR和WDI為代表)、普通分子(以ZINC All Purchasable 和ACD為代表)的資料集。

化合物用MOLD2二維結構描述符編碼。類藥/非類藥模型在WDI/ACD資料庫中的分類準確率為91.04%,在MDDR/ZINC資料庫中的分類準確率為91.20%。模型的效能優於以前報告的模型。

此外,我們還開發了藥物/非藥物類模型(鋅世界藥物vs.鋅全可購),用於區分藥物和常見化合物,分類準確率為96.99%。我們的工作表明,通過使用高緯度的分子描述符,我們可以應用深度學習技術建立最先進的藥物相似度預測模型。

一、簡介

近幾十年來,高通量篩選(high-throughout screening, HTS)、基於片段的藥物發現(fragment- based drug discovery, FBDD)、單細胞分析等多種新穎有效的技術得到了發展,並在藥物發現領域取得了顯著進展。然而,值得注意的是,FDA批准的新化學實體(NCEs)的數量並沒有像預期的那樣快速增長。據統計,在臨床前檢測中發現候選化合物的成功率約為40%,而進入市場的候選化合物僅為10%

(Lipper, 1999)。

約有40%的候選化合物沒有上市是因為它們的生物製藥效能差,也通常被稱為藥物相似性,包括化學穩定性差、溶解性差、滲透性差和代謝差(Venkatesh and Lipper, 2000)。藥物相似性是由現有藥物和候選藥物的結構和性質衍生而來的,在藥物發現的早期階段被廣泛用於篩選不良化合物。
最初的藥物如Lipinsky提出的規則的概念,稱為rule-of-five包含四個簡單的物理化學引數定義(MWT≤500,log P≤5,H-bond donors≤5 ,H-bond acceptors≤10)(Lipinski,2004)。使用這些定義可以預測一種化合物是否可以成為口服藥物的候選。
Hopkins等人在2012年提出了藥物相似度定量估計(QED)測度,該測度是一種加權可取度函式,它是基於一組771種口服小分子藥物的8種選定分子性質的統計分佈,應用於分子靶向給藥能力評估(Bickerton et al., 2012)。由於藥物與非藥物的分子性質定義不明確,且描述符較少,預測效果不理想,後來的工作試圖結合較為全面的描述符和大量的化合物資料,從定量的角度建立高準確度的藥物相似度預測模型。

前人研究成果
Wagener等人提出了一種藥物相似度預測模型,涉及到與不同原子型別數目相關的分子描述符和用於區分潛在藥物和非藥物的決策樹。模型使用來自ACD和WDI的10,000個化合物進行訓練,其在177,747個化合物的獨立驗證資料集上的預測ACC為82.6% (Wagener and van Geerestein, 2000)。在2003年,Byvatov和他的同事使用不同的描述符集和描述符組合來表徵化合物,並應用SVM和人工神經網路(ANN)系統來解決藥物/非藥物的分類問題。兩種方法的預測準確率均達到80%,結果表明支援向量機的魯棒性更強(Byvatov et al., 2003)。Muller後來報道的一個模型也是基於支援向量機的,模型選擇過程非常仔細,以提高Byvatov et al.(2003)的預測結果(Muller et al., 2005)。2008年,Li等人實現了ECFP_4 (Extended Connectivity fingerprint,擴充套件連通性指紋圖譜)對分子進行表徵,並使用概率支援向量機模型對類藥物分子和非類藥物分子進行分類。與之前在相同資料集上的工作相比,該模型顯著提高了預測ACC,令人驚訝的是,在使用341,601個化合物的更大資料集時,分類器將ACC提高到了92.73% (Li et al., 2007)。Schneider等人利用決策樹,基於SMARTS字串、分子量、XlogP和分子折射率作為化合物的描述空間,逐步對類藥物化合物進行矽酸鹽篩選(Schneider et al., 2008)。2012年,Tian等人實現了21種理化性質和LCFP_6指紋編碼分子,利用樸素貝葉斯分類(naive Bayesian classification, NBC)和遞迴劃分(recursive partitioning, RP)構建類藥物/非類藥物分類器,實現了90.9%的ACC (Tian et al., 2012)。這些研究表明,機器學習技術結合大資料集在藥物相似度預測問題上具有很大的潛力。

深度學習是基於人工神經網路(ANN)的機器學習新浪潮。自2006年以來,DL在計算機視覺等諸多領域表現優異(Hinton et al., 2006;Coates等,2011;Krizhevsky等,2012;He et al., 2016)自然語言處理(Dahl et al., 2012;Socher等,2012;Graves等,2013;Mikolov等,2013;生物資訊學和化學資訊學(Di Lena et al., 2012;Lyons et al., 2014;Heffernan等,2015;陳等,2016;曾等,2016)。與傳統的機器學習方法相比,多層DL可以自動將原始資料轉化為合適的內部特徵表示,有利於檢測或分類任務(LeCun et al., 2015)。在本研究中,我們使用深度自編碼器神經網路構建了強大的藥物相似度預測模型,並從MDDR、WDI 和ZINC。通過Mold2 (Hong et al., 2008)和Padel (Yap, 2011)計算化合物的分子描述子。類藥/非類藥模型在WDI / ACD資料庫中的分類準確率為91.04%,在MDDR /ZINC資料庫中的分類準確率為91.20%。模型的效能優於以前報告的模型。此外,我們開發了藥物/非藥物樣模型(ZINC World drug vs. MDDR),用於區分藥物和常見化合物,ACC分類為96.99%。我們的工作表明,通過使用高緯度的分子描述符,我們可以應用DL技術建立最先進的藥物相似度預測模型

二、資料集

2.1基準資料集

本研究將整個化學空間分為藥物、類藥物和非類藥物。上市藥物分子以 ZINC WORLD drug (Sterling and Irwin, 2015) (version 2015, 2500 molecules)資料集為代表。類藥物分子 用MDDR (MACCS-II藥物資料報告[MDDR], 2004) (200k分子)資料集和WDI (Li et al., 2007)(2002版,40k分子)資料集表示。非藥物樣分子用ACD (Li et al., 2007) (version 2002, 300k molecules)和ZINC ALL PURCHASABLE(Irwin et al., 2012) (version 2012)資料集表示;後者被隨機取樣,減小到200k。類藥物資料集包含已上市和類藥物分子,而非類藥物資料集包含另外兩個資料集。所有資料集都包含SDF格式的二維分子結構資訊。本研究使用的資料集對的詳細資訊見表1。
在這裡插入圖片描述

2.2資料預處理

資料清洗是化學資訊學計算中的一個關鍵步驟,Fourches等人(2010)闡述了這一點。我們使用了一個類似於Fourches等人的流程(見表2)來預處理下載的原始資料,從而減少了在描述符計算中出錯的可能性。在描述符計算之後,我們還對得到的描述符矩陣進行後處理(見表2)。
在這裡插入圖片描述

2.3描述符計算

我們用二維描述符對分子進行編碼。預處理後的分子MOLD2計算,得到一個描述符矩陣∼700每個分子描述符。然後對描述符矩陣進行後處理,如表2所示。我們還嘗試了Padel descriptors (Yap, 2011),該描述符在本研究中表現較差,被丟棄。

2.4過取樣(Over-Sampling)演算法

由於分類任務的特殊性,本研究中我們採集的陽性和陰性樣本並不均衡。利用不平衡資料建立的預測模型可能存在偏差和不準確。因此,我們採用兩種方法來平衡我們的資料集,使正樣本和負樣本的比例近似相等。 第一種方法是複製minority類,使其比例為1:1,第二種方法是使用SMOTE (Chawla et al., 2002;Han et al., 2005;(Nguyen et al., 2011),是一種基於隨機過取樣演算法的改進方案。這裡我們使用從【1】下載的imbalanced-learn包來應用SMOTE。對於每個任務,我們使用這兩種過取樣方法來平衡資料。對於每一個模型,我們首先將9:1的比例的資料集隨機分割為訓練集和驗證集,然後利用上述兩種方法來平衡訓練集,使訓練過程中正負樣本的數量相等。使用訓練集對5-CV模型進行訓練,使用附加驗證集對模型進行評價。

【1】http://contrib.scikit-learn.org/imbalanced-learn/stable/install.html

三、材料和方法

3.1堆疊自動編碼器

自動編碼器是一種無監督的學習演算法,它訓練神經網路重構其輸入,更有能力捕捉輸入資料的內在結構,而不僅僅是記憶。直覺上來看,它試圖建立一個encoding-decoding過程,模型的輸出xˆ大約是類似於輸入x。SAE是一個神經網路組成的稀疏autoencoders的多個層,每一層的輸出是連續的連線到輸入層。SAE的體系結構示意圖如圖1所示。利用二維化學描述符對聲發射模型進行訓練,找出描述符之間的內在聯絡,然後利用聲發射模型的引數對分類模型進行初始化。
在這裡插入圖片描述

3.2定義模型

根據化學空間對藥物、類藥物和非類藥物的劃分,可分為類藥物/非類藥物、藥物/非類藥物兩類分類模型。第一個與傳統的相似度定義相吻合。第二個模型也具有相當大的實用價值,但是還沒有發表任何模型來解決這個問題。
在本研究中,為了解決類藥物/非類藥物的分類問題,我們提出了兩種模型:

模型1:類藥物/非類藥物的分類問題
MDDRWDI/ZINC(即MDDR和WDI為陽性集,ZINC為陰性集)和WDI/ACD搭建的模型。

模型2:藥物/非藥物類藥物的分類問題
我們提出了WORLD drug/ ZINC(即ZINC WORLD drug為陽性集,ZINC ALL purchasing able為陰性集)模型。

3.3網路訓練與超引數優化

在本研究中,我們使用基於Tensorflow (Abadi et al., 2016)的開源軟體庫Keras (Chollet, 2015)構建SAE模型和分類模型。首先,訓練單個隱藏層AE。隱含層節點數K,是需要跨不同網路進行比較和調優的超引數。在訓練中,我們使用Truncated-Normal初始化器生成一個截斷正態分佈層的權重。在所有情況下,我們都使用了貝葉斯優化(Hyperas,一個基於hyperopt的python庫【2】)來優化超引數,如隱藏層節點K的個數,L2權值正則化器的值,drop的值,啟用函式的型別,優化器的型別,批大小的值。最終的超引數優化設定如表3所示。
在這裡插入圖片描述

【2】https://github.com/maxpumperla/hyperas

考慮到雖然資料集已經平衡,但模型結果可能會過擬合,因此我們對對數似然損失函式的正樣本損失和負樣本損失的權重進行優化為:
在這裡插入圖片描述
其中yk表示第k個複合標籤。yk = 1或0,表示第k個化合物分別為類藥物化合物和非類藥物化合物。ak = P(yk = 1|xk)為模型計算得到的第k個化合物為類藥物化合物的概率。w為正樣本損失的權重。在不同的情況下,我們選擇最合適的w的範圍(0.5∼1.0),以避免過度擬合。然後我們對所有模型進行5- cv的訓練,並在測試集上基於分類ACC強制提前停止。最後,每個案例有5個訓練模型,取平均值作為這些模型的最終判斷。

3.4 模型評價

所有模型均採用5個指標進行評價。分別定義了ACC、SP、靈敏度(SE)、MCC、接收機工作特性曲線下面積(AUC)四個判據,分別為:
在這裡插入圖片描述

四、結果

4.1比較不同的過取樣方法

在我們對5-CV驗證測試進行預訓練後,我們發現更多的層數和神經元數量並不能提高預測能力。在所有情況下,一個隱藏層足以滿足我們的分類目標。通過分析兩種不同的過取樣方法來平衡資料集,複製少數派類和SMOTE,我們發現後者可以達到更好的預測精度,如表4所示:
在這裡插入圖片描述

在相同的資料集下,Li等構建的SVM模型的ACC為92.73% (Li等,2007),我們WDI/ACD模型的ACC為92.65%,與Li等的結果基本一致。
我們的MDDRWDI/ZINC模型對類藥物/非類藥物分子進行了分類,ACC達到了令人滿意的91.16%,是目前最先進的類藥物預測模型。這些結果表明,自編碼器是一種潛在的藥物相似度預測機器學習演算法。
我們基於World drug/ ZINC資料集建立的藥物/非藥物類預測模型ACC高達99.06%,說明藥物和非藥物更容易區分化合物。雖然不排除後一種模型的ACC與原始資料集的嚴重失衡有關,但我們認為這種藥物/非藥物類預測模型可能有利於藥物開發。

4.2 優化引數和損失函式

我們觀察到,使用從原始資料中預先分割出來的獨立外部驗證集對模型進行評價時,模型的預測ACC往往略低於訓練的預測ACC,但敏感性值顯著降低,SP值較高(表5),說明模型在訓練中存在過擬合現象。
在這裡插入圖片描述
其根本原因可能是原始資料的正樣本比過低,我們按照9:1的比例將原始資料集中的正樣本和負樣本隨機分割,構建訓練集和驗證集。即使使用SMOTE方法來平衡訓練集中的正樣本和負樣本,由SMOTE生成的新陽性樣本依賴於原始訓練集中的正樣本,因此,外部驗證集的正樣本資訊較少。

為了克服負樣本的過擬合問題,我們在損失函式中增加了正樣本損失的權重,增強了模型對正樣本側的學習能力。我們將權重值(詳見公式1)從0.5到1進行測試,每隔20次,記錄驗證集上ACC、SE、SP值隨權重變化的情況,如圖2所示。
在這裡插入圖片描述
對於不同的模型,圖2曲線中SE和SP的交點對應一個平衡的權值。通過微調(fine-tuning),四種模型對應的權重分別為(0.69、0.55和0.9)。對損失函式使用這些權重後,不同模型下訓練集的ACC略有下降,SE有所改善。由於模型增強了對陽性樣本的預測,不同模型驗證集的SE和SP值接近(見表6,7)。
在這裡插入圖片描述
雖然MCC一般被認為是一種平衡測度,但它受到資料集正負樣本數的差距和模型計算的混淆矩陣的嚴重影響。MCC對於平衡訓練集是滿意的。但在驗證集中,資料集變得更加不平衡,MCC變小,這是不可避免的。

五、討論

在影象識別問題中,當產生AE時,常常堆疊數個AE層以製作SAE。儘管發現SAE比單層AE更強大,但是我們發現SAE在藥物相似性問題中是有缺陷的,使得多層SAE的執行比單層AE要差很多

當對AE的一層進行訓練時,期望將輸出儘可能地接近其輸入,並且該誤差可以被定義為輸出減去輸入的平均值。在這項研究中,當訓練模型,我們發現規範化的ACC(z分數)輸入是遠遠高於縮放(−1,1)的輸入。對資料進行標準化處理後,AE的誤差為0.8,比影象識別中的典型值高了一個數量級。疊加層的AE將進一步放大誤差,使SAE-initialized神經網路在分類表現不佳

我們認為AE的這種缺陷源於不同維度的輸入資料是如何相互關聯的。在影象識別中,每個畫素都是一個維度;在藥物相似度預測和相關領域,每個描述符都是一個維度。AE的訓練目標是學習維度之間的關係,將輸入的資訊編碼成隱含的層維度。因此,如果維度之間的關係本質上更加混亂和不規則,AE很可能會表現得更糟。畫素之間的關係是規則的,因為它們被組織成一個二維網格,而相鄰的畫素具有一些相似性和互補性。描述符之間的關係缺乏這種良好的性質,導致AE輸入重建過程失敗。儘管AE重建錯誤很大,但我們的模型仍在分類中表現良好。我們認為這是因為AE預訓練的正則化效應。在無監督的訓練前,該模型更有能力真正學習資料,而不是簡單地記憶資料。

不平衡的資料集是一個常見的問題。雖然有一些方法,如SMOTE,可以生成新的資料來平衡資料集,但是這種生成資料的方法很大程度上依賴於樣本的分佈。一旦樣本分佈非常稀疏,新的資料很可能會偏離原始資料被釋放的空間。根據已有資料的分佈尋找資料對映空間的方法是生成資料以平衡資料集的關鍵,如當前流行的深度生成模型。開發新的演算法來訓練不平衡資料集也是一個重要的研究方向。

在這項研究中,DL再次顯示了它改進預測模型的能力。儘管取得了成功,但我們認為還有很大的發展空間。一個關鍵的方面是使當前的DL方法適應特定的問題。這種適應應該基於對當前DL方法的更好理解。也就是說,要知道方法的哪些部分是可以通用的,哪些部分應該根據資料的性質進行修改。例如,在這項研究中,我們認為訓練的規範化效應是通用的部分,在輸入資料不規則的時候,AE輸入重構的部分應該被取消或修改

結論

在這項研究中,我們手工構建了兩個更大的資料集,類藥物/非類藥物和類藥物/非類藥物。然後用了AE預訓練法,我們研發出了藥物相似性預測模型。基於WDI和ACD資料庫的分類ACC提高到91.04%。我們的模型在MDDRWDI/ZINC資料集上的分類ACC達到了91.20%,是目前最先進的藥物相似度預測模型,說明DL模型的預測能力優於傳統的機器學習方法。此外,我們開發了藥物/非藥物樣模型(鋅世界藥物vs.鋅全可購),對藥物和常見化合物進行了區分,ACC分類為96.99%。我們提出在這項研究中,AE預訓練是一種更好的正則化方法。本研究中多層SAE重建的失敗表明,由於資料的特殊性,在將DL應用於不同領域時可能需要進行一些修改。我們希望未來機器學習的研究者和化學家能夠緊密合作解決這一問題,使DL方法在化學問題中的理解和應用更加深入。