速訊:MIT最新研究:AlphaFold蛋白質(zhì)預(yù)測能力太差 目前利用價值還很低
2018 年,Deepmind 首次發(fā)布基于深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)結(jié)構(gòu)預(yù)測數(shù)據(jù)庫 AlphaFold,在蛋白質(zhì)預(yù)測中實(shí)現(xiàn)了最先進(jìn)的性能;去年,AlphaFold 2 獲得了 98.5% 的蛋白質(zhì)預(yù)測率;前段時間,Deepmind 又重磅發(fā)布了數(shù)據(jù)集更新,稱目前的 AlphaFold 已經(jīng)預(yù)測了幾乎所有已知的蛋白質(zhì)。
(相關(guān)資料圖)
訪問:
阿里云1核2G云服務(wù)器低至1折 最高可得500元滿減優(yōu)惠券
編輯 | 陳彩嫻
如何有效識別藥物作用機(jī)制在今天仍然是一個巨大挑戰(zhàn),計算對接的方法已被廣泛用于預(yù)測藥物結(jié)合靶點(diǎn)。有了大規(guī)模蛋白質(zhì)結(jié)構(gòu)預(yù)測技術(shù),藥物發(fā)現(xiàn)將變得更容易。所以,自 AlphaFold 問世以來,稱其將引發(fā)一場結(jié)構(gòu)生物學(xué)的革命、徹底改變藥物發(fā)現(xiàn)的聲音就不絕于耳。
本質(zhì)上,AlphaFold 是一個工具,我們目前真的能利用好這個工具嗎?
近日,來自 MIT 的研究團(tuán)隊給出了否定的回答。
他們對使用 AlphaFold2 的分子對接模擬的模型性能進(jìn)行了評估,發(fā)現(xiàn)模型在識別真正的蛋白質(zhì)-配體相互作用方面的預(yù)測能力較弱,并證明需要使用基于機(jī)器學(xué)習(xí)的方法進(jìn)行建模來提高模型性能,以更好地利用AlphaFold2 進(jìn)行藥物發(fā)現(xiàn)。該論文“Benchmarking AlphaFold-enabled molecular docking predictions for antibiotic discovery”發(fā)表在了Molecular Systems Biology 期刊上。
使用 AlphaFold 2
所謂化合物的對接計算,是將候選化合物列表中的每一個對接到目標(biāo)蛋白質(zhì)中,生成最有可能結(jié)合的化合物的粗略排序。這個過程可以在化合物集合上完成,獲得龐大的虛擬庫,這種虛擬篩選已經(jīng)成為計算化學(xué)領(lǐng)域的長期目標(biāo)。
篩選 218 種大腸桿菌活性化合物
研究團(tuán)隊首先篩選了一組化合物,包含大約 39128 種,其中包括已知藥物(已知抗生素)、活性天然產(chǎn)物和一系列其他不同結(jié)構(gòu),并在針對大腸桿菌的篩選中發(fā)現(xiàn)了 218 種化合物培養(yǎng)物。
僅僅有 218 個陽性,這個結(jié)果是令人驚訝的,但考慮到抗菌藥物發(fā)現(xiàn)工作的難度,這個數(shù)字也算比較難得了。
在 218 種活性化合物中,有大約 80% 是已知抗生素類別中的成員,剩下的部分則是已知細(xì)胞毒性化合物和一些新的通配類型的混合。這為實(shí)驗(yàn)的進(jìn)行提供了一個很好的背景,因?yàn)樵诖蠖鄶?shù)情況下,我們可以預(yù)測從反向?qū)雍Y選中獲得什么結(jié)果。
將活性化合物與預(yù)測的蛋白質(zhì)結(jié)構(gòu)對接
接著,團(tuán)隊研究了這些活性化合物的潛在結(jié)合靶標(biāo)。多年來,在大腸桿菌中進(jìn)行的大量基因組敲除掃描的共識評分已經(jīng)得出了 296 項(xiàng)基本蛋白質(zhì),所以,可以合理推斷所有真正抑制生長的靶標(biāo)蛋白質(zhì)都可能在這些列表當(dāng)中。
作者將 218 種活性化合物中與 AlphaFold 2 預(yù)測出的 296 種基本大腸桿菌蛋白質(zhì)結(jié)構(gòu)進(jìn)行對接,并通過幾種不同的計算方法,對 218 種化合物與 296 種蛋白質(zhì)的組合進(jìn)行計算,預(yù)測了 64000 多個蛋白質(zhì)-配體對的結(jié)合位姿與結(jié)合親和力預(yù)測。
圖注:在 AlphaFold 結(jié)構(gòu)上進(jìn)行分子對接
從計算量來看,這是一個可靠度相當(dāng)高的測試,尤其是考慮到內(nèi)部控制的數(shù)量(具有已知靶標(biāo)的化合物和在這些靶標(biāo)內(nèi)具有已知結(jié)合構(gòu)象的化合物),這項(xiàng)計算是很有價值的。
作為對照,研究團(tuán)隊還從一組化合物中,隨機(jī)選擇了 100 種對細(xì)菌生長完全沒有抑制作用的化合物進(jìn)行相同的計算,從而獲得對 29600 個蛋白質(zhì)-配體對的結(jié)合位姿與親和力預(yù)測。
基于 AlphaFold 2
雖然這項(xiàng)工作預(yù)測了包括活性和非活性化合物的化合物與蛋白質(zhì)混雜性,但問題是,這些預(yù)測中有多少是假陽性?
將模型預(yù)測與已知的抗生素結(jié)合目標(biāo)進(jìn)行比較
為了評估所用模型方法的性能,作者將模型預(yù)測與常用抗生素類別的已知相互作用進(jìn)行比較。
作者搜集了先前文獻(xiàn)中的抗生素-蛋白質(zhì)靶對,組成一個包含 142 種抗生素-蛋白質(zhì)相互作用的數(shù)據(jù)集。結(jié)果發(fā)現(xiàn),他們的模型僅僅正確預(yù)測了 3 種具有強(qiáng)結(jié)合性(即結(jié)合親和力閾值為 -7 kcal/mol )的相互作用,以及 43 種具有一般結(jié)合性(即結(jié)合親和力閾值為 -5 kcal/mol )的相互作用。所以,模型預(yù)測的真陽性率分別為 2.1% 和 30.3%。
這種比較表明,基于AlphaFold 2 預(yù)測結(jié)構(gòu)的建模平臺性能很弱。
測量 12 種基本蛋白質(zhì)的酶抑制
作者接著選取了 12 種基本蛋白質(zhì),它們可以用于酶促測定,通過測量 218 種活性化合物對這些蛋白質(zhì)的酶抑制,作者對模型預(yù)測的子集進(jìn)行進(jìn)一步的評估。
圖注:所有 218 種活性化合物的平均相對活性,12 種蛋白質(zhì)都經(jīng)過抑制實(shí)驗(yàn)測試。結(jié)合相互作用命中是蛋白質(zhì)-配體相互作用(紅點(diǎn)),所有其他交互都被指定為非命中(灰點(diǎn))。
結(jié)果表明,所有測試中的基本蛋白質(zhì)都被至少四種不同的化合物所抑制,涵蓋從強(qiáng)到弱的一系列結(jié)合親和力閾值,基于AlphaFold 2 的模型所預(yù)測的對接顯示出了廣泛的混雜性。
模型的基準(zhǔn)測試
最后,作者對建模平臺的性能進(jìn)行了統(tǒng)計基準(zhǔn)測試。基于酶抑制測量數(shù)據(jù),作者將實(shí)驗(yàn)觀察到的結(jié)合相互作用命中與他們預(yù)測的相互作用進(jìn)行比較,結(jié)合親和力閾值設(shè)定為小于 -5 kcal/mol 和 -7 kcal/mol。
結(jié)果發(fā)現(xiàn),更強(qiáng)結(jié)合性的親和力閾值會導(dǎo)致更少的結(jié)合相互作用預(yù)測,此時真陽性率更低,準(zhǔn)確性更高。模型性能根據(jù)所設(shè)定的結(jié)合親和力閾值從弱到中等變化。
作者又在獨(dú)立于結(jié)合親和力閾值的條件下,使用接受者操作特征曲線 (ROC) 和精確召回曲線 (PR) 再次進(jìn)行評估,也都表明模型性能較弱。
總之,模型的預(yù)測結(jié)果中不僅存在大量假陽性(即非活性化合物被預(yù)測為與關(guān)鍵細(xì)菌蛋白質(zhì)的活性位點(diǎn)結(jié)合),而且還有大量的假陰性(即已知存在相互作用,但沒有被發(fā)現(xiàn))。只有達(dá)到最嚴(yán)格的結(jié)合親和力閾值時,模型才會比隨機(jī)預(yù)測表現(xiàn)得略好一些。
AlphaFold 本身沒錯
接下來的問題是,模型的弱性能是由AlphaFold2 所提供的蛋白質(zhì)結(jié)構(gòu)質(zhì)量導(dǎo)致的嗎?
問題出自對接方法而非蛋白質(zhì)結(jié)構(gòu)質(zhì)量
為了驗(yàn)證這個問題,作者將 218 種活性化合物與八種實(shí)驗(yàn)確定的蛋白質(zhì)結(jié)構(gòu)中的每一種對接進(jìn)行了重復(fù)的對接模擬,并同樣對模型性能進(jìn)行了基準(zhǔn)測試,結(jié)果是 auROC 值在數(shù)量上與先前相似,范圍從 0.25 ( glmU ) 到 0.69 ( gyrAB ),平均值為 0.46。auPRC 值也發(fā)現(xiàn)了類似的結(jié)果,范圍從 0.03 ( ligA ) 到 0.56 ( gyrAB ),平均值為 0.22。
這些發(fā)現(xiàn)表明,使用 AlphaFold2 預(yù)測結(jié)構(gòu)的分子對接與使用實(shí)驗(yàn)確定的結(jié)構(gòu)是類似的。這也與之前對 AlphaFold 對實(shí)驗(yàn)確定的蛋白質(zhì)結(jié)構(gòu)的保真度評估一致,由此可以得出,模型的性能弱是因?yàn)閷臃椒ǖ脑颍皇堑鞍踪|(zhì)結(jié)構(gòu)的質(zhì)量差。
使用機(jī)器學(xué)習(xí)方法可改進(jìn)模型性能
基于分子對接的弱性能問題,研究團(tuán)隊探索了可以提高性能的方法。
研究中使用了四種不同的基于機(jī)器學(xué)習(xí)的評分函數(shù),分別是 RF-Score 、RF-Score-VS、PLEC score 和 NNScore,以對模型性能進(jìn)行基準(zhǔn)測試和改進(jìn)。
相比于 RF-Score 和 RF-Score-VS - RF-Score 的虛擬篩選適應(yīng)性--利用隨機(jī)森林或決策樹的組合來預(yù)測蛋白質(zhì)與配體的結(jié)合親和力,PLEC score 采用了蛋白質(zhì)-配體對之間的擴(kuò)展連接指紋,NNScore 是基于神經(jīng)網(wǎng)絡(luò)的集合。
作者在研究中采用了評分函數(shù),使用 PDBbind v2016 或有用的誘餌目錄對增強(qiáng)(DUD-E)數(shù)據(jù)庫進(jìn)行訓(xùn)練,以重新評估 AutoDock Vina 預(yù)測的對接姿勢。
此外,研究使用 DOCK6.9 和應(yīng)用于 AutoDock Vina 姿勢的每個基于機(jī)器學(xué)習(xí)的評分函數(shù),還預(yù)測了每種抗菌化合物與 12 種經(jīng)驗(yàn)測試必需蛋白中每一種之間的結(jié)合親和力,并對每種方法的性能進(jìn)行基準(zhǔn)測試。測試結(jié)果發(fā)現(xiàn),平均 auROC 值在 0.46 和 0.63 之間(下圖 A)。
其中,與 DOCK6.9 對接并使用 PLEC score 對 AutoDock Vina 姿勢進(jìn)行重新評分平均,導(dǎo)致 auROC 值低于單獨(dú)使用 AutoDock Vina 的結(jié)果,DOCK6.9 的 auROC 值為為 0.46(范圍為 0.25 至 0.61)和 0.47(范圍 PLEC score 為 0.28 至 0.63)(下圖 A)
相比之下,使用 RF-Score、RF-Score-VS 或 NNScore 對 AutoDock Vina 姿勢進(jìn)行重新評分可提高模型性能,平均 auROC 值分別為 0.62(范圍為 0.53 至 0.69)、0.63(范圍為 0.46 至 0.75)和 0.58(范圍為 0.41 到 0.69)。研究結(jié)果也與 auPRC 相似,當(dāng)使用 RF-Score 重新評分時,其平均值高達(dá) 0.24。
這些模型性能評估表明,某些基于機(jī)器學(xué)習(xí)的評分函數(shù)提高了預(yù)測準(zhǔn)確性。
圖注:使用機(jī)器學(xué)習(xí)對模型性能進(jìn)行基準(zhǔn)測試和改進(jìn)。A. 在不同的分子對接程序和不同的基于機(jī)器學(xué)習(xí)的姿勢評分函數(shù)。白點(diǎn)表示平均值;灰色條表第25-75個百分位值的范圍;灰色箱線圖須線表示不被視為異常值的值范圍;0.5 處的水平線表示隨機(jī)預(yù)測生成的基準(zhǔn)。B. 通過在 AutoDock Vina 應(yīng)用基于機(jī)器學(xué)習(xí)的重新評分函數(shù)建模的蛋白質(zhì)-配體對的排序結(jié)合親和力 。曲線根據(jù) (A) 中使用的重新評分函數(shù)著色;陰影區(qū)域表示 > 7 的結(jié)合親和力閾值。C-E. 預(yù)測準(zhǔn)確性、預(yù)測陽性數(shù)(蛋白質(zhì)-配體相互作用)和真陽性率/假陽性率對所用模型數(shù)量的依賴性。
群體智慧方法可提高預(yù)測準(zhǔn)確性
由于某些基于機(jī)器學(xué)習(xí)的評分函數(shù)會增加 auROC 和 auPRC,研究還探討了在嚴(yán)格限制結(jié)合親和力閾值的情況下,結(jié)合“群體智慧”方法使用重新評分模型,是否可以提高預(yù)測準(zhǔn)確性和真陽性率。
作者將預(yù)測的蛋白質(zhì)-配體相互作用,定義為滿足所有模型的結(jié)合親和力閾值,并將 AutoDock Vina 預(yù)測與上述四種基于機(jī)器學(xué)習(xí)的評分函數(shù)的預(yù)測相結(jié)合;研究通過使用這種共識方法發(fā)現(xiàn),預(yù)測準(zhǔn)確性可隨著使用的模型數(shù)量而提高(上圖 C),這同預(yù)測的蛋白質(zhì)-配體相互作用數(shù)量的相應(yīng)減少預(yù)期一致(上圖 D)。
與此同時,真陽性率與假陽性率的比率則是隨使用模型數(shù)量的增加而增加,在預(yù)期之外(上圖 E)。
可以看到,該結(jié)果同使用某些基于機(jī)器學(xué)習(xí)的評分函數(shù)提高預(yù)測能力的發(fā)現(xiàn)一致,這也進(jìn)一步表明了,將分子對接與基于機(jī)器學(xué)習(xí)的模型結(jié)合起來,可以讓人們更好地利用 AlphaFold2 預(yù)測的蛋白質(zhì)結(jié)構(gòu)進(jìn)行藥物篩選。
所以,一些機(jī)器學(xué)習(xí)方法確實(shí)可以提高了預(yù)測的準(zhǔn)確性。不過,這只是部分的成功,當(dāng)前研究所用的數(shù)據(jù)集中有很多已經(jīng)確定的蛋白質(zhì)和化合物的實(shí)驗(yàn)事實(shí),如果涉及那些較少被關(guān)注的領(lǐng)域,這些方法是否仍然奏效就不可知了。
雖然 AlphaFold 為我們提供了大量且合理的蛋白質(zhì)結(jié)構(gòu),但我們實(shí)現(xiàn)它的價值的能力還非常有限。所以至少在目前看來,“AlphaFold 將徹底改變藥物發(fā)現(xiàn)”的說法還尚待證實(shí),成功還在未來。
參考鏈接:
關(guān)鍵詞: 人工智能 MIT最新研究AlphaFold蛋白質(zhì)預(yù)測能力太差
推薦
-
Instagram短視頻功能發(fā)展正趨于停滯 觀看時長不及TikTok十分之一
幾個月來 Instagram 一直在努力發(fā)展其短視頻項(xiàng)目 Reels,但據(jù)一份內(nèi)部報告顯示,短視頻功能的發(fā)展正...
來源:TechWeb -
5G高空瞭望智能“監(jiān)督員”24小時在崗 鶴壁打造5G智慧社區(qū)
守在大屏前,小區(qū)各處安全狀況一覽無余;不用跑醫(yī)院,5G健康小屋幫你體檢;在公園座椅休息時,可以同時充...
來源:人民郵電報 -
筑牢網(wǎng)絡(luò)安全防線 中國工業(yè)互聯(lián)網(wǎng)研究院設(shè)立“網(wǎng)絡(luò)安全宣傳角”
在第九屆國家網(wǎng)絡(luò)安全宣傳周活動中,中國工業(yè)互聯(lián)網(wǎng)研究院依托門戶網(wǎng)站、微信公眾號發(fā)布《2022網(wǎng)絡(luò)安全...
來源:人民郵電報 -
-
提升城鎮(zhèn)一體化醫(yī)療服務(wù)能力 安溪升級智慧醫(yī)療云
近日,福建安溪電信在成功打造全縣醫(yī)療云服務(wù)的基礎(chǔ)上,依托EC產(chǎn)業(yè)園醫(yī)療云平臺,聯(lián)手安溪衛(wèi)健局開展醫(yī)...
來源:人民郵電報 -
AT&T投資600萬美元推出數(shù)字素養(yǎng)計劃 預(yù)計有超過65000人受益
美國電信運(yùn)營商AT&T計劃捐贈600萬美元,用于推動覆蓋全美范圍的數(shù)字素養(yǎng)計劃,預(yù)計有超過65000人受益于...
來源:人民郵電報 -
詹姆斯韋伯太空望遠(yuǎn)鏡 探測到太陽系外存在二氧化碳
最近天文學(xué)家利用美國國家航空航天局(NASA)的詹姆斯?韋伯太空望遠(yuǎn)鏡探測到太陽系外存在二氧化碳的證據(jù)...
來源:網(wǎng)易科技 -
SpaceX用戶發(fā)出通知 將根據(jù)當(dāng)?shù)厥袌鰻顩r下調(diào)費(fèi)用最多可打五折
埃隆?馬斯克(Elon Musk)旗下太空公司 SpaceX 已經(jīng)向世界各地的太空互聯(lián)網(wǎng)服務(wù)星鏈用戶發(fā)出通知,宣...
來源:網(wǎng)易科技 -
放棄老式登錄方式 Facebook母公司正式推出Meta賬戶
社交網(wǎng)絡(luò)巨頭 Meta正式推出了所謂的 Meta 賬戶和 Meta Horizon 個人資料。它們將被用來取代曾經(jīng)用...
來源:網(wǎng)易科技 -
今年全球半導(dǎo)體資本支出將達(dá)1855億美元 再次實(shí)現(xiàn)兩位數(shù)增長
據(jù)知名半導(dǎo)體分析機(jī)構(gòu) IC Insights 發(fā)布的最新數(shù)據(jù),顯示 2020-2022 這三年,將是自 1993-1995 ...
來源:愛集微
直播更多》
-
特斯拉公司目前正聚焦中國市場 并打算進(jìn)一步擴(kuò)大在華生產(chǎn)
特斯拉公司目前正聚焦中國市場,并打算...
-
特斯拉公司目前正聚焦中國市場 并打算進(jìn)一步擴(kuò)大在華生產(chǎn)
特斯拉公司目前正聚焦中國市場,并打算...
-
中國電信翼支付平臺發(fā)券61.17萬張 金額達(dá)到2355.15萬元
翼支付好搶!搶到了50元大額券!翼支付非...
-
中國電信30多款重點(diǎn)展項(xiàng) 精彩亮相國家網(wǎng)絡(luò)安全宣傳周網(wǎng)絡(luò)安全博覽會
在國家網(wǎng)絡(luò)安全宣傳周網(wǎng)絡(luò)安全博覽會上...
-
福建省工業(yè)和信息化廳召開專題會議 對全省無管機(jī)構(gòu)下一步工作提出五點(diǎn)要求
近期,福建省工業(yè)和信息化廳召開專題會...
-
落實(shí)“一崗雙責(zé)”主體責(zé)任 新疆鐵塔構(gòu)建安全生產(chǎn)管理體系
新疆鐵塔堅持管行業(yè)必須管安全、管業(yè)務(wù)...
資訊更多》
-
貝索斯前妻捐贈兩...
-
福建元代海船水下...
-
2022年國家網(wǎng)絡(luò)安...
-
黑龍江省工業(yè)和信...
-
2022年中國網(wǎng)絡(luò)文...
-
第二屆中國網(wǎng)絡(luò)與...
焦點(diǎn)
- SK明年將在韓國投資73萬億韓元提升產(chǎn)能 未來5年還將投入25萬億韓元
- 大理州首個文旅行業(yè)5G應(yīng)用 5G智慧文旅項(xiàng)目落戶銀都水鄉(xiāng)
- 德國柏林國際消費(fèi)電子展全面恢復(fù)線下舉辦 大量“智慧家居”類產(chǎn)品吸引眼球
- 中俄邊境地區(qū)無線電頻率協(xié)調(diào)工作組及專家組會談 近日以線上視頻形式召開
- 浙江移動物聯(lián)網(wǎng)連接數(shù)突破1億 率先邁入萬物智聯(lián)時代
- 全力構(gòu)建數(shù)據(jù)出境的“安全屏障” 9月1日起《數(shù)據(jù)出境安全評估辦法》正式施行
- 侵犯mRNA技術(shù)平臺核心專利 莫德納對輝瑞和BioNTech提起訴訟
- T-Mobile因泄密損失5億美元 其中3.5億美元將用于用戶賠償
- 數(shù)字政府市場規(guī)模保持高速增長 我國數(shù)字政府建設(shè)跑出“加速度”
- 中國信息通信研究院發(fā)布《中國存力白皮書》 梳理全球存儲產(chǎn)業(yè)發(fā)展現(xiàn)狀