來源:藥明康德
就在人工智能學(xué)者出人意料地摘得2024年諾貝爾物理學(xué)獎(jiǎng)之后,北京時(shí)間10月9日下午,諾貝爾基金會(huì)宣布將今年的諾貝爾化學(xué)獎(jiǎng)?lì)C發(fā)給了三位研究領(lǐng)域與人工智能相關(guān)的科學(xué)家。
其中,被譽(yù)為“AlphaFold之父”的谷歌DeepMind公司Demis Hassabis博士和John Jumper博士因?yàn)?strong style="-webkit-tap-highlight-color:transparent;margin:0px;padding:0px;outline:0px;max-width:100%;box-sizing:border-box !important;overflow-wrap:break-word !important;visibility:visible;">蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)獲獎(jiǎng),而華盛頓大學(xué)的David Baker教授因計(jì)算蛋白設(shè)計(jì)榮獲殊榮。他們開發(fā)的AI解決方案成功解決了50年來蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域的重大挑戰(zhàn),加速了生物醫(yī)藥領(lǐng)域的科學(xué)發(fā)現(xiàn)。
下面,藥明康德內(nèi)容團(tuán)隊(duì)將與大家一道回顧這個(gè)革命性的AI解決方案的誕生和成長(zhǎng)史。
首先,讓我們來看兩位共同主導(dǎo)了AlphaFold開發(fā)的獲獎(jiǎng)?wù)叩墓适?。其中?/span>Demis Hassabis博士是DeepMind的創(chuàng)始人兼首席執(zhí)行官,同時(shí)也是AlphaFold項(xiàng)目的負(fù)責(zé)人。John Jumper博士則是AlphaFold項(xiàng)目的首席高級(jí)研究員。深度學(xué)習(xí)算法使蛋白結(jié)構(gòu)預(yù)測(cè)領(lǐng)域?qū)崿F(xiàn)飛躍我們都知道,蛋白質(zhì)是維持我們生命所必需的龐大而復(fù)雜的物質(zhì)。我們身體的幾乎所有功能,例如收縮肌肉、感知光線或?qū)⑹澄镛D(zhuǎn)化成能量等,都需要一種或多種蛋白質(zhì)來完成。而蛋白質(zhì)具體能做什么就要取決于它獨(dú)特的3D結(jié)構(gòu)了。然而,純粹基于其基因序列推測(cè)蛋白質(zhì)的3D結(jié)構(gòu)是一項(xiàng)非常具有挑戰(zhàn)性的復(fù)雜任務(wù)。這是因?yàn)槲覀兊腄NA通常只包含蛋白質(zhì)中氨基酸殘基的序列信息,而這些氨基酸殘基形成的長(zhǎng)鏈將會(huì)折疊成錯(cuò)綜復(fù)雜的3D結(jié)構(gòu),加上蛋白質(zhì)越大,需要考慮的氨基酸之間的相互作用就越多,對(duì)其結(jié)構(gòu)的建模過程就會(huì)更加復(fù)雜和困難。在過去的數(shù)十年中,科學(xué)家們已經(jīng)能夠利用冷凍電子顯微鏡、核磁共振或X射線晶體學(xué)等技術(shù)在實(shí)驗(yàn)室中確定蛋白質(zhì)的形狀,但這些方法都需要通過大量的試錯(cuò)才能獲得最終的結(jié)果,這可能需要花上好幾年時(shí)間以及大量的資金。幸運(yùn)的是,得益于基因測(cè)序成本的快速降低,基因組學(xué)領(lǐng)域的數(shù)據(jù)變得豐富了起來。一些科學(xué)家們開始利用AI技術(shù)開發(fā)深度學(xué)習(xí)算法,在基因組學(xué)數(shù)據(jù)的基礎(chǔ)上對(duì)蛋白質(zhì)結(jié)構(gòu)進(jìn)行預(yù)測(cè)。在此基礎(chǔ)上,AlphaFold誕生了。
2018年12月,DeepMind宣布推出全新的AlphaFold系統(tǒng),能夠預(yù)測(cè)并生成蛋白質(zhì)的3D結(jié)構(gòu)。在當(dāng)年的國際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽(CASP)上,初次登場(chǎng)的AlphaFold就成為了最大的黑馬,以絕對(duì)的優(yōu)勢(shì)擊敗了上百位的參會(huì)選手,拔得頭籌。在比賽中,AlphaFold成功預(yù)測(cè)了給定的43種蛋白質(zhì)中的25種的最準(zhǔn)確結(jié)構(gòu),而同一類別的第二名參賽隊(duì)伍只預(yù)測(cè)出了43種中的3種。和以往依賴預(yù)先構(gòu)想邏輯的傳統(tǒng)人工智能方法不同的是,AlphaFold并未使用已經(jīng)明確結(jié)構(gòu)的蛋白質(zhì)3D模型作為模板,而是通過將機(jī)器學(xué)習(xí)作為蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)網(wǎng)絡(luò)的核心組成部分,讓AlphaFold從數(shù)據(jù)中自行發(fā)現(xiàn)模式規(guī)律。DeepMind團(tuán)隊(duì)使用的方法都以深度神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),從基因序列中預(yù)測(cè)蛋白質(zhì)的兩種物理性質(zhì):氨基酸對(duì)之間的距離及連接這些氨基酸的化學(xué)鍵之間的角度。首先,研究小組訓(xùn)練了一個(gè)深度神經(jīng)網(wǎng)絡(luò),來預(yù)測(cè)蛋白質(zhì)中每對(duì)氨基酸殘基之間距離的分布情況。然后,研究人員將這些數(shù)值轉(zhuǎn)化為評(píng)分,來對(duì)蛋白質(zhì)結(jié)構(gòu)的精確程度進(jìn)行評(píng)估。同時(shí),研究人員還另外訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò),利用這些距離數(shù)值來評(píng)估預(yù)測(cè)結(jié)構(gòu)與真實(shí)結(jié)構(gòu)的接近程度。不僅如此,DeepMind的研究人員還在這些評(píng)分函數(shù)的基礎(chǔ)上,使用了兩種全新的方式來優(yōu)化蛋白質(zhì)結(jié)構(gòu)評(píng)分:他們使用了一個(gè)生成神經(jīng)網(wǎng)絡(luò),不斷生成新的蛋白質(zhì)片段來反復(fù)替換一段舊的蛋白質(zhì)結(jié)構(gòu),這樣一來,蛋白質(zhì)結(jié)構(gòu)的評(píng)分就被不斷提高了。另外,研究人員還使用了一種名為梯度下降的方式來讓AlphaFold預(yù)測(cè)的結(jié)構(gòu)變得高度精確。梯度下降是一種機(jī)器學(xué)習(xí)中常用的數(shù)學(xué)技術(shù),用來實(shí)現(xiàn)漸進(jìn)式的細(xì)微改進(jìn)。研究人員將這項(xiàng)技術(shù)用于整個(gè)蛋白質(zhì)鏈,而不是結(jié)構(gòu)中組裝前必須分開折疊的片段,降低了預(yù)測(cè)過程的復(fù)雜性。AlphaFold再次進(jìn)化加速科學(xué)發(fā)現(xiàn)盡管AlphaFold的首戰(zhàn)告捷,但DeepMind的研究人員并不滿意:他們希望得到一種對(duì)于實(shí)驗(yàn)人員更加有用的工具,誤差小于1埃米(原子的大小)。經(jīng)過多輪的調(diào)試和集思廣益,DeepMind的研究團(tuán)隊(duì)在原來的算法基礎(chǔ)上成功構(gòu)建出了AlphaFold2。在2020年的CASP上,DeepMind的AlphaFold2系統(tǒng)表現(xiàn)驚艷,在接受檢驗(yàn)的近100個(gè)蛋白靶點(diǎn)中,AlphaFold2對(duì)三分之二的蛋白靶點(diǎn)給出的預(yù)測(cè)結(jié)構(gòu)與實(shí)驗(yàn)手段獲得的結(jié)構(gòu)相差無幾。有些情況下,已經(jīng)無法區(qū)分兩者之間的區(qū)別是由于AlphaFold2的預(yù)測(cè)出現(xiàn)錯(cuò)誤,還是實(shí)驗(yàn)手段產(chǎn)生的假象。2021年,Hassabis博士和Jumper博士與歐洲分子生物學(xué)實(shí)驗(yàn)室的歐洲生物信息學(xué)研究所(EMBL-EBI)合作,發(fā)布了AlphaFold預(yù)測(cè)的蛋白結(jié)構(gòu)數(shù)據(jù)庫(AlphaFold Protein Structure Database)。這個(gè)數(shù)據(jù)庫涵蓋了人類和20種常用模式生物的35萬個(gè)蛋白質(zhì)結(jié)構(gòu),并且對(duì)98.5%的人類蛋白質(zhì)結(jié)構(gòu)進(jìn)行了準(zhǔn)確預(yù)測(cè)——要知道在此之前,科學(xué)界解析的蛋白質(zhì)結(jié)構(gòu)只覆蓋了人類蛋白序列17%的氨基酸。歐洲生物信息研究所主任Ewan Birney博士稱該數(shù)據(jù)庫為人類基因組圖譜發(fā)布以來最重要的數(shù)據(jù)庫之一。人工智能預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)領(lǐng)域的一系列突破,也被《科學(xué)》評(píng)選為2021年的年度科學(xué)突破。而更令人激動(dòng)的是,他們開發(fā)的這一數(shù)據(jù)庫將免費(fèi)提供給全球的科研人員開放使用!許多科學(xué)家和生物醫(yī)藥公司的研究員興奮地表示,這一系列突破將加速新藥開發(fā),并為基礎(chǔ)科學(xué)帶來全新革命。2022年,DeepMind與EMBL-EBI團(tuán)隊(duì)的合作又迎來了一項(xiàng)巨大的飛躍。AlphaFold對(duì)蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè)不再局限于人類與模式生物,而是拓展至涵蓋了動(dòng)植物、細(xì)菌等的100萬個(gè)物種。不僅如此,其預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)數(shù)量也提升了數(shù)百倍。AlphaFold2已對(duì)超過2億種蛋白質(zhì)進(jìn)行了結(jié)構(gòu)預(yù)測(cè)——幾乎是科學(xué)界已知的所有蛋白質(zhì)。同樣的,這2億種蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)數(shù)據(jù)依然向公眾免費(fèi)開放,使研究人員能夠像使用谷歌搜索信息一樣搜索蛋白質(zhì)的結(jié)構(gòu),為研究人員即時(shí)提供他們正在研究的任何蛋白質(zhì)的預(yù)測(cè)模型,大大減少了他們?cè)?jīng)需要花在確定蛋白質(zhì)結(jié)構(gòu)上的時(shí)間。目前,這些數(shù)據(jù)已經(jīng)在瘧疾疫苗開發(fā)、解決抗生素耐藥性問題與塑料污染等場(chǎng)景中得到應(yīng)用,并能夠幫助研發(fā)人員加速新藥研發(fā)。除此以外,該模型還具有加速生物學(xué)各個(gè)研究領(lǐng)域的潛力,其應(yīng)用前景正等著更多才華橫溢的科學(xué)家們來盡情開發(fā)。提到蛋白質(zhì)從頭設(shè)計(jì),華盛頓大學(xué)蛋白質(zhì)設(shè)計(jì)研究所所長(zhǎng)David Baker博士的大名可謂是無人不知。不過,可能很少有人知道,在走上生物化學(xué)研究的道路前,Baker的專業(yè)是研究哲學(xué)。1983年,一堂關(guān)于蛋白質(zhì)折疊問題的生物學(xué)課程徹底改變了他的人生軌跡。自那以后,這個(gè)眾多科學(xué)家前赴后繼嘗試破解的生物學(xué)難題便成了他畢生的研究課題。在生物體內(nèi),蛋白質(zhì)讓很多科學(xué)家們著迷。這種分子的尺寸只有納米大小,復(fù)雜程度卻可以超過任何一臺(tái)人造的機(jī)器,大自然的精妙由此也可見一斑。1983年,在哈佛大學(xué)學(xué)習(xí)哲學(xué)的Baker在一堂生物學(xué)課程上了解到蛋白質(zhì)折疊問題。此前的科學(xué)家們通過試驗(yàn)發(fā)現(xiàn),這些復(fù)雜的蛋白質(zhì)只由20種簡(jiǎn)單的氨基酸經(jīng)過排列組合拼接而成,而一條氨基酸序列就已包含了它能形成蛋白質(zhì)的所有結(jié)構(gòu)和活性信息。就像有設(shè)計(jì)圖紙一樣,一條氨基酸序列可以自發(fā)折疊成唯一的三維結(jié)構(gòu),然后在細(xì)胞內(nèi)發(fā)揮特定的功能——有的可以結(jié)合DNA,控制基因的開關(guān);有的可以識(shí)別病原體,啟動(dòng)免疫反應(yīng)。在這些現(xiàn)象背后,一個(gè)巨大的問題隨之浮現(xiàn):一條氨基酸序列從理論上來說可以有無數(shù)種折疊方式,那為什么它能夠自發(fā)折疊成唯一的三維結(jié)構(gòu)呢?自那堂課后,Baker對(duì)這個(gè)數(shù)十年來困擾了無數(shù)科學(xué)家的難題產(chǎn)生了極大的興趣,甚至不惜轉(zhuǎn)換專業(yè)在生物學(xué)領(lǐng)域從頭開始學(xué)習(xí)。而當(dāng)他和導(dǎo)師提起他想要對(duì)這個(gè)難題發(fā)起挑戰(zhàn)時(shí),他的導(dǎo)師勸他不要頭腦發(fā)熱,因?yàn)?strong style="-webkit-tap-highlight-color:transparent;margin:0px;padding:0px;outline:0px;max-width:100%;box-sizing:border-box !important;overflow-wrap:break-word !important;">“沒人知道這是怎么回事”。聽從了導(dǎo)師的建議,Baker將這一念頭短暫封存,并在未來的諾獎(jiǎng)得主Randy Schekman教授課題組獲得了博士學(xué)位,主攻細(xì)胞生物學(xué)。博士后期間,Baker接觸到使用計(jì)算機(jī)科學(xué)來進(jìn)行結(jié)構(gòu)生物學(xué)研究的方法。在這個(gè)過程中,他發(fā)現(xiàn)使用計(jì)算機(jī)解析晶體結(jié)構(gòu)并不是他擅長(zhǎng)的,但他卻萌生出了另一個(gè)想法,或許計(jì)算機(jī)可以幫他實(shí)現(xiàn)那個(gè)他始終放不下的夢(mèng)想——解開蛋白質(zhì)折疊之謎。
向夢(mèng)想靠近,開發(fā)出蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)程序
1993年,Baker成功獲得了華盛頓大學(xué)生物化學(xué)系助理教授的職位,開始獨(dú)立工作。在他招收第二個(gè)學(xué)生后,他建議學(xué)生借助計(jì)算機(jī)的力量做蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)相關(guān)的課題。1996年,他與研究生們開始編寫一個(gè)叫做Rosetta的程序,這個(gè)程序有潛力根據(jù)一段氨基酸序列解出蛋白質(zhì)的結(jié)構(gòu)。在自然界中,為了保持穩(wěn)定,蛋白質(zhì)總是折疊成具有“最低自由能”的形狀。這就好像水會(huì)從高處往低處流,然后停留在那里一樣。不過利用計(jì)算機(jī)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)也并沒有想象中那么簡(jiǎn)單。由于每個(gè)氨基酸至少有三種不同的構(gòu)象,那么一個(gè)僅含有100個(gè)氨基酸的蛋白質(zhì),其可能的結(jié)構(gòu)就高達(dá)3的100次方種,這對(duì)計(jì)算機(jī)來說都是個(gè)難以處理的運(yùn)算量。不過,Rosetta的程序設(shè)計(jì)用了一種十分巧妙的方法,它不是通過窮舉法從這些天文數(shù)字般的可能結(jié)構(gòu)中挨個(gè)尋找自由能最低的形狀,而是先分析蛋白質(zhì)的生物物理特性,模擬出一個(gè)大致的形狀,然后進(jìn)行微調(diào),只留下自由能更低的結(jié)果。這樣一來,研究人員們可以更快預(yù)測(cè)出蛋白質(zhì)的結(jié)構(gòu)。好消息是,Rosetta的表現(xiàn)十分驚艷。自1994年起,和Baker一樣想要解開蛋白折疊之謎的生物學(xué)家們會(huì)定期聚在一起,檢驗(yàn)各自的成果:就像考試一般,他們會(huì)拿到一個(gè)蛋白質(zhì)的序列,然后預(yù)測(cè)出它的結(jié)構(gòu)。隨后,這些預(yù)測(cè)結(jié)構(gòu)會(huì)和已通過實(shí)驗(yàn)方法得到解析但尚未公開的真實(shí)結(jié)構(gòu)進(jìn)行比對(duì),看哪一個(gè)結(jié)構(gòu)更為接近。在這個(gè)被譽(yù)為蛋白質(zhì)結(jié)構(gòu)領(lǐng)域“奧林匹克”的活動(dòng)中,Rosetta程序總是最有力的競(jìng)爭(zhēng)者,并且具有統(tǒng)治性的優(yōu)勢(shì)。在Rosetta誕生的過程中,Baker還有許多意料之外的收獲。盡管Rosetta的設(shè)計(jì)經(jīng)過優(yōu)化,但預(yù)測(cè)蛋白質(zhì)折疊所需要的運(yùn)算量依然巨大。最開始,Baker只能通過不停購置新的電腦設(shè)備來擴(kuò)大計(jì)算力,后來,新買的電腦把實(shí)驗(yàn)室的空間占滿了卻依然無法滿足他們的需求。迫于這樣的壓力,Baker和他的學(xué)生們想出了一個(gè)絕妙的解決方案——借助互聯(lián)網(wǎng),邀請(qǐng)世界各地的人們用他們計(jì)算機(jī)的閑置算力來幫助進(jìn)行計(jì)算。2005年,Baker團(tuán)隊(duì)啟動(dòng)了一個(gè)名為Rosetta@home的項(xiàng)目,基于他們開發(fā)的Rosetta軟件包,利用分布式計(jì)算的力量來解析蛋白質(zhì)結(jié)構(gòu)。令人感到意外的是,這些“網(wǎng)友”們還給Baker發(fā)去了反饋意見,表示計(jì)算機(jī)折疊沒有他們手動(dòng)折疊來得更好。更巧的是,當(dāng)他與一名計(jì)算機(jī)科學(xué)家聊起這些話題時(shí),倆人靈感迸發(fā),決定從Rosetta@home出發(fā)開發(fā)一款游戲,讓全世界對(duì)蛋白折疊感興趣的人能夠發(fā)揮他們的才華,參與到蛋白質(zhì)折疊的解謎游戲中。這款名為Foldit的游戲由于能幫助學(xué)生更好地了解蛋白質(zhì)的三維性質(zhì)以及蛋白質(zhì)結(jié)構(gòu)和功能間的關(guān)系,已被一些大學(xué)引入課堂。更令人吃驚的是,一些該游戲的高級(jí)玩家還曾通過這款游戲破解了一種逆轉(zhuǎn)錄病毒的蛋白結(jié)構(gòu),并將成果發(fā)表在了《自然》雜志子刊上。
除此以外,與Foldit同時(shí)期誕生的還有一個(gè)名為Rosetta Commons的學(xué)術(shù)團(tuán)體。這個(gè)團(tuán)體的成員包括許多高校和研究機(jī)構(gòu)的人員,其中很多都在Baker的實(shí)驗(yàn)室工作過。除了日常的交流合作,他們會(huì)定期舉辦會(huì)議分享最新成果、討論如何進(jìn)一步優(yōu)化Rosetta,并開設(shè)訓(xùn)練營培訓(xùn)那些對(duì)Rosetta感興趣但不知道如何使用的人。雖然Baker最初的研究方向是預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu),但在這個(gè)方向上取得突破之前,他已著手向另一個(gè)截然相反且更具挑戰(zhàn)性的領(lǐng)域——“蛋白質(zhì)的從頭設(shè)計(jì)”發(fā)起了沖擊。相比于預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu),從頭設(shè)計(jì)出一個(gè)蛋白質(zhì)需要向弄清蛋白質(zhì)折疊的原理再邁進(jìn)一步。這要求科學(xué)家們能根據(jù)一個(gè)具有特定形狀的蛋白,倒推出其DNA序列。從某種意義上講,從頭設(shè)計(jì)蛋白,要比預(yù)測(cè)蛋白結(jié)構(gòu)難上幾個(gè)數(shù)量級(jí)。假設(shè)要設(shè)計(jì)一個(gè)由100個(gè)氨基酸組成的蛋白質(zhì),每一種氨基酸又有20種截然不同的可能,使將得可能的氨基酸序列總數(shù)高達(dá)20的100次方。這個(gè)數(shù)字究竟有多大?它比整個(gè)宇宙中原子的總數(shù)還要多!由于Baker在Rosetta的開發(fā)中已經(jīng)取得過一定的經(jīng)驗(yàn),這次再開發(fā)從頭設(shè)計(jì)蛋白質(zhì)的方法就有了良好的基礎(chǔ)。從DNA序列到蛋白質(zhì)結(jié)構(gòu),Rosetta能找到能量最低的形狀。那么反過來,Rosetta也能用來推導(dǎo)為了構(gòu)成這一形狀所需的蛋白組件。在此基礎(chǔ)上,研究人員們還學(xué)會(huì)了如何像拆解樂高玩具一樣,將一個(gè)蛋白質(zhì)拆成螺旋或者桶裝的小塊,分塊擊破。
2003年,Baker的團(tuán)隊(duì)設(shè)計(jì)出了第一個(gè)原本并不存在于自然界中的蛋白質(zhì),它被命名為Top7。這當(dāng)然是一個(gè)重要突破,但卻沒有開辟一個(gè)嶄新的時(shí)代。Baker實(shí)驗(yàn)室的成員開玩笑說Top7只是一塊從熱力學(xué)角度上看很穩(wěn)定的“石頭”。因?yàn)樗麄儚念^設(shè)計(jì)出的這個(gè)蛋白質(zhì)雖然折疊成了研究人員們想要它折疊的模樣,但不具有任何功能。7年后,Baker的一名博士后研究員做出了改進(jìn)。他將抗體的一部分連接到了人造蛋白上,使人造蛋白首度具有了功能:新合成的蛋白能識(shí)別流感病毒,有望成為一種新的藥物,但這多少有些“作弊”的意思,畢竟最重要的那部分來自天然的抗體。接下來的幾年時(shí)間,Baker的團(tuán)隊(duì)對(duì)Rosetta進(jìn)行了更多的優(yōu)化。如今,Baker的實(shí)驗(yàn)室,以及他的合作伙伴們已能設(shè)計(jì)出多種不同的蛋白,有朝一日,人類完全獲得“上帝之手”的能力將不再是夢(mèng)想。不過到目前,從頭設(shè)計(jì)蛋白依然是一個(gè)不斷試錯(cuò)的工作,需要大量的資源投入。以設(shè)計(jì)結(jié)合蛋白為例,從流程上看,科學(xué)家會(huì)首先用Rosetta模擬出所感興趣蛋白表面上的一個(gè)“口袋”,然后再設(shè)計(jì)出大量不同的螺旋結(jié)構(gòu),形成穩(wěn)定骨架。這些骨架上含有一些特定的氨基酸,有可能會(huì)與“口袋”進(jìn)行完美的契合。這個(gè)工作就像是在一把鑰匙上不斷打磨,最終使其完美地對(duì)應(yīng)一把鎖。隨后,研究人員們會(huì)根據(jù)設(shè)計(jì)合成所要的DNA序列,將其引入細(xì)菌細(xì)胞,期望它們能夠產(chǎn)生所需要的蛋白。獲取這些蛋白后,他們還會(huì)做兩個(gè)測(cè)試:評(píng)估這些蛋白是否能如預(yù)期般折疊,以及折疊后的蛋白是否能如預(yù)期般結(jié)合特定蛋白。通常來講,人工設(shè)計(jì)的蛋白極少能同時(shí)滿足這兩個(gè)條件。而那些脫穎而出的蛋白,則會(huì)成為新一輪設(shè)計(jì)與篩選的起點(diǎn),直至獲得最佳的構(gòu)象。
遇勁敵,取長(zhǎng)補(bǔ)短開啟新一輪進(jìn)化之路
在2018年以前,Baker及其團(tuán)隊(duì)開發(fā)的Rosetta在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域完全沒有對(duì)手。而那一年,AlphaFold的出現(xiàn)令Baker嗅到了危機(jī)。盡管18年的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽依然是Rosetta拔得頭籌,但首次亮相就獲得了第二名的AlphaFold令Baker見識(shí)到了機(jī)器學(xué)習(xí)的過人之處。于是,他要求團(tuán)隊(duì)緊跟時(shí)代的風(fēng)向,加緊研究機(jī)器學(xué)習(xí)。Baker的預(yù)感沒有錯(cuò),在2020年的競(jìng)賽中,第二代AlphaFold擊敗了Rosetta,一舉成名。不過,Baker率領(lǐng)著團(tuán)隊(duì)很快就追趕了上來。2021年7月15日,當(dāng)DeepMind公司在《自然》雜志上發(fā)表論文,公開了“AlphaFold2”的源代碼,并且詳細(xì)描述了它的設(shè)計(jì)框架和訓(xùn)練方法時(shí),Baker的團(tuán)隊(duì)也于《科學(xué)》雜志上介紹了其開發(fā)的RoseTTAFold算法。RoseTTAFold的神經(jīng)網(wǎng)絡(luò)能夠同時(shí)考慮蛋白序列的模式、蛋白中不同氨基酸之間的相互作用,以及蛋白質(zhì)可能出現(xiàn)的3D結(jié)構(gòu)。在這個(gè)系統(tǒng)中,一維、二維和三維的信息能夠相互交流,讓神經(jīng)網(wǎng)絡(luò)綜合所有信息,決定蛋白質(zhì)的化學(xué)組成部分和它折疊產(chǎn)生的結(jié)構(gòu)之間的關(guān)系。
研究人員表示,RoseTTAFold系統(tǒng)在解析蛋白質(zhì)3D結(jié)構(gòu)方面的表現(xiàn)與AlphaFold2的水平幾乎相當(dāng),在有些蛋白上甚至優(yōu)于AlphaFold2。利用來自AlphaFold的公開信息,也得益于多年來對(duì)于機(jī)器學(xué)習(xí)的積累,這個(gè)算法的開發(fā)只用了區(qū)區(qū)幾個(gè)月的時(shí)間。作為蛋白質(zhì)從頭設(shè)計(jì)的先驅(qū)者,Baker希望通過“蛋白質(zhì)設(shè)計(jì)革命”開啟一個(gè)全新的時(shí)代,我們將學(xué)會(huì)使用一種前所未有的方式來操控生物分子,例如從頭設(shè)計(jì)出全新的藥物、疫苗、疾病療法等,拓展新藥研發(fā)的邊界。2022年8月,Baker及其團(tuán)隊(duì)在《細(xì)胞》雜志上發(fā)表論文,他們已利用AI技術(shù)平臺(tái)精準(zhǔn)地從頭設(shè)計(jì)出能夠穿過細(xì)胞膜的大環(huán)多肽分子,開辟了設(shè)計(jì)全新口服藥物的新途徑。同時(shí),Baker團(tuán)隊(duì)成員聯(lián)合創(chuàng)建的初創(chuàng)公司Vilya也正式亮相,并從著名風(fēng)投機(jī)構(gòu)ARCH Venture Partners獲得5000萬美元A輪融資。利用這一技術(shù),跳過高通量篩選、直接合成候選藥物的策略不再遙不可及!今年以來,Baker及其團(tuán)隊(duì)已在《自然》和《科學(xué)》雜志上發(fā)表了數(shù)篇重磅論文,其開發(fā)的全新的蛋白質(zhì)從頭設(shè)策略法可靶向不可成藥靶點(diǎn),并能實(shí)現(xiàn)按需設(shè)計(jì)生物分子,為蛋白設(shè)計(jì)提供了更廣闊的可能性。
華盛頓大學(xué)蛋白設(shè)計(jì)研究所首席戰(zhàn)略及運(yùn)營官Lance Stewart博士是David Baker教授長(zhǎng)期的合伙伙伴。在2023年藥明康德全球論壇上,他指出:“現(xiàn)在的新技術(shù)讓我們有能力去挑戰(zhàn)任何類型的靶點(diǎn),這是當(dāng)下生物醫(yī)藥產(chǎn)業(yè)的幸運(yùn)。”在獲得此次諾貝爾獎(jiǎng)之前,Demis Hassabis博士與John Jumper博士還在今年獲得了多個(gè)科學(xué)大獎(jiǎng),包括蓋爾德納獎(jiǎng)(Gairdner)和拉斯克獎(jiǎng)。2020年,Baker博士也獲得了素有“科學(xué)界的奧斯卡”之稱的科學(xué)突破獎(jiǎng)——生命科學(xué)科學(xué)突破獎(jiǎng)。此次共同摘得諾貝爾獎(jiǎng)的桂冠是對(duì)他們通過放飛想象力和才華,解決了讓科學(xué)家困惑了半個(gè)世紀(jì)的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)難題的再次肯定。讓我們?cè)俅巫YR這三位杰出的科學(xué)家,并向他們突出的貢獻(xiàn)致以崇高敬意!
免責(zé)聲明:本文系轉(zhuǎn)載內(nèi)容,版權(quán)歸原作者所有,轉(zhuǎn)載目的在于傳遞更多信息,并不代表我方觀點(diǎn)。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)與我方留言聯(lián)系,我們將在第一時(shí)間刪除內(nèi)容。