2022年4月17日,“科普中國-我是科學家”第37期“健康的防線”演講現(xiàn)場,北京大學BIOPIC訪問教授、北京分子之心科技有限公司首席科學家許錦波帶來演講《AI預測蛋白質(zhì)結(jié)構(gòu),但這只是一個開始》。
以下為許錦波演講實錄:
2022.4.17 北京
大家下午好,歡迎大家來聽我的演講。我叫許錦波,我是個計算生物學家。
在大家的印象中,可能一個生物學家的實驗室是這樣的——
Pixabay
但我的辦公室其實更像是這樣——
作為計算生物學家,我主要工作是用計算技術(shù)去研究生物學問題,所以計算機是我最常用的工具。
我本科和碩士學的是計算機,研究計算機算法與計算機網(wǎng)絡(luò),以及分布式系統(tǒng)以及計算機安全,其實跟生物沒有什么關(guān)系。
那為什么我要從一個非常熱門的領(lǐng)域跳出來,去做蛋白質(zhì)結(jié)構(gòu)研究呢?
大概是讀博士一年半的時候,一個偶然的機會我接觸到生物學,接觸到蛋白質(zhì)結(jié)構(gòu)預測問題。我當時的想法很單純,覺得這個問題很有趣,也非常重要,并且非常難,所以就想去研究它。當我們選擇研究課題的時候,通常要選擇一些比較重要和困難的問題,因為如果這個問題不重要的話,就白花時間去研究了,沒有人在乎;如果這個問題不那么難,可能幾年之內(nèi)就被別人做出來了,其實也沒有多大意義。
演講嘉賓許錦波:《AI預測蛋白質(zhì)結(jié)構(gòu),但這只是一個開始》| 拍攝:Vphoto
于是,我就從一個傳統(tǒng)的計算機研究者切換到一個計算生物學研究者,想在讀博士期間花幾年時間去研究這個問題。當時根本沒有想過自己以前根本沒有學過生物學,心想如果一點結(jié)果都做不出來也沒關(guān)系,到時候大不了去硅谷寫代碼,當碼農(nóng)。
那時候,科學家已經(jīng)研究蛋白質(zhì)結(jié)構(gòu)這個問題大概四十年了,它真的是個非常難的問題。剛開始研究的時候,我也碰到很多困難。比如,剛才也說了,我本身沒有學過生物學,所以前半年我讀那些專業(yè)論文,很多專業(yè)名詞都不知道是什么意思,也沒有人去問,因為我的博士導師當時在加州學術(shù)休假,基本上兩個月才能見到他一次;而且那時候也沒有現(xiàn)在這么方便的網(wǎng)絡(luò)視頻、網(wǎng)絡(luò)會議,所以剛開始的時候非常困難。
我們知道,細胞里有三種大分子:DNA、RNA和蛋白質(zhì)。DNA和RNA記錄了我們的遺傳信息,但真正在細胞里面執(zhí)行功能的是蛋白質(zhì)。蛋白質(zhì)怎么去執(zhí)行功能?它在細胞里面折疊成固定的三維構(gòu)型,這個三維結(jié)構(gòu)決定了它的功能,這也正是為什么我們想研究蛋白質(zhì)的三維結(jié)構(gòu)。
這里展示了蛋白質(zhì)結(jié)構(gòu)與功能的三個例子。左邊這幅圖顯示了新冠抗體和病毒刺突蛋白結(jié)合的樣子,抗體通過和刺突蛋白結(jié)合,就可以阻擋新冠病毒進入人體細胞。中間這幅圖片是一個血紅蛋白,它的主要功能是幫助我們把氧氣運輸?shù)饺梭w各個地方。怎么運輸?你看到中間有些小球,這些小球表示的是鐵原子。血紅蛋白把鐵原子包裹起來,鐵原子跟氧氣結(jié)合,通過這種方式把氧氣運輸?shù)礁鱾€細胞里面去。最右邊的蛋白(朊蛋白)跟瘋牛病有關(guān)系,這里顯示了朊蛋白兩種不同構(gòu)型,左邊的構(gòu)型是正常的折疊狀態(tài),右邊的是不正常的折疊狀態(tài)。如果朊蛋白的折疊是右邊這個形狀的話,就會引起瘋牛病。
所以,蛋白質(zhì)結(jié)構(gòu)是個非常重要的問題。
蛋白質(zhì)由很多氨基酸通過化學鍵串在一起。這里我用一些小球去表示這些氨基酸,每種顏色的小球表示一種氨基酸。從數(shù)學角度,你也可以用一個字符串去表示一個蛋白質(zhì)的氨基酸序列。每個氨基酸都是由幾十個原子形成的,在這頁幻燈片的下半部分,我畫了一些原子結(jié)構(gòu),大家可以對蛋白質(zhì)的分子式有一個直觀的認識。現(xiàn)在我們只要知道氨基酸序列,就能知道蛋白質(zhì)的分子式。
原子在細胞里面有相互作用力,最后會形成一個比較穩(wěn)定的狀態(tài)去執(zhí)行某種特殊的功能。所以,雖然我們對蛋白質(zhì)的分子式已經(jīng)很了解,但知道這些組成蛋白質(zhì)的原子最后會形成怎么樣的構(gòu)型仍是個很困難的問題。
在以前,我們沒有特別好的方法去確定這些原子在三維空間中到底會處于什么樣的位置。
這張幻燈片的左邊展示了四個不同蛋白的結(jié)構(gòu),很漂亮,我們用軟件把它畫成了卡通形式,簡化了結(jié)構(gòu)的復雜度。但在右邊,我們把蛋白質(zhì)復合物的原子都畫出來了,就變得非常復雜。我們可以用不同軟件、不同表示形式把蛋白質(zhì)的三維結(jié)構(gòu)給畫出來,去觀察蛋白質(zhì)到底長什么樣。根據(jù)蛋白質(zhì)的結(jié)構(gòu),我們可以在原子層面去分析、去預測這個蛋白質(zhì)它到底會執(zhí)行什么樣的功能。
怎樣才能得到蛋白質(zhì)結(jié)構(gòu)?在過去的幾十年中,科學家們開發(fā)了不同的實驗技術(shù)去觀察和測定蛋白質(zhì)在細胞里的三維構(gòu)型,其中最精確的一種叫做晶體衍射技術(shù)。后續(xù)科學家們也開發(fā)了另外兩種技術(shù),一種是核磁共振,另一種是現(xiàn)在非常流行的冷凍電鏡技術(shù)。這三種技術(shù)都可以以不同的方式去觀察和測定蛋白質(zhì)的三維構(gòu)型,但也都存在問題。
首先,這些方法需要非常長的時間去測定哪怕一個蛋白質(zhì)的三維構(gòu)型。另外,它們的費用非常高。更致命的是,并不是所有蛋白質(zhì)的三維構(gòu)型都可以用這些實驗技術(shù)給測出來。所以,我們需要另外想出方法去獲得定蛋白質(zhì)的三維構(gòu)型,這也是為什么我們想做蛋白質(zhì)結(jié)構(gòu)預測——我們想通過計算技術(shù)去把蛋白質(zhì)的三維結(jié)構(gòu)給算出來,而不是用實驗儀器測出來。
計算機預測蛋白質(zhì)結(jié)構(gòu)這個問題本身的定義很簡單:假設(shè)我們有了一個蛋白質(zhì)的氨基酸序列,能不能把它輸入到計算機里面去,讓計算機輸出每個原子的三維坐標?然而,實際操作中是非常困難的,到目前為止已經(jīng)研究了將近六十年了。
2016年前,當我們談?wù)摰鞍踪|(zhì)結(jié)構(gòu)預測,通常意味著需要非常多的計算資源。那時候的科學家們通常用超級計算機去做蛋白質(zhì)結(jié)構(gòu)預測,只有少數(shù)幾個研究組能夠真正做到。即使這樣,對于很小的蛋白質(zhì),預測成功率也非常低。
我本人從2001年開始研究這個問題,我的研究歷程大概可以分為三個階段——
2001到2006年,我主要使用能量優(yōu)化的方法去做蛋白質(zhì)預測。大家普遍認為蛋白質(zhì)會折疊到最小能量狀態(tài),如果我們能把某個蛋白質(zhì)的能量最優(yōu)化,理論上就可以算出它的結(jié)構(gòu)。這種方法會教計算機一步步怎么去優(yōu)化能量,從而達到預測蛋白質(zhì)結(jié)構(gòu)的目的。當時雖然取得了一定成果,但結(jié)果還是無法令人滿意,預測出來的結(jié)構(gòu)離實驗技術(shù)測出來的非常遠。于是我意識到能量優(yōu)化方法是走不通的。
2006到2014年期間,我開始使用機器學習去研究這個問題。傳統(tǒng)的機器學習方法是直接把蛋白質(zhì)的氨基酸序列映射到一個三維構(gòu)型上去,比基于物理或是統(tǒng)計的方法做得好一點點,但也還有很多問題。當時大家認為這個問題沒辦法做出來,期間很多人都離開這個領(lǐng)域;另外,由于這個問題很長時間都沒有得到什么本質(zhì)上的改變,所以申請研究經(jīng)費也非常困難。
2012年,深度學習開始在圖像識別領(lǐng)域展示出威力,就有人很自然地想到,我們能不能用深度學習去做蛋白質(zhì)結(jié)構(gòu)預測。然而當時他們得到的結(jié)果跟傳統(tǒng)的機器學習方法沒有任何區(qū)別,也就是說在這個領(lǐng)域,最初得到的是個否定的結(jié)果。
2014年,我們設(shè)計了一種新的深度學習算法,開始使用深度學習去研究蛋白質(zhì)結(jié)構(gòu)。我們先在蛋白質(zhì)二級結(jié)構(gòu)預測上測試,發(fā)現(xiàn)深度學習對這個簡單問題有效,就激發(fā)了我們?nèi)プ鲞M一步的研究。
2015年和2016年,我們開發(fā)了一種更好的深度學習算法,它可以直接用來預測蛋白質(zhì)的三維結(jié)構(gòu)。
那什么是深度學習?它其實是模擬大腦神經(jīng)元的工作方式來進行預測,好處在于不需要告訴計算機怎么一步步去做,只用給計算機輸入和輸出。也就是說,我們只要給計算機氨基酸序列,告訴計算機它們對應(yīng)的一些真實結(jié)構(gòu)或者實驗結(jié)構(gòu),就可以教計算機自主學會預測蛋白質(zhì)的結(jié)構(gòu)。
我們當時的方法叫“深度卷積殘差神經(jīng)網(wǎng)絡(luò)”。預測思路是,首先預測蛋白質(zhì)里面兩個氨基酸在空間中是靠得比較近還是離得比較遠,再把它們的三維坐標重構(gòu)出來。2016年暑假,我們發(fā)現(xiàn)這個方法可以大幅度地提高蛋白質(zhì)三維結(jié)構(gòu)預測精度,在那年秋天寫成一篇論文貼到網(wǎng)上去,引起了領(lǐng)域內(nèi)很多人的關(guān)注。
這篇論文在2017年1月份正式發(fā)表,在2018年上半年拿到了國際計算生物學的旗艦期刊PLoS Computational Biology的創(chuàng)新突破獎。
這是我們當時預測的一個有兩百多個氨基酸的膜蛋白的結(jié)構(gòu),誤差大概是2.29個埃,已經(jīng)非常接近用實驗技術(shù)解出來的結(jié)構(gòu)的分辨率了。
2016年暑假,我們參加了全球蛋白質(zhì)結(jié)構(gòu)預測比賽(CASP)。雖然這時候我們還沒有把方法完全實現(xiàn)好,但在測試中我們的算法已經(jīng)是排名最好的,遠遠好于傳統(tǒng)的統(tǒng)計方法。
2017年和2018年,我們進一步推廣了這個算法,把之前預測“氨基酸靠得比較近還是離得比較遠”推廣到預測兩個原子在空間中的距離。比如說,我們可以預測蛋白質(zhì)里面兩個原子在空間中的距離是5埃,還是6埃, 7埃。根據(jù)預測出的距離,我們可以把三維坐標重構(gòu)出來。后來我們把這個想法寫成一篇論文,發(fā)表在2019年《美國國家科學院院刊》上面。
我們2016年和2018年的算法都需要利用蛋白質(zhì)的共進化信息。什么叫共進化信息?假如兩個氨基酸在空間中靠得比較近,那么在進化過程中,它們就可能會同時進化,這種現(xiàn)象就叫共進化。但現(xiàn)實中,有些情況下蛋白質(zhì)是沒有共進化信息的,一種是人工設(shè)計的蛋白,它不是自然界存在的,也就沒有共進化信息;另外一種情況就是蛋白質(zhì)復合物,如果我們想預測兩個蛋白質(zhì)在空間中怎么結(jié)合,很多情況下是得不到兩個蛋白質(zhì)之間的共進化信息。所以我們需要能夠在不使用共進化信息的情況下去預測蛋白質(zhì)結(jié)構(gòu)。
所以,2019年和2020年,我又進一步去發(fā)展了我們這個方法,實現(xiàn)了不使用共進化信息去做蛋白質(zhì)結(jié)構(gòu)預測,預測結(jié)果跟實驗測出來的結(jié)構(gòu)非常吻合。
2020年,DeepMind繼承了我們的方法,開發(fā)了新一代的深度學習方法。那一年有很多人知道人工智能已經(jīng)顛覆了蛋白質(zhì)結(jié)構(gòu)預測,這種顛覆帶來的改變非常大,特別是改變了分子生物學家做研究的范式——以前分子生物學家研究一個蛋白質(zhì),都是基于氨基酸序列去研究蛋白質(zhì)的功能,但現(xiàn)在我們有了精確的結(jié)構(gòu)預測,分子學家可以直接基于預測出的結(jié)構(gòu)去研究蛋白質(zhì)的功能。
在2020年,人工智能預測蛋白質(zhì)結(jié)構(gòu)入選了《科學》雜志評出來的“十大科學突破”;到2021年又被《科學》雜志評為“十大科學突破之首”;在今年被《麻省理工科技評論》評為“十大突破性技術(shù)”。
自從人工智能在預測蛋白質(zhì)獲得突破之后,國內(nèi)也有很多組去研究這個問題,但很多是在重復實現(xiàn)已有的人工智能算法——當然這些工作需要我們?nèi)プ?,但這并不是最好的途徑,因為這個領(lǐng)域內(nèi)還有非常多的問題沒有解決。
比如說,我們能不能預測蛋白質(zhì)跟其他分子的相互作用,這跟蛋白質(zhì)的功能預測、跟制藥息息相關(guān),因為蛋白質(zhì)在細胞里面執(zhí)行功能是通過跟其他分子結(jié)合在一起去實現(xiàn)的,所以這是一個非常重要的問題。另外,我想這幾年大家對抗體已經(jīng)比較熟悉了。當設(shè)計出一個抗體之后,我們可以預測這個抗體跟抗原到底怎么結(jié)合,通過這種方式我們可以去估計這個抗體到底有多好。最后,我們也可以用人工智能去設(shè)計自然界不存在的蛋白,這些蛋白可以用來制藥,也可以用在工業(yè)生產(chǎn)上,比如我們可以設(shè)計一些新的酶來提高工業(yè)催化的效率。
謝謝大家。
演講嘉賓許錦波:《AI預測蛋白質(zhì)結(jié)構(gòu),但這只是一個開始》| 拍攝:Vphoto