因?yàn)橐粋€(gè)“很難,很重要的問題”,我從計(jì)算機(jī)轉(zhuǎn)向研究蛋白質(zhì)
2022-06-17 21:06:00 來源:科普中國

  2022年4月17日,“科普中國-我是科學(xué)家”第37期“健康的防線”演講現(xiàn)場(chǎng),北京大學(xué)BIOPIC訪問教授、北京分子之心科技有限公司首席科學(xué)家許錦波帶來演講《AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),但這只是一個(gè)開始》。

  以下為許錦波演講實(shí)錄:

  2022.4.17 北京

  大家下午好,歡迎大家來聽我的演講。我叫許錦波,我是個(gè)計(jì)算生物學(xué)家。

  在大家的印象中,可能一個(gè)生物學(xué)家的實(shí)驗(yàn)室是這樣的——

  

  Pixabay

  但我的辦公室其實(shí)更像是這樣——

  

  作為計(jì)算生物學(xué)家,我主要工作是用計(jì)算技術(shù)去研究生物學(xué)問題,所以計(jì)算機(jī)是我最常用的工具。

  我本科和碩士學(xué)的是計(jì)算機(jī),研究計(jì)算機(jī)算法與計(jì)算機(jī)網(wǎng)絡(luò),以及分布式系統(tǒng)以及計(jì)算機(jī)安全,其實(shí)跟生物沒有什么關(guān)系。

  那為什么我要從一個(gè)非常熱門的領(lǐng)域跳出來,去做蛋白質(zhì)結(jié)構(gòu)研究呢?

  大概是讀博士一年半的時(shí)候,一個(gè)偶然的機(jī)會(huì)我接觸到生物學(xué),接觸到蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問題。我當(dāng)時(shí)的想法很單純,覺得這個(gè)問題很有趣,也非常重要,并且非常難,所以就想去研究它。當(dāng)我們選擇研究課題的時(shí)候,通常要選擇一些比較重要和困難的問題,因?yàn)槿绻@個(gè)問題不重要的話,就白花時(shí)間去研究了,沒有人在乎;如果這個(gè)問題不那么難,可能幾年之內(nèi)就被別人做出來了,其實(shí)也沒有多大意義。

  

  演講嘉賓許錦波:《AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),但這只是一個(gè)開始》| 拍攝:Vphoto

  于是,我就從一個(gè)傳統(tǒng)的計(jì)算機(jī)研究者切換到一個(gè)計(jì)算生物學(xué)研究者,想在讀博士期間花幾年時(shí)間去研究這個(gè)問題。當(dāng)時(shí)根本沒有想過自己以前根本沒有學(xué)過生物學(xué),心想如果一點(diǎn)結(jié)果都做不出來也沒關(guān)系,到時(shí)候大不了去硅谷寫代碼,當(dāng)碼農(nóng)。

  那時(shí)候,科學(xué)家已經(jīng)研究蛋白質(zhì)結(jié)構(gòu)這個(gè)問題大概四十年了,它真的是個(gè)非常難的問題。剛開始研究的時(shí)候,我也碰到很多困難。比如,剛才也說了,我本身沒有學(xué)過生物學(xué),所以前半年我讀那些專業(yè)論文,很多專業(yè)名詞都不知道是什么意思,也沒有人去問,因?yàn)槲业牟┦繉?dǎo)師當(dāng)時(shí)在加州學(xué)術(shù)休假,基本上兩個(gè)月才能見到他一次;而且那時(shí)候也沒有現(xiàn)在這么方便的網(wǎng)絡(luò)視頻、網(wǎng)絡(luò)會(huì)議,所以剛開始的時(shí)候非常困難。

  我們知道,細(xì)胞里有三種大分子:DNA、RNA和蛋白質(zhì)。DNA和RNA記錄了我們的遺傳信息,但真正在細(xì)胞里面執(zhí)行功能的是蛋白質(zhì)。蛋白質(zhì)怎么去執(zhí)行功能?它在細(xì)胞里面折疊成固定的三維構(gòu)型,這個(gè)三維結(jié)構(gòu)決定了它的功能,這也正是為什么我們想研究蛋白質(zhì)的三維結(jié)構(gòu)。

  

  這里展示了蛋白質(zhì)結(jié)構(gòu)與功能的三個(gè)例子。左邊這幅圖顯示了新冠抗體和病毒刺突蛋白結(jié)合的樣子,抗體通過和刺突蛋白結(jié)合,就可以阻擋新冠病毒進(jìn)入人體細(xì)胞。中間這幅圖片是一個(gè)血紅蛋白,它的主要功能是幫助我們把氧氣運(yùn)輸?shù)饺梭w各個(gè)地方。怎么運(yùn)輸?你看到中間有些小球,這些小球表示的是鐵原子。血紅蛋白把鐵原子包裹起來,鐵原子跟氧氣結(jié)合,通過這種方式把氧氣運(yùn)輸?shù)礁鱾€(gè)細(xì)胞里面去。最右邊的蛋白(朊蛋白)跟瘋牛病有關(guān)系,這里顯示了朊蛋白兩種不同構(gòu)型,左邊的構(gòu)型是正常的折疊狀態(tài),右邊的是不正常的折疊狀態(tài)。如果朊蛋白的折疊是右邊這個(gè)形狀的話,就會(huì)引起瘋牛病。

  所以,蛋白質(zhì)結(jié)構(gòu)是個(gè)非常重要的問題。

  

  蛋白質(zhì)由很多氨基酸通過化學(xué)鍵串在一起。這里我用一些小球去表示這些氨基酸,每種顏色的小球表示一種氨基酸。從數(shù)學(xué)角度,你也可以用一個(gè)字符串去表示一個(gè)蛋白質(zhì)的氨基酸序列。每個(gè)氨基酸都是由幾十個(gè)原子形成的,在這頁幻燈片的下半部分,我畫了一些原子結(jié)構(gòu),大家可以對(duì)蛋白質(zhì)的分子式有一個(gè)直觀的認(rèn)識(shí)?,F(xiàn)在我們只要知道氨基酸序列,就能知道蛋白質(zhì)的分子式。

  原子在細(xì)胞里面有相互作用力,最后會(huì)形成一個(gè)比較穩(wěn)定的狀態(tài)去執(zhí)行某種特殊的功能。所以,雖然我們對(duì)蛋白質(zhì)的分子式已經(jīng)很了解,但知道這些組成蛋白質(zhì)的原子最后會(huì)形成怎么樣的構(gòu)型仍是個(gè)很困難的問題。

  在以前,我們沒有特別好的方法去確定這些原子在三維空間中到底會(huì)處于什么樣的位置。

  

  這張幻燈片的左邊展示了四個(gè)不同蛋白的結(jié)構(gòu),很漂亮,我們用軟件把它畫成了卡通形式,簡化了結(jié)構(gòu)的復(fù)雜度。但在右邊,我們把蛋白質(zhì)復(fù)合物的原子都畫出來了,就變得非常復(fù)雜。我們可以用不同軟件、不同表示形式把蛋白質(zhì)的三維結(jié)構(gòu)給畫出來,去觀察蛋白質(zhì)到底長什么樣。根據(jù)蛋白質(zhì)的結(jié)構(gòu),我們可以在原子層面去分析、去預(yù)測(cè)這個(gè)蛋白質(zhì)它到底會(huì)執(zhí)行什么樣的功能。

  怎樣才能得到蛋白質(zhì)結(jié)構(gòu)?在過去的幾十年中,科學(xué)家們開發(fā)了不同的實(shí)驗(yàn)技術(shù)去觀察和測(cè)定蛋白質(zhì)在細(xì)胞里的三維構(gòu)型,其中最精確的一種叫做晶體衍射技術(shù)。后續(xù)科學(xué)家們也開發(fā)了另外兩種技術(shù),一種是核磁共振,另一種是現(xiàn)在非常流行的冷凍電鏡技術(shù)。這三種技術(shù)都可以以不同的方式去觀察和測(cè)定蛋白質(zhì)的三維構(gòu)型,但也都存在問題。

  

  首先,這些方法需要非常長的時(shí)間去測(cè)定哪怕一個(gè)蛋白質(zhì)的三維構(gòu)型。另外,它們的費(fèi)用非常高。更致命的是,并不是所有蛋白質(zhì)的三維構(gòu)型都可以用這些實(shí)驗(yàn)技術(shù)給測(cè)出來。所以,我們需要另外想出方法去獲得定蛋白質(zhì)的三維構(gòu)型,這也是為什么我們想做蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)——我們想通過計(jì)算技術(shù)去把蛋白質(zhì)的三維結(jié)構(gòu)給算出來,而不是用實(shí)驗(yàn)儀器測(cè)出來。

  

  計(jì)算機(jī)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)這個(gè)問題本身的定義很簡單:假設(shè)我們有了一個(gè)蛋白質(zhì)的氨基酸序列,能不能把它輸入到計(jì)算機(jī)里面去,讓計(jì)算機(jī)輸出每個(gè)原子的三維坐標(biāo)?然而,實(shí)際操作中是非常困難的,到目前為止已經(jīng)研究了將近六十年了。

  2016年前,當(dāng)我們談?wù)摰鞍踪|(zhì)結(jié)構(gòu)預(yù)測(cè),通常意味著需要非常多的計(jì)算資源。那時(shí)候的科學(xué)家們通常用超級(jí)計(jì)算機(jī)去做蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),只有少數(shù)幾個(gè)研究組能夠真正做到。即使這樣,對(duì)于很小的蛋白質(zhì),預(yù)測(cè)成功率也非常低。

  我本人從2001年開始研究這個(gè)問題,我的研究歷程大概可以分為三個(gè)階段——

  

  2001到2006年,我主要使用能量優(yōu)化的方法去做蛋白質(zhì)預(yù)測(cè)。大家普遍認(rèn)為蛋白質(zhì)會(huì)折疊到最小能量狀態(tài),如果我們能把某個(gè)蛋白質(zhì)的能量最優(yōu)化,理論上就可以算出它的結(jié)構(gòu)。這種方法會(huì)教計(jì)算機(jī)一步步怎么去優(yōu)化能量,從而達(dá)到預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的目的。當(dāng)時(shí)雖然取得了一定成果,但結(jié)果還是無法令人滿意,預(yù)測(cè)出來的結(jié)構(gòu)離實(shí)驗(yàn)技術(shù)測(cè)出來的非常遠(yuǎn)。于是我意識(shí)到能量優(yōu)化方法是走不通的。

  2006到2014年期間,我開始使用機(jī)器學(xué)習(xí)去研究這個(gè)問題。傳統(tǒng)的機(jī)器學(xué)習(xí)方法是直接把蛋白質(zhì)的氨基酸序列映射到一個(gè)三維構(gòu)型上去,比基于物理或是統(tǒng)計(jì)的方法做得好一點(diǎn)點(diǎn),但也還有很多問題。當(dāng)時(shí)大家認(rèn)為這個(gè)問題沒辦法做出來,期間很多人都離開這個(gè)領(lǐng)域;另外,由于這個(gè)問題很長時(shí)間都沒有得到什么本質(zhì)上的改變,所以申請(qǐng)研究經(jīng)費(fèi)也非常困難。

  2012年,深度學(xué)習(xí)開始在圖像識(shí)別領(lǐng)域展示出威力,就有人很自然地想到,我們能不能用深度學(xué)習(xí)去做蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。然而當(dāng)時(shí)他們得到的結(jié)果跟傳統(tǒng)的機(jī)器學(xué)習(xí)方法沒有任何區(qū)別,也就是說在這個(gè)領(lǐng)域,最初得到的是個(gè)否定的結(jié)果。

  2014年,我們?cè)O(shè)計(jì)了一種新的深度學(xué)習(xí)算法,開始使用深度學(xué)習(xí)去研究蛋白質(zhì)結(jié)構(gòu)。我們先在蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)上測(cè)試,發(fā)現(xiàn)深度學(xué)習(xí)對(duì)這個(gè)簡單問題有效,就激發(fā)了我們?nèi)プ鲞M(jìn)一步的研究。

  2015年和2016年,我們開發(fā)了一種更好的深度學(xué)習(xí)算法,它可以直接用來預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu)。

  那什么是深度學(xué)習(xí)?它其實(shí)是模擬大腦神經(jīng)元的工作方式來進(jìn)行預(yù)測(cè),好處在于不需要告訴計(jì)算機(jī)怎么一步步去做,只用給計(jì)算機(jī)輸入和輸出。也就是說,我們只要給計(jì)算機(jī)氨基酸序列,告訴計(jì)算機(jī)它們對(duì)應(yīng)的一些真實(shí)結(jié)構(gòu)或者實(shí)驗(yàn)結(jié)構(gòu),就可以教計(jì)算機(jī)自主學(xué)會(huì)預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)。

  我們當(dāng)時(shí)的方法叫“深度卷積殘差神經(jīng)網(wǎng)絡(luò)”。預(yù)測(cè)思路是,首先預(yù)測(cè)蛋白質(zhì)里面兩個(gè)氨基酸在空間中是靠得比較近還是離得比較遠(yuǎn),再把它們的三維坐標(biāo)重構(gòu)出來。2016年暑假,我們發(fā)現(xiàn)這個(gè)方法可以大幅度地提高蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)精度,在那年秋天寫成一篇論文貼到網(wǎng)上去,引起了領(lǐng)域內(nèi)很多人的關(guān)注。

  

  這篇論文在2017年1月份正式發(fā)表,在2018年上半年拿到了國際計(jì)算生物學(xué)的旗艦期刊PLoS Computational Biology的創(chuàng)新突破獎(jiǎng)。

  

  這是我們當(dāng)時(shí)預(yù)測(cè)的一個(gè)有兩百多個(gè)氨基酸的膜蛋白的結(jié)構(gòu),誤差大概是2.29個(gè)埃,已經(jīng)非常接近用實(shí)驗(yàn)技術(shù)解出來的結(jié)構(gòu)的分辨率了。

  

  2016年暑假,我們參加了全球蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)比賽(CASP)。雖然這時(shí)候我們還沒有把方法完全實(shí)現(xiàn)好,但在測(cè)試中我們的算法已經(jīng)是排名最好的,遠(yuǎn)遠(yuǎn)好于傳統(tǒng)的統(tǒng)計(jì)方法。

  

  2017年和2018年,我們進(jìn)一步推廣了這個(gè)算法,把之前預(yù)測(cè)“氨基酸靠得比較近還是離得比較遠(yuǎn)”推廣到預(yù)測(cè)兩個(gè)原子在空間中的距離。比如說,我們可以預(yù)測(cè)蛋白質(zhì)里面兩個(gè)原子在空間中的距離是5埃,還是6埃, 7埃。根據(jù)預(yù)測(cè)出的距離,我們可以把三維坐標(biāo)重構(gòu)出來。后來我們把這個(gè)想法寫成一篇論文,發(fā)表在2019年《美國國家科學(xué)院院刊》上面。

  我們2016年和2018年的算法都需要利用蛋白質(zhì)的共進(jìn)化信息。什么叫共進(jìn)化信息?假如兩個(gè)氨基酸在空間中靠得比較近,那么在進(jìn)化過程中,它們就可能會(huì)同時(shí)進(jìn)化,這種現(xiàn)象就叫共進(jìn)化。但現(xiàn)實(shí)中,有些情況下蛋白質(zhì)是沒有共進(jìn)化信息的,一種是人工設(shè)計(jì)的蛋白,它不是自然界存在的,也就沒有共進(jìn)化信息;另外一種情況就是蛋白質(zhì)復(fù)合物,如果我們想預(yù)測(cè)兩個(gè)蛋白質(zhì)在空間中怎么結(jié)合,很多情況下是得不到兩個(gè)蛋白質(zhì)之間的共進(jìn)化信息。所以我們需要能夠在不使用共進(jìn)化信息的情況下去預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。

  

  所以,2019年和2020年,我又進(jìn)一步去發(fā)展了我們這個(gè)方法,實(shí)現(xiàn)了不使用共進(jìn)化信息去做蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),預(yù)測(cè)結(jié)果跟實(shí)驗(yàn)測(cè)出來的結(jié)構(gòu)非常吻合。

  2020年,DeepMind繼承了我們的方法,開發(fā)了新一代的深度學(xué)習(xí)方法。那一年有很多人知道人工智能已經(jīng)顛覆了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),這種顛覆帶來的改變非常大,特別是改變了分子生物學(xué)家做研究的范式——以前分子生物學(xué)家研究一個(gè)蛋白質(zhì),都是基于氨基酸序列去研究蛋白質(zhì)的功能,但現(xiàn)在我們有了精確的結(jié)構(gòu)預(yù)測(cè),分子學(xué)家可以直接基于預(yù)測(cè)出的結(jié)構(gòu)去研究蛋白質(zhì)的功能。

  

  在2020年,人工智能預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)入選了《科學(xué)》雜志評(píng)出來的“十大科學(xué)突破”;到2021年又被《科學(xué)》雜志評(píng)為“十大科學(xué)突破之首”;在今年被《麻省理工科技評(píng)論》評(píng)為“十大突破性技術(shù)”。

  自從人工智能在預(yù)測(cè)蛋白質(zhì)獲得突破之后,國內(nèi)也有很多組去研究這個(gè)問題,但很多是在重復(fù)實(shí)現(xiàn)已有的人工智能算法——當(dāng)然這些工作需要我們?nèi)プ?,但這并不是最好的途徑,因?yàn)檫@個(gè)領(lǐng)域內(nèi)還有非常多的問題沒有解決。

  比如說,我們能不能預(yù)測(cè)蛋白質(zhì)跟其他分子的相互作用,這跟蛋白質(zhì)的功能預(yù)測(cè)、跟制藥息息相關(guān),因?yàn)榈鞍踪|(zhì)在細(xì)胞里面執(zhí)行功能是通過跟其他分子結(jié)合在一起去實(shí)現(xiàn)的,所以這是一個(gè)非常重要的問題。另外,我想這幾年大家對(duì)抗體已經(jīng)比較熟悉了。當(dāng)設(shè)計(jì)出一個(gè)抗體之后,我們可以預(yù)測(cè)這個(gè)抗體跟抗原到底怎么結(jié)合,通過這種方式我們可以去估計(jì)這個(gè)抗體到底有多好。最后,我們也可以用人工智能去設(shè)計(jì)自然界不存在的蛋白,這些蛋白可以用來制藥,也可以用在工業(yè)生產(chǎn)上,比如我們可以設(shè)計(jì)一些新的酶來提高工業(yè)催化的效率。

  謝謝大家。

  

  演講嘉賓許錦波:《AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),但這只是一個(gè)開始》| 拍攝:Vphoto

  • 為你推薦
  • 公益播報(bào)
  • 公益匯
  • 進(jìn)社區(qū)

熱點(diǎn)推薦

即時(shí)新聞

武漢