最近中文字幕完整版视频,日韩欧美人妻性视频

因?yàn)橐粋€(gè)“很難，很重要的問(wèn)題”，我從計(jì)算機(jī)轉(zhuǎn)向研究蛋白質(zhì)

2022-06-17 21:06:00 來(lái)源：科普中國(guó) 調(diào)整字體

　　2022年4月17日，“科普中國(guó)-我是科學(xué)家”第37期“健康的防線(xiàn)”演講現(xiàn)場(chǎng)，北京大學(xué)BIOPIC訪(fǎng)問(wèn)教授、北京分子之心科技有限公司首席科學(xué)家許錦波帶來(lái)演講《AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)，但這只是一個(gè)開(kāi)始》。

　　以下為許錦波演講實(shí)錄：

　　2022.4.17 北京

　　大家下午好，歡迎大家來(lái)聽(tīng)我的演講。我叫許錦波，我是個(gè)計(jì)算生物學(xué)家。

　　在大家的印象中，可能一個(gè)生物學(xué)家的實(shí)驗(yàn)室是這樣的——

　　Pixabay

　　但我的辦公室其實(shí)更像是這樣——

　　作為計(jì)算生物學(xué)家，我主要工作是用計(jì)算技術(shù)去研究生物學(xué)問(wèn)題，所以計(jì)算機(jī)是我最常用的工具。

　　我本科和碩士學(xué)的是計(jì)算機(jī)，研究計(jì)算機(jī)算法與計(jì)算機(jī)網(wǎng)絡(luò)，以及分布式系統(tǒng)以及計(jì)算機(jī)安全，其實(shí)跟生物沒(méi)有什么關(guān)系。

　　那為什么我要從一個(gè)非常熱門(mén)的領(lǐng)域跳出來(lái)，去做蛋白質(zhì)結(jié)構(gòu)研究呢？

　　大概是讀博士一年半的時(shí)候，一個(gè)偶然的機(jī)會(huì)我接觸到生物學(xué)，接觸到蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題。我當(dāng)時(shí)的想法很單純，覺(jué)得這個(gè)問(wèn)題很有趣，也非常重要，并且非常難，所以就想去研究它。當(dāng)我們選擇研究課題的時(shí)候，通常要選擇一些比較重要和困難的問(wèn)題，因?yàn)槿绻@個(gè)問(wèn)題不重要的話(huà)，就白花時(shí)間去研究了，沒(méi)有人在乎；如果這個(gè)問(wèn)題不那么難，可能幾年之內(nèi)就被別人做出來(lái)了，其實(shí)也沒(méi)有多大意義。

　　演講嘉賓許錦波：《AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)，但這只是一個(gè)開(kāi)始》| 拍攝：Vphoto

　　于是，我就從一個(gè)傳統(tǒng)的計(jì)算機(jī)研究者切換到一個(gè)計(jì)算生物學(xué)研究者，想在讀博士期間花幾年時(shí)間去研究這個(gè)問(wèn)題。當(dāng)時(shí)根本沒(méi)有想過(guò)自己以前根本沒(méi)有學(xué)過(guò)生物學(xué)，心想如果一點(diǎn)結(jié)果都做不出來(lái)也沒(méi)關(guān)系，到時(shí)候大不了去硅谷寫(xiě)代碼，當(dāng)碼農(nóng)。

　　那時(shí)候，科學(xué)家已經(jīng)研究蛋白質(zhì)結(jié)構(gòu)這個(gè)問(wèn)題大概四十年了，它真的是個(gè)非常難的問(wèn)題。剛開(kāi)始研究的時(shí)候，我也碰到很多困難。比如，剛才也說(shuō)了，我本身沒(méi)有學(xué)過(guò)生物學(xué)，所以前半年我讀那些專(zhuān)業(yè)論文，很多專(zhuān)業(yè)名詞都不知道是什么意思，也沒(méi)有人去問(wèn)，因?yàn)槲业牟┦繉?dǎo)師當(dāng)時(shí)在加州學(xué)術(shù)休假，基本上兩個(gè)月才能見(jiàn)到他一次；而且那時(shí)候也沒(méi)有現(xiàn)在這么方便的網(wǎng)絡(luò)視頻、網(wǎng)絡(luò)會(huì)議，所以剛開(kāi)始的時(shí)候非常困難。

　　我們知道，細(xì)胞里有三種大分子：DNA、RNA和蛋白質(zhì)。DNA和RNA記錄了我們的遺傳信息，但真正在細(xì)胞里面執(zhí)行功能的是蛋白質(zhì)。蛋白質(zhì)怎么去執(zhí)行功能？它在細(xì)胞里面折疊成固定的三維構(gòu)型，這個(gè)三維結(jié)構(gòu)決定了它的功能，這也正是為什么我們想研究蛋白質(zhì)的三維結(jié)構(gòu)。

　　這里展示了蛋白質(zhì)結(jié)構(gòu)與功能的三個(gè)例子。左邊這幅圖顯示了新冠抗體和病毒刺突蛋白結(jié)合的樣子，抗體通過(guò)和刺突蛋白結(jié)合，就可以阻擋新冠病毒進(jìn)入人體細(xì)胞。中間這幅圖片是一個(gè)血紅蛋白，它的主要功能是幫助我們把氧氣運(yùn)輸?shù)饺梭w各個(gè)地方。怎么運(yùn)輸？你看到中間有些小球，這些小球表示的是鐵原子。血紅蛋白把鐵原子包裹起來(lái)，鐵原子跟氧氣結(jié)合，通過(guò)這種方式把氧氣運(yùn)輸?shù)礁鱾€(gè)細(xì)胞里面去。最右邊的蛋白（朊蛋白）跟瘋牛病有關(guān)系，這里顯示了朊蛋白兩種不同構(gòu)型，左邊的構(gòu)型是正常的折疊狀態(tài)，右邊的是不正常的折疊狀態(tài)。如果朊蛋白的折疊是右邊這個(gè)形狀的話(huà)，就會(huì)引起瘋牛病。

　　所以，蛋白質(zhì)結(jié)構(gòu)是個(gè)非常重要的問(wèn)題。

　　蛋白質(zhì)由很多氨基酸通過(guò)化學(xué)鍵串在一起。這里我用一些小球去表示這些氨基酸，每種顏色的小球表示一種氨基酸。從數(shù)學(xué)角度，你也可以用一個(gè)字符串去表示一個(gè)蛋白質(zhì)的氨基酸序列。每個(gè)氨基酸都是由幾十個(gè)原子形成的，在這頁(yè)幻燈片的下半部分，我畫(huà)了一些原子結(jié)構(gòu)，大家可以對(duì)蛋白質(zhì)的分子式有一個(gè)直觀的認(rèn)識(shí)?，F(xiàn)在我們只要知道氨基酸序列，就能知道蛋白質(zhì)的分子式。

　　原子在細(xì)胞里面有相互作用力，最后會(huì)形成一個(gè)比較穩(wěn)定的狀態(tài)去執(zhí)行某種特殊的功能。所以，雖然我們對(duì)蛋白質(zhì)的分子式已經(jīng)很了解，但知道這些組成蛋白質(zhì)的原子最后會(huì)形成怎么樣的構(gòu)型仍是個(gè)很困難的問(wèn)題。

　　在以前，我們沒(méi)有特別好的方法去確定這些原子在三維空間中到底會(huì)處于什么樣的位置。

　　這張幻燈片的左邊展示了四個(gè)不同蛋白的結(jié)構(gòu)，很漂亮，我們用軟件把它畫(huà)成了卡通形式，簡(jiǎn)化了結(jié)構(gòu)的復(fù)雜度。但在右邊，我們把蛋白質(zhì)復(fù)合物的原子都畫(huà)出來(lái)了，就變得非常復(fù)雜。我們可以用不同軟件、不同表示形式把蛋白質(zhì)的三維結(jié)構(gòu)給畫(huà)出來(lái)，去觀察蛋白質(zhì)到底長(zhǎng)什么樣。根據(jù)蛋白質(zhì)的結(jié)構(gòu)，我們可以在原子層面去分析、去預(yù)測(cè)這個(gè)蛋白質(zhì)它到底會(huì)執(zhí)行什么樣的功能。

　　怎樣才能得到蛋白質(zhì)結(jié)構(gòu)？在過(guò)去的幾十年中，科學(xué)家們開(kāi)發(fā)了不同的實(shí)驗(yàn)技術(shù)去觀察和測(cè)定蛋白質(zhì)在細(xì)胞里的三維構(gòu)型，其中最精確的一種叫做晶體衍射技術(shù)。后續(xù)科學(xué)家們也開(kāi)發(fā)了另外兩種技術(shù)，一種是核磁共振，另一種是現(xiàn)在非常流行的冷凍電鏡技術(shù)。這三種技術(shù)都可以以不同的方式去觀察和測(cè)定蛋白質(zhì)的三維構(gòu)型，但也都存在問(wèn)題。

　　首先，這些方法需要非常長(zhǎng)的時(shí)間去測(cè)定哪怕一個(gè)蛋白質(zhì)的三維構(gòu)型。另外，它們的費(fèi)用非常高。更致命的是，并不是所有蛋白質(zhì)的三維構(gòu)型都可以用這些實(shí)驗(yàn)技術(shù)給測(cè)出來(lái)。所以，我們需要另外想出方法去獲得定蛋白質(zhì)的三維構(gòu)型，這也是為什么我們想做蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)——我們想通過(guò)計(jì)算技術(shù)去把蛋白質(zhì)的三維結(jié)構(gòu)給算出來(lái)，而不是用實(shí)驗(yàn)儀器測(cè)出來(lái)。

　　計(jì)算機(jī)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)這個(gè)問(wèn)題本身的定義很簡(jiǎn)單：假設(shè)我們有了一個(gè)蛋白質(zhì)的氨基酸序列，能不能把它輸入到計(jì)算機(jī)里面去，讓計(jì)算機(jī)輸出每個(gè)原子的三維坐標(biāo)？然而，實(shí)際操作中是非常困難的，到目前為止已經(jīng)研究了將近六十年了。

　　2016年前，當(dāng)我們談?wù)摰鞍踪|(zhì)結(jié)構(gòu)預(yù)測(cè)，通常意味著需要非常多的計(jì)算資源。那時(shí)候的科學(xué)家們通常用超級(jí)計(jì)算機(jī)去做蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)，只有少數(shù)幾個(gè)研究組能夠真正做到。即使這樣，對(duì)于很小的蛋白質(zhì)，預(yù)測(cè)成功率也非常低。

　　我本人從2001年開(kāi)始研究這個(gè)問(wèn)題，我的研究歷程大概可以分為三個(gè)階段——

　　2001到2006年，我主要使用能量?jī)?yōu)化的方法去做蛋白質(zhì)預(yù)測(cè)。大家普遍認(rèn)為蛋白質(zhì)會(huì)折疊到最小能量狀態(tài)，如果我們能把某個(gè)蛋白質(zhì)的能量最優(yōu)化，理論上就可以算出它的結(jié)構(gòu)。這種方法會(huì)教計(jì)算機(jī)一步步怎么去優(yōu)化能量，從而達(dá)到預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的目的。當(dāng)時(shí)雖然取得了一定成果，但結(jié)果還是無(wú)法令人滿(mǎn)意，預(yù)測(cè)出來(lái)的結(jié)構(gòu)離實(shí)驗(yàn)技術(shù)測(cè)出來(lái)的非常遠(yuǎn)。于是我意識(shí)到能量?jī)?yōu)化方法是走不通的。

　　2006到2014年期間，我開(kāi)始使用機(jī)器學(xué)習(xí)去研究這個(gè)問(wèn)題。傳統(tǒng)的機(jī)器學(xué)習(xí)方法是直接把蛋白質(zhì)的氨基酸序列映射到一個(gè)三維構(gòu)型上去，比基于物理或是統(tǒng)計(jì)的方法做得好一點(diǎn)點(diǎn)，但也還有很多問(wèn)題。當(dāng)時(shí)大家認(rèn)為這個(gè)問(wèn)題沒(méi)辦法做出來(lái)，期間很多人都離開(kāi)這個(gè)領(lǐng)域；另外，由于這個(gè)問(wèn)題很長(zhǎng)時(shí)間都沒(méi)有得到什么本質(zhì)上的改變，所以申請(qǐng)研究經(jīng)費(fèi)也非常困難。

　　2012年，深度學(xué)習(xí)開(kāi)始在圖像識(shí)別領(lǐng)域展示出威力，就有人很自然地想到，我們能不能用深度學(xué)習(xí)去做蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。然而當(dāng)時(shí)他們得到的結(jié)果跟傳統(tǒng)的機(jī)器學(xué)習(xí)方法沒(méi)有任何區(qū)別，也就是說(shuō)在這個(gè)領(lǐng)域，最初得到的是個(gè)否定的結(jié)果。

　　2014年，我們?cè)O(shè)計(jì)了一種新的深度學(xué)習(xí)算法，開(kāi)始使用深度學(xué)習(xí)去研究蛋白質(zhì)結(jié)構(gòu)。我們先在蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)上測(cè)試，發(fā)現(xiàn)深度學(xué)習(xí)對(duì)這個(gè)簡(jiǎn)單問(wèn)題有效，就激發(fā)了我們?nèi)プ鲞M(jìn)一步的研究。

　　2015年和2016年，我們開(kāi)發(fā)了一種更好的深度學(xué)習(xí)算法，它可以直接用來(lái)預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu)。

　　那什么是深度學(xué)習(xí)？它其實(shí)是模擬大腦神經(jīng)元的工作方式來(lái)進(jìn)行預(yù)測(cè)，好處在于不需要告訴計(jì)算機(jī)怎么一步步去做，只用給計(jì)算機(jī)輸入和輸出。也就是說(shuō)，我們只要給計(jì)算機(jī)氨基酸序列，告訴計(jì)算機(jī)它們對(duì)應(yīng)的一些真實(shí)結(jié)構(gòu)或者實(shí)驗(yàn)結(jié)構(gòu)，就可以教計(jì)算機(jī)自主學(xué)會(huì)預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)。

　　我們當(dāng)時(shí)的方法叫“深度卷積殘差神經(jīng)網(wǎng)絡(luò)”。預(yù)測(cè)思路是，首先預(yù)測(cè)蛋白質(zhì)里面兩個(gè)氨基酸在空間中是靠得比較近還是離得比較遠(yuǎn)，再把它們的三維坐標(biāo)重構(gòu)出來(lái)。2016年暑假，我們發(fā)現(xiàn)這個(gè)方法可以大幅度地提高蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)精度，在那年秋天寫(xiě)成一篇論文貼到網(wǎng)上去，引起了領(lǐng)域內(nèi)很多人的關(guān)注。

　　這篇論文在2017年1月份正式發(fā)表，在2018年上半年拿到了國(guó)際計(jì)算生物學(xué)的旗艦期刊PLoS Computational Biology的創(chuàng)新突破獎(jiǎng)。

　　這是我們當(dāng)時(shí)預(yù)測(cè)的一個(gè)有兩百多個(gè)氨基酸的膜蛋白的結(jié)構(gòu)，誤差大概是2.29個(gè)埃，已經(jīng)非常接近用實(shí)驗(yàn)技術(shù)解出來(lái)的結(jié)構(gòu)的分辨率了。

　　2016年暑假，我們參加了全球蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)比賽（CASP）。雖然這時(shí)候我們還沒(méi)有把方法完全實(shí)現(xiàn)好，但在測(cè)試中我們的算法已經(jīng)是排名最好的，遠(yuǎn)遠(yuǎn)好于傳統(tǒng)的統(tǒng)計(jì)方法。

　　2017年和2018年，我們進(jìn)一步推廣了這個(gè)算法，把之前預(yù)測(cè)“氨基酸靠得比較近還是離得比較遠(yuǎn)”推廣到預(yù)測(cè)兩個(gè)原子在空間中的距離。比如說(shuō)，我們可以預(yù)測(cè)蛋白質(zhì)里面兩個(gè)原子在空間中的距離是5埃，還是6埃， 7埃。根據(jù)預(yù)測(cè)出的距離，我們可以把三維坐標(biāo)重構(gòu)出來(lái)。后來(lái)我們把這個(gè)想法寫(xiě)成一篇論文，發(fā)表在2019年《美國(guó)國(guó)家科學(xué)院院刊》上面。

　　我們2016年和2018年的算法都需要利用蛋白質(zhì)的共進(jìn)化信息。什么叫共進(jìn)化信息？假如兩個(gè)氨基酸在空間中靠得比較近，那么在進(jìn)化過(guò)程中，它們就可能會(huì)同時(shí)進(jìn)化，這種現(xiàn)象就叫共進(jìn)化。但現(xiàn)實(shí)中，有些情況下蛋白質(zhì)是沒(méi)有共進(jìn)化信息的，一種是人工設(shè)計(jì)的蛋白，它不是自然界存在的，也就沒(méi)有共進(jìn)化信息；另外一種情況就是蛋白質(zhì)復(fù)合物，如果我們想預(yù)測(cè)兩個(gè)蛋白質(zhì)在空間中怎么結(jié)合，很多情況下是得不到兩個(gè)蛋白質(zhì)之間的共進(jìn)化信息。所以我們需要能夠在不使用共進(jìn)化信息的情況下去預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。

　　所以，2019年和2020年，我又進(jìn)一步去發(fā)展了我們這個(gè)方法，實(shí)現(xiàn)了不使用共進(jìn)化信息去做蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)，預(yù)測(cè)結(jié)果跟實(shí)驗(yàn)測(cè)出來(lái)的結(jié)構(gòu)非常吻合。

　　2020年，DeepMind繼承了我們的方法，開(kāi)發(fā)了新一代的深度學(xué)習(xí)方法。那一年有很多人知道人工智能已經(jīng)顛覆了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)，這種顛覆帶來(lái)的改變非常大，特別是改變了分子生物學(xué)家做研究的范式——以前分子生物學(xué)家研究一個(gè)蛋白質(zhì)，都是基于氨基酸序列去研究蛋白質(zhì)的功能，但現(xiàn)在我們有了精確的結(jié)構(gòu)預(yù)測(cè)，分子學(xué)家可以直接基于預(yù)測(cè)出的結(jié)構(gòu)去研究蛋白質(zhì)的功能。

　　在2020年，人工智能預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)入選了《科學(xué)》雜志評(píng)出來(lái)的“十大科學(xué)突破”；到2021年又被《科學(xué)》雜志評(píng)為“十大科學(xué)突破之首”；在今年被《麻省理工科技評(píng)論》評(píng)為“十大突破性技術(shù)”。

　　自從人工智能在預(yù)測(cè)蛋白質(zhì)獲得突破之后，國(guó)內(nèi)也有很多組去研究這個(gè)問(wèn)題，但很多是在重復(fù)實(shí)現(xiàn)已有的人工智能算法——當(dāng)然這些工作需要我們?nèi)プ?，但這并不是最好的途徑，因?yàn)檫@個(gè)領(lǐng)域內(nèi)還有非常多的問(wèn)題沒(méi)有解決。

　　比如說(shuō)，我們能不能預(yù)測(cè)蛋白質(zhì)跟其他分子的相互作用，這跟蛋白質(zhì)的功能預(yù)測(cè)、跟制藥息息相關(guān)，因?yàn)榈鞍踪|(zhì)在細(xì)胞里面執(zhí)行功能是通過(guò)跟其他分子結(jié)合在一起去實(shí)現(xiàn)的，所以這是一個(gè)非常重要的問(wèn)題。另外，我想這幾年大家對(duì)抗體已經(jīng)比較熟悉了。當(dāng)設(shè)計(jì)出一個(gè)抗體之后，我們可以預(yù)測(cè)這個(gè)抗體跟抗原到底怎么結(jié)合，通過(guò)這種方式我們可以去估計(jì)這個(gè)抗體到底有多好。最后，我們也可以用人工智能去設(shè)計(jì)自然界不存在的蛋白，這些蛋白可以用來(lái)制藥，也可以用在工業(yè)生產(chǎn)上，比如我們可以設(shè)計(jì)一些新的酶來(lái)提高工業(yè)催化的效率。

　　謝謝大家。

　　演講嘉賓許錦波：《AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)，但這只是一個(gè)開(kāi)始》| 拍攝：Vphoto

上一篇：失眠人群都適合吃安眠藥？這五類(lèi)人尤其注意

下一篇：夏季被毒蛇咬傷怎么辦？十個(gè)問(wèn)答幫你應(yīng)對(duì)

相關(guān)閱讀

為什么小鳥(niǎo)站在裸露的高壓電上卻平安無(wú)事？

2022-06-17

紅外熱成像儀的原理是什么？

2022-06-17

臺(tái)階恐懼癥？4招上樓方法讓你學(xué)會(huì)正確上樓

2022-06-17

沒(méi)受傷咋也會(huì)腰椎骨折？老年人警惕這種腰背痛

2022-06-17

菠菜補(bǔ)鐵不管用？有效補(bǔ)鐵牢記這七個(gè)原則

2022-06-17

為你推薦
公益播報(bào)
公益匯
進(jìn)社區(qū)

熱點(diǎn)推薦

即時(shí)新聞

武漢