今日《自然》發佈迄今最大規模人類遺傳變異體數據庫
2020年05月28日10:05

  來源:學術經緯

  今日,頂尖學術期刊《自然》的最新一期如約上線,登上封面的主題是“基因組聚集數據庫(gnomAD)”。這份由多國研究者聯合發展起來的公開目錄,是迄今為止最大規模的人體遺傳變異體數據庫,彙集了超過14萬人的基因組測序或外顯子組測序數據。

  在本期《自然》雜誌上,一共發表了4篇相關論文。此外,在Nature Medicine、Nature Communications等子刊上也有同系列的論文。在今天的這篇文章中,學術經緯團隊將和讀者朋友們一起來瞭解堪稱人類遺傳學研究里程碑的gnomAD數據庫。

▲點擊文末“閱讀原文/Read More”,即可訪問《自然》這一專題下的所有文章列表(圖片作者:Sigrid Knemeyer and Hang Yu Lin, SciStories LLC。)
▲點擊文末“閱讀原文/Read More”,即可訪問《自然》這一專題下的所有文章列表(圖片作者:Sigrid Knemeyer and Hang Yu Lin, SciStories LLC。)

  基因測序技術的出現讓我們可以讀出一個人所有的遺傳信息——人類基因組。不過,相比測出基因序列,更大的挑戰是瞭解這些基因的生理功能。對於人類基因組中大多數基因的功能,我們依然知之甚少。

  揭示基因功能的一種方法是觀察基因突變後的結果。這些基因變異體,常常會讓其編碼產生的蛋白質失活,因此被稱為功能喪失型(loss-of-function, LoF)變異體。但這類變異體在人群中較為罕見,這意味著,想要發現變異體,評估考察每一種變異體帶來的結果,就需要非常大的基因組樣本量。這也正是大規模數據庫的意義所在。

  基因組聚集數據庫(gnomAD)項目,通過各種大型人群測序項目彙集數據,來鑒定各種功能喪失型變異體。

  gnomAD項目之前,科學家們在2016年公開了外顯子組聚集聯盟(ExAC),收錄有6萬多個外顯子組數據,主要是基因組中與蛋白質合成直接相關的DNA片段(外顯子)。根據《自然》的一篇概述性文章的介紹,新的gnomAD不僅彙集了125748個全外顯子組序列,還包含了15708個全基因組測序數據,規模和範圍都有增加,因此可以系統性地記錄更多樣、更複雜的基因變異體,並瞭解蛋白質編碼序列以外的變異。

▲相比ExAC,gnomAD的規模和範圍更大,可以解讀的基因變異體也更豐富(圖片來源:參考資料[5])
▲相比ExAC,gnomAD的規模和範圍更大,可以解讀的基因變異體也更豐富(圖片來源:參考資料[5])

  研究團隊從中總共篩選出了443769個預測的功能喪失型(predicted LoF, pLoF)變異體,預測這些變異體會影響其編碼蛋白的正常運作。研究人員進而對這些變異體進行了分類,從對生理機能幾乎沒影響到導致嚴重的健康問題,以便更好地發現造成常見遺傳病和罕見遺傳病的基因。

  第二篇文章里,研究人員們側重於對一類特別的罕見基因變異體進行臨床解讀。為何有些基因理應無法容忍某些pLoF變異,但它們卻能夠攜帶這些變異,而看似幾乎沒有影響?研究人員們指出,有些基因在轉錄表達時,由於RNA剪接方式的差異,同一個基因會形成不同的轉錄本亞型(isoform),而某些外顯子的表達水平會非常有限。如果一個人的體內的關鍵基因里帶有某個pLoF變異,這個變異更有可能出現在某個表達受限的外顯子中,因此將影響最小化。

  但另一些轉錄本亞型會導致特定疾病的出現。譬如,一種編碼鈣通道的基因突變,會導致一種叫Timothy綜合徵的罕見病。突變基因的不同轉錄本亞型表達在不同組織里,因而患者出現多系統障礙。

  為此,研究人員開發了一種新的指標來量化基因變異體的轉錄表達,由此建立的數據集,可以有助於罕見病的遺傳診斷、分析多系統疾病中的罕見變異體負擔。

  同系列的第三篇論文探討了如何利用人類功能喪失型變異體數據庫識別候選藥物靶點。研究人員報告了幾個關鍵發現:首先,那些不能容忍有功能喪失型變異體的基因(也就是必需基因),依然可以作為可行的成功靶點。去設計抑製劑的開發。具體來看,當發現某些個體在特定基因上攜帶了兩個pLoF變異體時,這個基因可能會是一個好的藥物靶點。;其次,大部分基因中功能喪失型變異體十分罕見,研究人表明在推斷這類變異體時會有很多誤判,因此要收集到確切證據,需要比gnomAD樣本量大1000倍的隊列來進行驗證;第三,我們雖然可以對變異體進行自動的標註,但為了去除人為引入的誤差,我們依舊需要人工對其進行檢查。

  《自然》同時發表的第四篇論文中,研究人員們分析了gnomAD數據庫中的近1.5萬個全基因組測序數據,創建了一個結構變異資源庫。

  結構變異(SV)指的是染色體上有大片段DNA發生了重新排列,有缺失、重複、插入、易位甚至是顛倒方向等多種類型。這類變異是很多遺傳病和癌症的重要誘因。研究人員指出,這個包含43.3萬種SV的豐富資源庫,“在人群遺傳學,疾病關聯研究和診斷篩查中具有廣泛的用途”。

  《自然》同期的一篇評論文章指出,這一大規模的基因組測序和分析工作產生了迄今為止最全面的數據和工具來瞭解人類的遺傳變異。gnomeAD已經將這些數據和工具公開。這份寶貴的遺傳資源,將改變我們解讀個體基因組的方式,為我們理解人類的生物學特徵和疾病,評估罕見和常見遺傳病,提供重要信息。

關注我們Facebook專頁
    相關新聞
      更多瀏覽