勝利在望:即將完整的人類基因組|《自然》技術特寫
2021年05月28日11:27

  來源:Nature Portfolio

  基因測序技術進步意味著科學家們即將完成從端粒到端粒的人類基因組圖譜測序工作。

  由於基因和調控序列具有複雜多樣的“地形”,人類基因組常常被比作為一幅地形圖。但這幅圖上有許多地方沒有引人注目的美景,而是一望無際的沙漠公路。

  以著絲粒為例,攜帶基因的兩條染色體臂通過著絲粒相連。著絲粒由數千個幾乎一樣的α衛星序列組成——171bp的α衛星重複單位需要被正確排布以確保染色體穩定和細胞分裂。然而,在人類基因組草圖發佈20年後,著絲粒和其他有難度的DNA序列仍然是染色體圖譜中難以填補的缺口。並且,直到幾年前,一些研究人員還對填補它們感到絕望。

  杜克大學的著絲粒研究員Beth Sullivan回憶起2014年與加州大學聖克魯茲分校的基因組學研究員Karen Miga的一次談話。“她告訴我,如果測序技術沒有發生顛覆性改變,我們將在很長時間內停滯不前。” Sullivan說道。

納米孔測序,例如GridION單元,能夠不中斷DNA而解碼成千上萬的堿基對。來源:牛津納米孔科技。
納米孔測序,例如GridION單元,能夠不中斷DNA而解碼成千上萬的堿基對。來源:牛津納米孔科技。

  但改變的確發生了:不間斷讀取長鏈DNA的測序技術橫空出世。如今,Miga和從端粒到端粒聯盟(Telomere to Telomere consortium,T2T)的同事即將完成一個長達20年的研究任務,這項工作是從基因組草圖首次發佈後就開始的。他們的目標是為每條染色體組裝一個從端粒到端粒的基因組圖譜,即從一個端粒(覆蓋染色體末端的重複序列單元)延伸到另一個端粒。“這不僅僅是為了做而做,”Miga說到,“而是因為我覺得其中蘊含著重要的生物規律。” 但要找到它,基因組學界將需要對許多個這樣的基因組進行測序,消除這些仍鮮為人知的基因組區域的變異。

  進退兩難

  20年前的2月,人類基因組草圖首次發表[1],這是一項里程碑式的成就,但它也有很多漏洞。“人類基因組計劃”的科學家們從染色體DNA中獲得了大量的短序列。這些短序列與相鄰區域重疊,構成更大的連續序列——重疊群(contig)。理想情況下,每條染色體將呈現單個重疊群,但首次草圖卻包含了1246個這樣的片段。

  自此,基因組參考聯盟(Genome Reference Consortium,GRC)的科學家們一直在完善組裝,手動檢查,並使用測序分析來識別有錯誤和信息缺口的片段。人類基因組圖譜的最新版本於2013年發佈,被稱為GRCh38。從那時起,它就被反複修補。至今,它仍然缺少5%-10%的基因組,包括所有的著絲粒和其他困難區域,如編碼核糖體RNA序列的大量基因。這些缺失的基因組藏於大量重複基因拷貝的長序列中。美國國家人類基因組研究所的生物信息學家、T2T聯合主席Adam Phillippy說:“這在有待填補的缺口中占很大一部分。” 這些基因組還佈滿了幾乎相同的難以比對的DNA序列,又稱片段複製——這是古代染色體重排的產物。

  這些難題繼續阻礙著基因組的組裝。這是因為到目前為止大多數測序都是通過短讀長技術完成的,比如廣泛使用的加州聖地亞哥生物技術公司Illumina商業化平台。Illumina測序儀可以獲取非常精確的數據,但通常只有幾百個堿基——因為太短而無法跨越長重複以及準確定位序列。“基因通常很容易組裝,” 英國Wellcome Sanger研究所的計算生物學家、GRC成員Kerstin Howe說,“但基因間隔區里的其他序列或有很多重複基因的序列卻很難著手。”

  填補缺口

  兩種長讀長測序技術正在填補這些缺口。加州生物技術公司太平洋生物科學(Pacific Biosciences,以下簡稱PacBio)使用一種成像系統來直接讀取數十萬甚至數百萬條平行DNA鏈,每條鏈包含數千個堿基。另一種技術是由英國公司牛津納米孔技術(Oxford Nanopore Technologies)實現商業化,它將DNA鏈穿過微小的蛋白孔或納米孔,測量核苷酸穿過孔道時電流的細微變化,進而讀取數萬至數十萬個堿基。

  當這兩項技術首次推出時(PacBio於2010年、牛津納米孔於2014年推出),它們比Illumina更容易出錯,Illumina單次讀長的準確性超過99%。“我們在說,早期PacBio 讀長錯誤率為15-20%,”Phillippy說。而第一代nanopore測序儀會在超過30%的堿基中產生誤差。

  但這些技術在穩步改善,其讀長也隨之提高。“在過去三四年間,我們可以讀取超過100千堿基(kb)的序列長度,” Phillippy說,“也就在那時,Karen和我成立了T2T聯盟。”

人類染色體的掃瞄電子顯微鏡成像。來源:Power and Syred/SPL
人類染色體的掃瞄電子顯微鏡成像。來源:Power and Syred/SPL

  T2T聯盟成立於2019年初,旨在為每個人類染色體提供高質量的從端粒到端粒的組裝。來自世界各地的100多名測序和基因組學專家已經與聯盟簽約,其中許多專家積極展示了長讀長測序分析的優勢。

  2018年發表的兩篇論文突出了他們的工作。在第一篇研究中[2],英國諾丁漢大學的計算生物學家Matthew Loose和同事描述了第一個完全根據Oxford Nanopore數據組裝的人類基因組。過去,長讀長組裝是使用Illumina數據來糾正容易出錯的nanopore結果。但是,現在Loose和同事僅僅使用Nanopore數據就覆蓋了大約90%的GRCh38,準確率高達99.8%,同時也填補了參考基因組中的十幾個主要缺口。

  在第二項研究中[3],Miga和她的團隊重新組裝了人類Y染色體的著絲粒,這是基因組中最小的染色體。他們在該區域合成了大量的長讀長序列,獲得了高質量的共有序列,其中的隨機錯誤很容易被識別和消除。“實際上我們可以橫跨整個著絲粒,”Miga說,“但在那時工作仍然是手動完成的——就是看著模式然後把它們連接在一起。”

  首戰告捷

  這些成功表明T2T的目標是可以實現的。為了簡化工作,T2T聯盟專注於CHM13,這是一種腫瘤衍生細胞系,其基因組包含兩套相同的染色體。這就避免了二倍體基因組的複雜性,因為二倍體基因組具有來自父母雙方的不同染色體拷貝。

  在2020年底,T2T科學家公佈了兩個染色體的完整組裝,即X染色體[4]和8號染色體(預印本)[5]。研究人員使用牛津納米孔技術,對兩條染色體的片段進行測序,這兩條染色體的長度通常超過7萬個堿基,其中一條讀長甚至超過100萬個堿基。Phillippy說:“有了這些,我們就能夠獲得從端粒到端粒的染色體的主幹展示,但精確度較低。” 然後,他們用Illumina和PacBio的讀本作為補充,以優化組裝。

  華盛頓大學基因組學家Evan Eichler實驗室的博士後Glennis Logsdon是8號染色體研究工作的第一作者,他說不同的測序技術都有其不足。例如,T2T科學家們發現,PacBio會在G和A堿基高度富集的基因組區域出錯,而nanopore有時會在相同核苷酸的長重複序列中出錯。Logsdon說:“如果一個數據庫有某種缺陷而另一個數據庫沒有,那麼它們最終會因此而很好地互補。”

  完成和檢查基因組組裝需要專用的軟件,這套工具由Phillippy和加州大學聖地亞哥分校計算生物學家Pavel Pevzner等研究人員共同開發。研究小組採取謹慎的方法,“只有兩個長度超過7000個堿基的序列,基本上100%相同,我們才會把它們粘合在一起,” Phillippy說,“因為一旦你在組裝中引入一個錯誤,就很難修復它。” 他說,通過這麼謹慎的操作,有可能在核苷酸水平上產生99.99%的準確組裝。

  對X染色體的初步研究[4]也得益於之前對該染色體著絲粒的瞭解,此著絲粒的結構已經被充分研究。“我們根據測序信息來組裝α衛星序列,使用多種分子技術確保其大小合適,” Sullivan說,“總的來說,我對第一次研究中的驗證工作量印象深刻。”

  研究人員還利用了作圖技術,比如加州生物科技公司Bionano Genomics開發的一種技術,使得測量一條染色體上不同DNA序列之間的距離成為可能。

  接近完成

  雖然很成功,但是T2T方法對8號染色體和X染色體的測序過程費力且艱苦。在這段時間內,一個重要進展給團隊的努力打了一劑強心針。PacBio儀器支援環形一致測序(CCS),在此過程中單個DNA鏈被轉換成可以反複讀取的閉環。通過比較這些重複序列,研究員可以消除隨機錯誤,獲取高度準確的結果。

  早期版本的CCS最多容納幾千個堿基,在基因組組裝中用途有限。但2019年,PacBio改進了這一過程[6],後續的高保真技術如今產生超過2萬個堿基的一致序列,準確率超過99%。Pevzner說:“我們現在組裝出的一些著絲粒完全來自高保真序列,而不需要額外的數據。” 不過他隨後補充道,另外還需要精確校準的算法來處理這些數據。

  Pevzner將著絲粒重組比作拚接看似清晰的藍天拚圖,在這個拚圖中,最初所有的碎片看起來都差不多。他說,“裡面有少少的、幾乎看不見的雲朵,能用來分辨拚圖的不同部分。” 找出這些雲揭開了拚圖的拚法,改進後的方法對著絲粒也有類似作用,即敏銳檢測到細微的序列差異,為組裝算法提供標記。

  這種方法與更長的nanopore測序結合後顯著加速了T2T進展——Logsdon報告稱十萬個堿基的延伸現在已經十分普遍。“我們花了一年甚至更多的時間來完成X染色體和8號染色體的研究,”Phillippy說,“但後來我們基本上在兩個月內就完成了賸餘所有染色體的工作。” 如今,終點近在眼前。“我們搞定了所有著絲粒序列,除了9號染色體上的一個,”Miga說,這個著絲粒太大了,跨越2700萬個堿基,驗證特別難。該團隊還在最終確認高度複製核糖體RNA基因。但T2T已經在GitHub上分享了數據,Miga預計CHM13細胞系的完整基因組將於今年發佈。

  這些數據加深了人們對基因的理解。Logsdon和其他人一直在使用nanopore測序來發現能夠影響染色體功能的DNA化學修飾模式。她說,“大多數著絲粒都發生了甲基化,但似乎在所有著絲粒中都存在這種甲基化標記。” 甲基化可能標記了動粒的位置,這是一個重要的著絲點結構,負責細胞分裂期間DNA的均勻分配。Logsdon希望利用這些發現,設計用於合成染色體的最小著絲粒。

  T2T的方法也使得龐大複雜的基因測序工作相對縮短,如編碼免疫系統T細胞表面抗體和受體可變區的基因。“它們是高度重複的,而且組裝起來非常困難,” Pevzner說,“目前為止,我們只有兩個可變區的參考序列。” 獲取和表徵這些具有挑戰性的基因組片段將引導我們理解感染和疫苗的免疫應答機製。

  順利完成

  儘管組裝那麼難,但如果沒有與不同個體的其他基因組進行比較,單一的從端粒到端粒的基因組提供給研究員的價值有限。為提高效用,在2020年末,T2T開始與人類泛基因組參考聯盟(HPRC)展開緊密合作。HPRC於2019年成立,旨在用一個能更好記錄人類多樣性範圍的參考基因組取代GRCh38,該參考基因組基於至少350名個體的全基因組數據。德國馬克斯·普朗克信息學研究所的計算生物學家Tobias Marschall參與了這項研究,他說:“基因組醫學越是成為常規,你就越想消除某人從祖先那兒繼承來的任何偏差。”

  東京大學計算生物學家森下真一(Shinichi Morishita)實驗室的研究助理鈴木裕太(Yuta Suzuki)利用PacBio測序研究了來自日本和世界其他地區的36個人的著絲粒[7]。“就在日本人群中,我們發現幾乎每一個我們調查過的樣本都有不同的著絲粒,” 鈴木說,“所以只有一個參考是不夠的,甚至每個群體有一個參考都不夠。”

  森下計劃分析另外幾百個人類著絲粒,並指出幾十種疾病相關的基因變異已經被定位到這些區域。他說:“這表明絲粒重複序列中月問題,我們初步想法是它們的穩定性可能由於結構突變而被破壞了。” 在Phillippy看來,一旦核糖體RNA基因可以常規處理,就能更好地理解與細胞蛋白質合成機製相關的疾病。

  但首先,研究人員必須弄清楚如何將T2T過程應用於二倍體基因組。要確定哪條序列位於哪條染色體上,科學家需要發現足夠獨特的遺傳標記,進而為每條DNA鏈組裝獨特的重疊群,但這是一項艱巨的任務,尤其是著絲粒這樣的超重複區域。在他們的8號染色體預印本中,Logsdon和Eichler等人描述了在黑猩猩和人類中重組二倍體著絲粒區域的可行性,但前提是這兩條染色體的基因有高度獨特性。Morishita說:“對於二倍體基因組,我們需要更精確的或更長的讀長來橫跨整個著絲粒區域。”

  目前,大多數臨床-基因組學研究集中於已知的基因,這是一種快速經濟的基因組分析方法。然而,探索這一新領域的先驅們預計,儘管綜合分析可能花費更多,但它最終將成為醫學和基因組學研究中的一個標準,尤其是當研究人員開始例行地探索這些過去未比對區域基因變異的臨床影響。“如果我的孩子生病了,而我知道我可以通過長讀長測序得到100%的基因組的話,我會願意支付增加的費用的。”Miga說。

關注我們Facebook專頁
    相關新聞
      更多瀏覽