為戰“疫”工作提供數據支撐
2021年02月02日04:09

原標題:為戰“疫”工作提供數據支撐

基因庫正門的猛獁雕像

  作為服務於國家戰略的重大科技基礎設施之一,位於深圳大鵬新區的深圳國家基因庫經過近10年的啟動建設已成為目前世界領先的存、讀、寫一體化的綜合性生物遺傳資源基因庫。

  在這裏,科學家們對生物遺傳資源進行存儲、讀取、合成運用和開放共享,並以此為基礎搭建起挖掘基因資源,通過自身的不斷努力使得深圳國家基因庫成為支撐我國甚至全球生命科學研究與生物產業創新發展的公益性、開放性、引領性、戰略性科技平台。截至2021年1月22日,國家基因庫生命大數據平台(CNGBdb)歸檔數據量達3877TB,假設一部高清電影的大小為1GB,這些歸檔數據約相當於400萬部高清電影。

  近年來,很多為國際廣泛關注的生命科學領域科研成果正是由深圳國家基因庫提供了有力的數據支撐。而我國基因組學在精準醫學、精準健康、未來農業、海洋開發、微生物應用等方面的前沿探索與產業轉化,也正有賴於深圳國家基因庫發揮其積極作用。

  文、圖/廣州日報全媒體記者鮑文娟

  系全球第4個國家級基因庫

  深圳國家基因庫位於深圳市大鵬新區觀音山腳下,這座臨海環山的梯田式建築與周邊野趣生態融為一體,宛如世外桃源。其占地面積超過5萬平方米,建築面積11.6萬平方米。這是繼美國國家生物技術信息中心(NCBI)、歐洲生物信息研究所(EBI)、日本DNA數據庫(DDBJ)之後的全球第4個國家級基因庫。

  在抗擊新冠肺炎疫情的關鍵時期,由深圳國家基因庫和華大區塊鏈團隊共同開發的新型冠狀病毒基因組分析平台促進新冠病毒基因組數據及相關演化分析結果的實時共享,為評估疫情風險、啟動公共衛生應對措施及製定醫療對策提供全面、有效的數據支撐。

  2008年建立的全球共享流感數據倡議組織(GISAID)是目前全球最大的流感及新型冠狀病毒數據平台。去年3月中旬,深圳國家基因庫與該平台達成戰略性合作。雙方圍繞呼吸道傳染病相關病毒的基因數據管理、共享、分析等方面展開全面合作,促進病毒數據的全球共享。國家基因庫生命大數據平台(CNGBdb)成為GISAID的中國首個正式授權平台。

  本次戰略合作幫助我國科研工作者獲得一站式病毒數據資源訪問服務和更加豐富的分析工具,也標誌著我國科研機構在合規合法、保護數據生產者和提交者權利的前提下,促進全球範圍新型冠狀病毒及流感病毒數據共享方面邁出重要一步。

  積累數據相當於400萬部高清電影

  深圳國家基因庫是一個年輕有朝氣的機構,近300名員工,平均年齡約29歲。“這裏的工作很有挑戰,也很有成就感。”深圳國家基因庫生物信息數據庫主管曾文君告訴記者。他於2017年加入深圳國家基因庫。就是他率領團隊搭建了國家基因庫生命大數據平台。該平台目前已經成為國內最大的生物大數據中心之一,致力於為科研工作者提供生物大數據共享和應用服務。截至2021年1月22日,歸檔數據量為3877TB,一部高清電影用1GB計算的話,約相當於400萬部高清電影。

  很多為國際廣泛關注的生命科學領域科研成果的測序數據產出是依託深圳國家基因庫數字化平台進行。在1月6日舉行的深圳市科學技術獎勵大會上,由深圳國家基因庫等單位共同起草的國家標準《GB/T 34798-2017 核酸數據庫序列格式規範》項目榮獲2020年度深圳市科學技術獎“標準獎”。該項目是我國在高通量基因測序數據規範領域製定的首個國家標準。

  “不同數據庫有著不同的命名規則。為了讓信息之間無縫對接,只有統一數據格式標準,才能有利於各地數據庫的共享交換,只有格式標準統一。不同數據庫才能較好地對接實現數據共享,分析工具才能有效率。” 曾文君告訴記者,“製定相關國家標準,為規範行業數據應用打下堅實基礎,對於規範和支援高通量測序領域的產業發展具有重要意義,也有助於大幅度地提升科研效率。”

  截至2020年12月31日,深圳國家基因庫參與起草的已發佈實施的標準達23項,其中包括5項國家標準、10項地方標準、8項團體標準,填補多項行業空白;同時,製定發佈了30項企業標準,規範了內部技術及管理流程。這為我國生命科學研究、醫學健康和生物產業發展提供了重要的基礎支撐。

  “三庫兩平台” 擬打通基因科技上下遊應用

  深圳國家基因庫目前已初步建成了“三庫兩平台”的業務結構和功能。其中,生物樣本資源庫、生物信息數據庫和動植物資源活體庫建立了樣本、數據、生命體“存”的能力;數字化平台、合成與編輯平台建立“讀”與“寫”的能力。

  經過近5年的發展沉澱,“庫”和“平台”已經成為科學家們的科研“利器”。其中生物樣本資源庫是全球領先的高通量、低成本的綜合性生物樣本庫,擁有千萬級的樣本存儲能力。而生物信息數據庫建立了高效、安全的生命科學領域信息數據分析平台,並搭建了國家基因庫生命大數據平台,支撐資源共享。動植物資源活體庫立足於“存”和“讀”的能力,將建設成為數字化的生物多樣性基地和生物資源庫,為人類可持續發展提供保障。

  而數字化平台,又稱“讀”平台,讀出生物的堿基,即為測序平台。目前深圳國家基因庫擁有一系列具有自主知識產權的國產化測序儀, Pb級數據產出能力,規模大、能力全面,是世界領先的基因組數據產出中心。而合成與編輯平台,又稱“寫”平台。

  深圳國家基因庫主要負責人介紹,“寫”平台在功能上與“存”“讀”平台相輔相成,打通基因科技“存、讀、寫”技術聯動,通過技術迭代進行核心技術的成本指數級降低,促進基因科技產業應用的廣泛拓展,形成的國家級資源庫將成為全球範圍首個真正打通基因科技上下遊應用的創新性體系。

  “三庫兩平台”的功能和業務看上去離大眾很遠,但實際上又關係到每一個人的切身利益。曾文君告訴記者,基於深圳國家基因庫支撐的重大科研項目,打造了覆蓋健康與疾病、生物多樣性、微生物等不同研究領域的十大20多個專有數據庫。

  人體是一個由自身細胞和共生微生物構成的超級生物體。越來越多的科學證據表明,人體共生微生物與人們的營養、代謝和免疫密切相關。只有深入認識人體微生物的特性,才能解碼與之相關的人體健康奧秘。而深圳國家基因庫微生物資源庫為例是目前國內最大的健康人體微生物庫,能夠為菌株功能的深入研究提供基礎資源。通過高通量培養組學和高通量16S rRNA鑒定技術,從健康人體的腸道、皮膚等部位篩選保藏3.8萬餘株微生物,分佈於800餘種屬,包含100餘個新種,並對菌株開展了全基因組測序,初步建立了集資源和數據於一體的健康人體共生微生物庫。目前深圳國家基因庫微生物資源庫已對外發放菌株2000餘株,提供各類技術服務500多次,促進了相關領域的科學研究。

  建開放共享機製促大灣區前沿學科建設

  據瞭解,深圳國家基因庫建立了全面的開放共享機製來支撐公共科研需求,推進粵港澳大灣區重大科技基礎設施、交叉研究平台和前沿學科建設。

  所謂開放共享,目前包括資源數據和儀器設施兩方面。該負責人表示,具體來說,深圳國家基因庫積極貫徹落實國家關於生物遺傳資源與科學數據管理的相關政策法規,推動行業內資源數據的整合,加強我國生物遺傳數據與生命科學數據的規範管理和利用;同時在滿足深圳國家基因庫公益類服務、科研合作類服務開展的前提下,利用深圳國家基因庫平台賸餘能力向公眾提供技術與服務以支撐科研,支撐我國生物產業提升創新能力,推動我國生命經濟快速發展。

  近年來,在深圳國家基因庫理事會的指導下,深圳國家基因庫在支撐生命科學研究與生物行業發展方面發揮了重要作用,不斷提升了基礎設施能力和科技水平,進一步拓展了對外開放共享和支撐服務。

  據統計,迄今為止,深圳國家基因庫已服務國內外數百家醫院、高校、科研院所等機構,支撐多項重大科研成果在國際知名期刊發表,發佈國家、地方、團體、企業標準等數十項。而深圳國家基因庫與灣區的高校、醫院、企業等機構也進行了緊密合作。

  去年,由中山大學與深圳國家基因庫合作開發的翻譯組學可視化在線數據分析平台,在國家基因庫生命大數據平台上線,對全球科研人員公開並可免費使用。這能幫助科研人員極大地節省數據分析處理所需的開發時間和資源,加速翻譯組學領域的研究工作,推動生物和醫學研究與應用。

  深圳國家基因庫相關負責人表示,搭建起深圳國家基因庫這樣的公益性、開放性、支撐性、引領性服務平台,將有助於促進基因組學在精準醫學、精準健康、未來農業、海洋開發、微生物應用等方面的前沿探索與產業轉化,真正實現基因資源的共有、共為、共享。

關注我們Facebook專頁
    相關新聞
      更多瀏覽