華中科大AI模型預測新冠生存率準確率90%,有助早期介入
2020年03月19日16:33

原標題:華中科大AI模型預測新冠生存率準確率90%,有助早期介入

當地時間3月17日,醫藥學預印本平台medRxiv發佈了一項題為“A machine learning-based model for survival prediction in patients with severe COVID-19 infection”(未經同行審議)的研究成果。這項由29名科學家共同進行的研究利用了最新的可解釋機器學習算法,對預測COVID-19(新冠肺炎)患者存活率的生物標誌物進行了揭示,並有望加強對新冠高危患者的早期干預,降低死亡率。

研究團隊來自華中科技大學同濟醫學院附屬同濟醫院、華中科技大學人工智能與自動化學院、劍橋大學植物科學學院等。文章的通訊作者為華中科技大學人工智能與自動化學院教授袁燁、同濟醫院麻醉科徐卉以及急診(重症)醫學科科主任李樹生。

研究人員對武漢同濟醫院收治的404例COVID-19感染患者進行血液樣本數據收集並進行回顧性分析。通過機器學習工具,研究團隊最終選擇了3種生物標誌物來預測個體患者的生存率,準確性超過90%:

LDH(乳酸脫氫酶)、淋巴細胞和hs-CRP(超敏C-反應蛋白)

特別是,

僅LDH水平較高這一項指標就能夠用於區分絕大多數需要立即就醫的病例

。研究者們表示,這一發現與當前醫學知識一致,即高LDH水平與各種疾病(包括肺部疾病,如肺炎)中發生的組織分解有關。

在當前階段,對疾病的嚴重程度進行快速、準確和早期的臨床評估至關重要。然而目前,尚無確定的生物標誌物作為標準,來區分需要立即就醫的患者。

此研究中,作者們運用最先進的機器學習框架,表明上述三種生物標記物可以準確預測疾病的嚴重程度,因此

將大大減輕臨床參數監測的壓力和其他相關的醫療負擔

研究人員開發了基於XGBoost機器學習的預後模型,該模型使用患者最新一個血樣樣本能夠以90%以上的準確度預測COVID-19重症患者是否存活;使用其他血液樣本則能達到90%的預測準確度。

該研究提出了一個簡單且可操作的公式,能夠對新冠高危患者進行快速檢測、早期干預並有可能降低他們的死亡率。

研究樣本與模型訓練

研究人員進行了分類任務,將一般(general)、嚴重(severe)、危重(critical)患者的基本信息、症狀、血液樣本、實驗室檢查結果(包括肝功能、腎臟功能、凝血功能、電解質、發炎因子)輸入,並將它們與檢測時期結束時的臨床後果(存活或死亡)相對應。

研究樣本是同濟醫院2020年1月10日至2月20日期間收集的404位患者的醫療信息。這404位患者中,有213位康複,其餘191位死亡,作者們表示,高死亡率與同濟醫院作為定點醫院,收治了最嚴重的病例有關。研究人員使用標準病例報告表收集病曆,其中包括流行病學、人口統計學、臨床、藥物、護理和死亡率等信息。

研究人員用375例患者信息進行算法開發(algorithm development),用29例作驗證集(validation)

研究人員將患者的數據分為訓練集(training)、測試集(test)和其他驗證集(additional validation)。培訓和測試集共計包含375名患者,而驗證集包括29名患者。訓練和測試集的樣本數按照7:3的比例設置,再進行5次交叉驗證。

驗證集中的患者均為嚴重患者,因為就臨床結果而言,他們是最不可預測的。從臨床症狀來看,發燒是最常見的初始症狀(49.9%),其次是咳嗽(13.9%),疲勞(3.7%)和呼吸困難(2.1%)。375名患者的年齡分佈為58.83±16.46歲,男性占58.7%。患者中有37.9%是武漢居民,家族聚集性病例占6.4%,醫療工作者占1.9%。

儘管大多數患者在整個住院期間都採集了多個血液樣本,但模型訓練和測試僅使用了患者最近一次的血樣記錄作為輸入,以得到評估疾病嚴重程度的關鍵生物標誌物,區分需要立即醫療救助的患者以及準確匹配每個標籤的相應功能。

與死亡風險最相關的臨床特徵

研究人員使用了一種名為XGBoost的分類器作為預測器模型,XGBoost是一種高性能的機器學習算法,由於其基於樹型(tree-based)方法的遞歸決策系統,其具有巨大的可解釋性。模型的輸出對應著患者的生存情況,研究人員將倖存的患者歸為0類,死亡的患者歸為1類。

研究人員沒有採用黑匣子建模(black-box modelling)策略的原因在於,其內部模型機製通常很難解釋。在XGBoost中,每個單個功能的重要性取決於其在樹中每個決策步驟中的累積使用量。這樣就可以在其中得到一個度量標準,來表徵每個特徵的相對重要性,這對於評估模型結果中最具區別性的特徵特別有價值,尤其是當研究與臨床上的醫療參數有關時。

為了評估發生死亡風險的標記,研究人員通過特徵選擇過程評估了每個患者參數對算法決策的貢獻。XGBoost根據功能的重要性對功能進行了排名,

該算法選擇了三個排名最靠前的臨床特徵:LDH、淋巴細胞和hs-CRP

,因此,它們被設置為關鍵特徵。

根據其在多樹XGBoost算法中的重要性,研究人員對十大關鍵臨床特徵進行了排名,LDH,淋巴細胞和hs-CRP排名前三

結果表明,

該模型能夠準確預測患者的結局,而無需考慮入院時的最初診斷

此外,附加驗證集的性能類似於訓練和測試集的性能,這表明該模型捕獲了有關患者生存的關鍵生物標誌物。同時,

算法結果進一步強調了LDH作為患者生存率的關鍵生物標誌物的重要性

三大關鍵特徵的訓練/測試拆分和附加驗證集的模型性能,F1分數(F1-score)是算法精確率和召回率的調和平均數,最大為1,最小為0

根據關於LDH,淋巴細胞和hs-CRP重要性的發現,研究人員進一步構建了簡化的且可在臨床上應用的決策模型,即單個決策樹(single decision tree)。由於共有24例患者的三種主要生物標誌物中至少有一種測量值不完整,研究人員利用剩下351例患者鑒定了單樹XGBoost模型。

簡單來說,就是研究人員選擇了模型中性能最佳的樹,使用三個關鍵特徵及其閾值,可以預測病人死亡或是存活。

這一模型顯示了100%的死亡預測精度和90%的生存預測精度。總體而言,無論是多樹XGBoost還是單樹XGBoost模型,模型對於生存和死亡預測的準確性、宏觀和加權平均數的得分始終超過0.90。

最後,大多數患者在住院期間都接受了多次血液采樣。研究人員又通過上千份額外的血液測試結果對模型進行了驗證,

發現預測準確度達到了90%

。此外相關結果進一步表明該模型可以應用於任何血液樣本,無論患者有怎樣的臨床結果。

提早識別高危患者,快速確定優先級

研究者們表示,這項研究的意義是雙重的。首先,一般的相關研究只會“提供高風險因素的範圍”,而這一模型則提供了一種簡單直觀的臨床測試,進而可以準確快速地量化死亡風險。

如果醫生能夠提早知道,對於某些患者來說某些療法會導致治療效果不理想,那麼醫生就能搶在病症變得更嚴重之前採用不同的方法。

應用這一模型的目標是在不可逆性病變發生之前識別高危患者

其次,任何一家醫院都可以輕鬆收集病人的LDH(乳酸脫氫酶)、淋巴細胞和hs-CRP(超敏C-反應蛋白)這三個關鍵指標信息。

在擁擠的醫院中醫療資源短缺的情況下,這種簡單的模型可以幫助快速確定患者的優先級

患者LDH水平的增加能夠反映組織或細胞的破壞,被認為是組織或細胞損傷的常見徵兆。血清LDH已被確定為特發性肺纖維化(IPF)嚴重程度的重要生物標誌物。

在患有嚴重肺間質疾病的患者中,LDH的增加是顯著的,並且這是患者肺損傷最重要的預後指標之一。因此對於重症COVID-19患者而言,LDH水平的升高表明肺損傷的嚴重程度增加。

研究團隊指出,較高的血清hs-CRP值也可用於預測嚴重COVID-19患者的死亡風險。hs-CRP的增加是ARDS(急性呼吸窘迫綜合徵)患者預後不良的重要標誌,反映了炎症的持續狀態。

值得注意的是,這種持續性炎症反應的結果可以從COVID-19死者的屍檢中看到,即肺部出現大量灰白色病變,在組織切片中,還可見肺泡溢出大量黏性分泌物。

最後,

研究結果還表明淋巴細胞可能充當潛在的治療靶標

,這一假說得到了臨床研究結果的支援。此外,此前包括北京中日友好醫院呼吸科主任曹彬團隊在內的研究者們已經證明,淋巴細胞減少症是COVID-19患者的常見特徵,可能是與疾病嚴重程度和死亡率相關的關鍵因素。

與SARS和MERS患者的肺泡穿透和抗原呈遞細胞(APC)受損途徑一樣,新冠肺炎患者損傷的肺泡上皮細胞可以誘導淋巴細胞浸潤,導致持續性淋巴細胞減少。

此前的一項患者活檢研究表明,外周血CD4和CD8 T細胞的數量大大減少,而它們的狀態被過度激活。此外,也有研究表示淋巴細胞減少症主要與CD4和CD8 T細胞的減少有關。因此,淋巴細胞可能在COVID-19中發揮著明顯的作用,這值得進一步研究。

作者們表示,這項研究同樣存在一定的局限性。首先,由於這一機器學習方法是純粹由數據驅動的,因此,如果從不同的數據集開始研究,則模型可能會有所不同。

此外,儘管作者們掌握了80多項臨床測量結果,但為了避免過擬合(overfitting),團隊採用的建模原理是在最少臨床測量結果數量和良好預測能力之間進行權衡,因此可能存在臨床測量結果不夠豐富的問題。

最後,這項研究在模型的可解釋性和更高的準確性之間進行平衡。儘管臨床環境傾向於使用可解釋的模型,但如果採用黑匣子模型,則準確性可能更高,但同時決策風險更高。

從技術角度來看,作者們認為這項工作有助於使用機器學習方法為正在全球大規模暴發的COVID 19病例進行預測和診斷。

關注我們Facebook專頁
    相關新聞
      更多瀏覽