谷歌傳奇人物 Jeff Dean 聯(lián)手頂級醫(yī)學院，發(fā)表首篇電子病歷 AI 論文

本文作者：李雨晨

2018-01-31 10:10

導語：本篇論文由“編譯器從不警告Jeff，Jeff會警告編譯器”的谷歌大腦高級研究員Jeff Dean率隊。

雷鋒網消息，谷歌在ArXiv上公開了一篇論文，也很可能是谷歌使用深度學習模型在電子病歷建模分析方面的首篇文章。這篇論文由“編譯器從不警告Jeff，Jeff會警告編譯器”的谷歌大腦高級研究員Jeff Dean率隊，聯(lián)合了UCSF、Stanford、UChicago等知名機構的眾多大牛。

論文地址：https://arxiv.org/pdf/1801.07860.pdf

谷歌傳奇人物 Jeff Dean 聯(lián)手頂級醫(yī)學院，發(fā)表首篇電子病歷 AI 論文

在這篇文章里，Google選擇了UCSF、Stanford、UChicago作為合作單位，在兩個大的醫(yī)院系統(tǒng)——CSF和UChicago的電子病歷數(shù)據(jù)上，用深度學習模型預測四件事情：住院期間的死亡風險、規(guī)劃之外的再住院風險、長時間的住院天數(shù)以及出院的疾病診斷。

據(jù)雷鋒網了解，本篇論文的作者團隊背景豪華。Quoc Le等人是深度學習界耳熟能詳?shù)娜宋?。此外，Nigam Shah是Stanford生物醫(yī)學信息中心的終身教授，一直大力推動機器學習、數(shù)據(jù)挖掘技術在醫(yī)學信息學中的應用。而Atul Butte則是醫(yī)學信息學界最有影響力的學者之一，本人是UCSF計算健康科學中心（Institute for Computational Health Science）的首任director，美國醫(yī)學院院士。

他們總結了這篇論文得到的兩個成果。首先，提出了一個通用的數(shù)據(jù)處理途徑，可以將原始的EHR數(shù)據(jù)作為輸入，并且在沒有手動特征協(xié)調的情況下生成FHIR標準輸出。這一成果使得系統(tǒng)可以相對容易地部署到新醫(yī)院。

其次，基于兩家具有普通患者群體(不局限于ICU)的醫(yī)院數(shù)據(jù)，展示了在各種預測問題和設置中使用深度學習模型的有效性。

雷鋒網了解到，作者從2012-2016年的加州大學舊金山分校(UCSF)以及2009-2016年的芝加哥大學醫(yī)學(UCM)中獲取了EHR數(shù)據(jù)。他們把每個衛(wèi)生系統(tǒng)稱為A醫(yī)院和B醫(yī)院。所有電子健康記錄都進行了脫敏。這兩個數(shù)據(jù)集都包含患者人口統(tǒng)計數(shù)據(jù)、診斷記錄、藥物治療、生命體征等數(shù)據(jù)。UCM數(shù)據(jù)集(但不是UCSF)還包含了不確定的、免費的醫(yī)學注釋。

此外，作者還采用了FHIR標準，開發(fā)了一個單獨的數(shù)據(jù)結構，而不需要手動創(chuàng)建的數(shù)據(jù)集。

采用的三種預測模型

盡管考慮到數(shù)據(jù)的巨大潛力，但是提高預測模型的可擴展性是困難的，因為對于傳統(tǒng)的預測建模技術來說，要預測的每一個結果都需要創(chuàng)建具有特定變量的自定義數(shù)據(jù)集。人們普遍認為，分析模型中80%的工作是預處理、合并、自定義和清理數(shù)據(jù)集，而不是對此進行分析，這極大地限制了預測模型的可擴展性。

我們主要采用了三種模型：LSTM、前饋神經網絡和決策樹。在輸入模型之前，所有電子病歷中的事件全都被嵌入到一個統(tǒng)一的低維空間中。

我們使用了兩個美國學術醫(yī)療中心的EHR數(shù)據(jù)來驗證我們的方法，其中包括住院至少24小時的216221名病例。深度學習模型對住院期間死亡風險(AUROC)、規(guī)劃之外的再住院風險(AUROC 0.75-0.76)、長時間的住院天數(shù)（AUROC 0.85-0.86)和出院的疾病診斷(頻率加權AUROC 0.90)都具有較高的準確性。這些模型在所有情況下都優(yōu)于最先進的傳統(tǒng)預測模型。

事實上，常規(guī)收集的病人醫(yī)療數(shù)據(jù)還沒有用于臨床醫(yī)生改善護理服務的預測統(tǒng)計模型。另一個挑戰(zhàn)是，電子健康記錄(EHR)中潛在的預測變量的數(shù)量可能會很容易地達到數(shù)千個之多。傳統(tǒng)的建模方法僅僅通過選擇非常有限的常用變量，由此產生的模型可能會產生不精確的預測：假陽性的預測可能會加重醫(yī)生、護士的負擔。

深度學習和人工神經網絡的發(fā)展可以使我們應對這些挑戰(zhàn)。一個關鍵的優(yōu)點是，調查人員通常不需要指定考慮哪些潛在的預測變量，以及如何進行組合；相反，神經網絡可以學習來自數(shù)據(jù)本身的關鍵因素和交互表示。具體來說，這種深度學習方法可以將電子健康記錄(包括自由文本注釋)納入到對一系列臨床問題和結果的預測中，這些問題和結果比傳統(tǒng)的預測模型要好得多。

用FHIR標準對電子病歷進行映射

使用計算機系統(tǒng)從“高度組織和記錄的數(shù)據(jù)庫”中學習臨床數(shù)據(jù)具有悠久的歷史。盡管目前EHRs的數(shù)據(jù)已經數(shù)字化，但最近對醫(yī)學文獻的系統(tǒng)回顧發(fā)現(xiàn)，用EHR數(shù)據(jù)構建的預測模型使用的變量的中位數(shù)為27，依賴于傳統(tǒng)的廣義線性模型，并且是在單個中心使用數(shù)據(jù)構建的。在臨床實踐中，最常用的是更簡單的模型，比如CURB-65，這是一個5因素模型，或者是單參數(shù)的警告分數(shù)。

對每個患者使用更多可用數(shù)據(jù)的一個主要挑戰(zhàn)是，來自多個站點的衛(wèi)生數(shù)據(jù)缺乏標準和語義互操作性。通常為每個新的預測任務選擇一組獨特的變量，通常需要耗費大量勞動來提取和規(guī)范來自不同站點的數(shù)據(jù)。

重要的前期研究集中于在傳統(tǒng)關系數(shù)據(jù)庫中通過耗時的數(shù)據(jù)標準化來解決可擴展性問題，如OHDSI聯(lián)盟定義的OMOP標準。這樣的標準允許跨站點的預測模型的一致性開發(fā)，但是只適應原始數(shù)據(jù)的一部分。

最近，一種被稱為FHIR的數(shù)據(jù)結構被開發(fā)出來，以一種一致的、分層的、可擴展的容器格式來表示臨床數(shù)據(jù)，而不考慮衛(wèi)生系統(tǒng)，它簡化了站點之間的數(shù)據(jù)交換。然而，這種格式并不保證語義一致性，增加了處理不協(xié)調數(shù)據(jù)的額外技術需要。

通過電子健康記錄和深度學習方法的發(fā)展，對電子健康記錄數(shù)據(jù)的深度學習的應用迅速發(fā)展。在一項著名的研究中，研究人員使用自動編碼器預測一組特定的診斷結果。隨后的工作擴展了這種方法，通過對患者記錄中發(fā)生的事件的時間序列進行建模，這可以提高依賴于事件順序的場景的準確性，以及卷積和遞歸神經網絡。

一般來說，以前的工作集中于EHR中可用的特性的子集，而不是在電子健康記錄中所有可用的數(shù)據(jù)，包括臨床自由文本注釋以及大量結構化和半結構化數(shù)據(jù)。由于重癥監(jiān)護(模擬)數(shù)據(jù)的醫(yī)療信息市場的可用性，許多先前的研究也集中在單一中心的ICU患者；其他單中心研究也關注ICU患者。每個ICU患者的數(shù)據(jù)都比普通醫(yī)院病人多得多，盡管非ICU的住院人數(shù)比ICU的住院人數(shù)多出6倍。

深度學習能夠提供有效預測

我們感興趣的是，深度學習能否在廣泛的臨床問題和結果中產生有效的預測。因此，我們選擇了來自不同領域的結果，包括住院期間的死亡風險；規(guī)劃之外的再住院風險；長時間的住院天數(shù)；出院的疾病診斷。

住院期間的死亡風險：我們預測住院病人的死亡率，定義為“過期”的出院處置。

谷歌傳奇人物 Jeff Dean 聯(lián)手頂級醫(yī)學院，發(fā)表首篇電子病歷 AI 論文

圖1:來自每個衛(wèi)生系統(tǒng)的數(shù)據(jù)，一個合適的FHIR資源，并按時間順序排列。深度學習模型可以在做出預測之前使用所有可用的數(shù)據(jù)。因此，不管任務如何，每個預測都使用相同的數(shù)據(jù)。

規(guī)劃之外的再住院風險：我們預計將在30天內重新入院，并在出院后30天內入院。如果入院日期在出院后30天內，住院治療被認為是“重新入院”。一個重新接納的計劃只能算一次。

長時間的住院天數(shù)：我們預測至少7天的時間，住院時間是指住院和出院之間的時間。

出院的疾病診斷：我們預測了全部的初級和二級ICD-9賬單診斷。

我們共納入了216221例住院病例，涉及114003例獨立病人。住院死亡率為2.3%(4930/ 216221)，計劃外30天的入院率為12.9%(27918/216221)，較長住院時間(23.9%)，患者的出院診斷范圍為1到228次。人口統(tǒng)計和利用特征見表1。為了預測住院死亡率，AUROC在24小時內入院后，醫(yī)院A為0.95(95% CI 0.94 - -0.96)，醫(yī)院B為0.93(95% CI 0.92 - -0.94)。這明顯比傳統(tǒng)的預測模型更準確。

谷歌傳奇人物 Jeff Dean 聯(lián)手頂級醫(yī)學院，發(fā)表首篇電子病歷 AI 論文

圖2:箱線圖顯示了EHR中的數(shù)據(jù)量，以及它在接收過程中的時間變化。我們將一個令牌定義為電子健康記錄中的單個數(shù)據(jù)元素，如藥物名稱，在特定時間點。每個令牌都被認為是深度學習模型的潛在預測因子。箱線圖中的線表示中位數(shù)，方框表示四分位范圍(IQR)，須為IQR的1.5倍。令牌數(shù)量穩(wěn)步增加，從入院到出院。出院時，A醫(yī)院的代幣數(shù)中位數(shù)為86477，醫(yī)院B為122961。

谷歌傳奇人物 Jeff Dean 聯(lián)手頂級醫(yī)學院，發(fā)表首篇電子病歷 AI 論文

圖3:接收人操作曲線下的區(qū)域顯示了深度學習和基線模型在入院前和住院后12小時內的住院死亡率的預測。對于住院病死率，與加利福尼亞大學舊金山分校（UCSF）和芝加哥大學醫(yī)學院（UCM）分組的基線相比，深度學習模型在每個預測時間都實現(xiàn)了更高的識別率。這兩種模式在前24小時都有所改善，但深度學習模式在UCM提前約24小時達到類似的精確度，甚至提前48小時達到UCSF的水平。錯誤條表示引導的95%置信區(qū)間。

先進性和局限性

我們可以總結一下，這種深度學習方法，將整個電子健康記錄納入其中，對各種臨床問題和結果進行預測，結果超過了最先進的傳統(tǒng)預測模型。

谷歌傳奇人物 Jeff Dean 聯(lián)手頂級醫(yī)學院，發(fā)表首篇電子病歷 AI 論文

圖4：患者記錄顯示一名患有惡性胸腔積液和膿胸的轉移性乳腺癌患者。在圖的頂部的病人時間線包含了每個時間步驟的圓圈，其中至少有一個標記為病人而存在，而水平線顯示的是數(shù)據(jù)類型。我們訓練了每種數(shù)據(jù)類型的模型，并在紅色中突出顯示了模型所關注的標記——非突出顯示的文本沒有被處理，而是顯示在上下文環(huán)境中。這些模型在藥物、護理流程和臨床記錄中提取特征來進行預測。

因為我們感興趣的是深度學習能否在不同的醫(yī)療領域產生有效的預測，該方法在臨床護理預測模型的可擴展性方面具有重要的先進性。首先，我們的研究方法是將整個EHR的單一數(shù)據(jù)表示作為事件序列，允許該系統(tǒng)用于任何可能在臨床或操作上有用的預測，而無需額外的數(shù)據(jù)準備。傳統(tǒng)的預測模型需要大量的工作來準備一個具有特定變量的數(shù)據(jù)集，由專家選擇，并由分析師為每一個新的預測進行組裝。這些數(shù)據(jù)的準備和清理通常消耗掉預測分析項目80%的工作量，限制了預測模型在醫(yī)療保健行業(yè)中的可擴展性。

其次，用病人的所有預測圖來做預測不僅能提高可擴展性，還能提供更多的數(shù)據(jù)來做出準確的預測。對于出院時的預測，我們的深度學習模型考慮了超過460億份EHR數(shù)據(jù)，并在醫(yī)院停留的時間比傳統(tǒng)模型更準確地做出了預測。

據(jù)我們所知，我們的模型在預測死亡率(0.92-0.94 vs 0.91)上優(yōu)于現(xiàn)有的EHR文獻，例如評價死亡風險的NEWS分數(shù)，以及評價再住院風險的HOSPITAL分數(shù)等，作者對這些模型做了微小的改進。最終通過比較，作者的模型都顯著好于這些傳統(tǒng)模型（AUC普遍提高0.1左右）。

然而，這種方法的新穎之處并不僅僅在于增量模型性能的改進。更確切地說，這種預測性能是在沒有人工選擇專家認為重要的變量的情況下實現(xiàn)的，這與深度學習對EHR數(shù)據(jù)的其他應用類似。相反，我們的模型可以訪問每個病人的成千上萬個預測因子，包括自由文本注釋，并了解什么對于特定的預測是重要的。

此外，我們的研究也有重要的局限性。

第一，它是一個回顧性的研究，具有所有通常的局限性。

第二，盡管人們普遍認為準確的預測可以用于改善護理，但這并不是一個預料之中的結論，需要進行前瞻性試驗來證明這一點。

第三，個性化預測的一個含義是，它們利用了許多特定EHR的小數(shù)據(jù)點，而不是一些常見的變量。未來的研究需要確定如何在一個站點上訓練的模型能夠最好地應用于另一個站點，這對于那些具有有限歷史數(shù)據(jù)的站點尤其有用。作為第一步，我們證明了類似的模型架構和訓練方法為兩個地理上截然不同的衛(wèi)生系統(tǒng)提供了可比較的模型，但是在這一點上還需要進一步的研究。

最后，計算資源耗費大，花費時間大于20萬GPU小時。

在我們的研究中，最具挑戰(zhàn)性的預測可能是預測病人的全部出院診斷。由于幾個原因，這個預測很困難。首先，一個病人可能有1到228次出院診斷范圍，而這個數(shù)字在預測的時候是不知道的。

其次，每項診斷可以從大約14025個ICD-9診斷代碼中選擇，這使得可能的組合總數(shù)指數(shù)級增大。最后，許多ICD-9編碼在臨床上類似，但在數(shù)字上是不同的(例如，011.30“支氣管結核，未說明”與011.31“支氣管結核，細菌學或組織學檢查沒有完成”)。這就產生了將隨機誤差引入預測的效果。微F1評分是一個指標，當預測超過一個單一結果(例如多個診斷)時，我們的模型比在ICU數(shù)據(jù)集的文獻中所報告的更少。這是一個概念驗證，證明可以從日常的EHR數(shù)據(jù)中推斷出診斷，這可以幫助觸發(fā)決策支持或臨床試驗招募。

使用自由文本進行預測還可以提高預測的可解釋性。由于溝通機制的問題，臨床醫(yī)生歷來不了解神經網絡模型。我們展示了我們的方法如何可視化模型“查看”每個病人的數(shù)據(jù)，臨床醫(yī)生可以使用這些數(shù)據(jù)來確定預測是否基于可信的事實，并可能有助于確定行動。

在我們的案例研究中，該模型確定了患者的歷史和放射學研究結果的元素，這是至關重要的數(shù)據(jù)點，臨床醫(yī)生也會使用。這種方法可以解決這樣的問題：這種“黑盒”方法是不可靠的。然而，對于深度學習模型的可解釋性還有其他可能的技術，需要進一步研究這一方法的認知影響和它的臨床效用。

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

4人收藏

李雨晨

新智駕主編

專注蔚小理等造車新勢力的原創(chuàng)報道 |微信：Gru1993

發(fā)私信

當月熱門文章