用于分析癌癥圖像的AI模型采用了哪些捷徑
發布日期:2021-07-31人工智能工具和深度學習模型是癌癥治療的有力工具,它們可用于分析腫瘤活檢樣本的數字圖像,幫助醫生快速分類癌癥類型、預測預后并指導患者的治療過程。但是,除非這些算法經過適當校準,否則它們有時會做出不準確或有偏見的預測。
芝加哥大學研究人員領導的一項新研究表明,在大量癌癥遺傳和組織組織學數據上訓練的深度學習模型,可以輕松識別提交圖像的機構。這些模型使用機器學習方法“教”自己如何識別某些癌癥特征,更終使用提交站點作為預測患者結果的捷徑,將他們與來自同一位置的其他患者混為一談,而不是依賴于個體患者的生物學。這反過來可能導致來自種族或少數族裔群體的患者的偏見和錯過治療機會,這些患者可能更有可能在某些醫療中心、有代表并且已經難以獲得護理。
“我們在當前的深度學習模型開發方法中發現了一個明顯的漏洞,這使得某些區域和患者群體更容易被包含在不準確的算法預測中,”醫學博士,醫學博士,助理教授UChicagoMedicine的醫學和共同資深作者。
癌癥患者治療的第一步,是取活檢或腫瘤的小組織樣本。將非常薄的腫瘤切片貼在載玻片上,用彩色染料染色,供病理學家檢查以進行診斷。然后可以使用掃描顯微鏡創建數字圖像以進行存儲和遠程分析。雖然這些步驟在病理學實驗室中大多是標準的,但染色的顏色或數量、組織處理技術和成像設備的細微變化可以在每張圖像上創建獨特的簽名,如標簽。這些特定于位置的簽名肉眼看不到,但可以通過強大的深度學習算法輕松檢測到。
這些算法有可能成為一種有價值的工具,使醫生能夠快速分析腫瘤并指導治療方案,但這種偏差的引入意味著模型并不總是基于它在腫瘤中看到的生物特征進行分析。圖像,而是由提交站點之間的差異生成的圖像工件。Pearson和他的同事研究了基于癌癥基因組圖譜數據訓練的深度學習模型的性能,癌癥基因組圖譜是更大的癌癥遺傳和組織圖像數據存儲庫之一。這些模型可以從組織組織學中預測存活率、基因表達模式、突變等,但這些患者特征的頻率因提交圖像的機構而異,并且該模型通常默認為“更簡單”的區分方式樣本之間-在這種情況下,提交站點。
例如,如果醫院A為大多數富裕患者提供更多資源和更好的護理服務,那么從該醫院提交的圖像通常會顯示更好的患者結果和存活率。如果醫院B為難以獲得優質護理的弱勢群體提供服務,則該網站提交的圖像通常會預測更糟的結果。
研究小組發現,一旦模型確定了哪個機構提交了圖像,他們往往會用它來代替圖像的其他特征,包括血統。換句話說,如果幻燈片的染色或成像技術看起來像是由醫院A提交的,模型將預測更好的結果,而如果它看起來像醫院B的圖像,它們將預測更差的結果。相反,如果所有患者在醫院B具有基于遺傳學的生物學特征表明預后較差,該算法會將較差的結果與醫院B的染色模式聯系起來,而不是它在組織中看到的東西。
“算法旨在找到區分圖像的信號,它通過識別站點來懶惰地這樣做,”皮爾森說。“我們實際上想了解腫瘤內的哪些生物學更有可能導致對治療或早期轉移性疾病的抵抗力,因此我們必須從真正的生物學信號中分離出特定部位的數字組織學特征。”
避免這種偏差的關鍵是仔細考慮用于訓練模型的數據,開發人員可以確保不同的疾病結果均勻分布在訓練數據中使用的所有站點,或者在結果分布不均時通過在訓練或測試模型時隔離某個站點。結果將產生更準確的工具,可以為醫生提供快速診斷和規劃癌癥患者治療所需的信息。