在臨床實(shí)踐中,盡管數(shù)字病理學(xué)越來越普遍,處理和分析通常在有限的數(shù)字輔助下進(jìn)行。數(shù)字病理學(xué)涉及獲取和管理數(shù)字化組織樣本,稱為全視野數(shù)字切片(WSI)。WSI通常以多尺度格式存儲(chǔ),允許病理學(xué)家在分析期間可視化圖像的不同細(xì)節(jié),從最低到最高放大級(jí)別。盡管概述報(bào)告(包括結(jié)構(gòu)化格式的患者特定數(shù)據(jù))預(yù)計(jì)將越來越普遍,但半結(jié)構(gòu)化自由文本報(bào)告仍然是臨床設(shè)置中的標(biāo)準(zhǔn)。半結(jié)構(gòu)化報(bào)告包括多個(gè)領(lǐng)域,如組織樣本類型、分析期間確定的結(jié)果、早期診斷和患者的既往史。
首先,CNN通常需要大數(shù)據(jù)集用于訓(xùn)練模型,以處理臨床實(shí)踐的高數(shù)據(jù)可變性。 第二,在計(jì)算病理學(xué)中提供最高性能的全監(jiān)督方法需要像素級(jí)注釋,這在醫(yī)學(xué)環(huán)境中很難獲得,因?yàn)榉浅O馁Y源和時(shí)間。 第三,WSI在適應(yīng)內(nèi)存方面也很有挑戰(zhàn)性。 最后,由于缺乏跨圖像和中心的組織制備和采集的標(biāo)準(zhǔn)化,WSI在染色變化方面可能具有高度異質(zhì)性,染色異質(zhì)性導(dǎo)致從異質(zhì)醫(yī)學(xué)背景中獲取的數(shù)據(jù)的模型泛化程度較低。 近年來,弱監(jiān)督學(xué)習(xí)方法已經(jīng)出現(xiàn)。弱監(jiān)督學(xué)習(xí)法使用全局(弱或圖像級(jí))注釋,而不是局部(像素級(jí))注釋。全局注釋通常指的是整個(gè)圖像,即使它們通常是從圖像的特定和小的子區(qū)域?qū)С龅?。例如,WSI可能被標(biāo)記為包含“癌癥”,即使癌組織僅出現(xiàn)在整個(gè)圖像的1-2%。因此,弱監(jiān)督CNN需要比完全監(jiān)督方法更大的訓(xùn)練數(shù)據(jù)集才能達(dá)到可比性能。到目前為止,在大多數(shù)情況下,需要醫(yī)學(xué)專家從報(bào)告中提取弱標(biāo)簽。 一組來自瑞士、意大利、波蘭、荷蘭等國家的研究團(tuán)隊(duì)在雜志npj Digital Medicine上發(fā)表了一篇題為“Unleashing the potential of digital pathology data by training computer-aided diagnosis models without human annotations”的文章,這項(xiàng)文章提出并評(píng)估了一種方法,以消除在數(shù)字病理學(xué)中培訓(xùn)計(jì)算機(jī)輔助診斷工具的手動(dòng)注釋的需要。該方法包括兩個(gè)部分:從診斷報(bào)告中自動(dòng)提取語義上有意義的概念,并將其用作弱標(biāo)記,以訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行組織病理學(xué)診斷。該方法在兩家醫(yī)院提供的3769張臨床圖像和報(bào)告上進(jìn)行了訓(xùn)練,并在來自私人和公共可用數(shù)據(jù)集的11000多張圖像上進(jìn)行了測試。將使用自動(dòng)生成標(biāo)簽訓(xùn)練的CNN與使用手動(dòng)標(biāo)簽訓(xùn)練的相同架構(gòu)進(jìn)行比較。結(jié)果表明,該工具僅基于現(xiàn)有臨床數(shù)據(jù),無需手動(dòng)注釋,即可達(dá)到可靠性能。 圖片來源:npj Digital Medicine PART ONE 分析流程概述 下圖描述了流程中的兩個(gè)組件。從病理報(bào)告中提取有意義的概念依賴于語義知識(shí)提取器工具(SKET)。SKET是一種無監(jiān)督的混合知識(shí)提取系統(tǒng),它將基于規(guī)則的專家系統(tǒng)與預(yù)訓(xùn)練的機(jī)器學(xué)習(xí)模型結(jié)合起來,從自由文本報(bào)告中提取標(biāo)簽。圖像分類依賴于多示例學(xué)習(xí)(弱監(jiān)督框架)CNN,CNN使用SKET提供的弱標(biāo)簽進(jìn)行訓(xùn)練。CNN產(chǎn)生反映病理報(bào)告性質(zhì)的多標(biāo)簽預(yù)測,采用進(jìn)行多標(biāo)簽預(yù)測的網(wǎng)絡(luò)可以更好地近似組織樣本的性質(zhì)。 分析流程概述。圖片來源:npj Digital Medicine PART TWO SKET可以從自由文本診斷報(bào)告中提取圖像的弱標(biāo)簽 本研究共使用15601張結(jié)腸組織病理學(xué)圖像(4419張圖像及來自醫(yī)院的相應(yīng)報(bào)告,11888張來自公開數(shù)據(jù)集)。 SKET可以從診斷報(bào)告中提取具有語義意義的高質(zhì)量概念(可用作全視野數(shù)字切片的標(biāo)簽),從而取代專家在大規(guī)模數(shù)據(jù)集上創(chuàng)建的手動(dòng)注釋,并大幅減少數(shù)據(jù)注釋所需的時(shí)間和工作量。 專家們根據(jù)五個(gè)類別(癌癥、高度發(fā)育不良、低度發(fā)育不良、增生性息肉和正常)手動(dòng)標(biāo)記報(bào)告,該任務(wù)是一個(gè)多標(biāo)簽分類問題,因?yàn)槊總€(gè)報(bào)告都可以用一個(gè)或多個(gè)類進(jìn)行注釋。 通過自動(dòng)分析病理報(bào)告以提取弱注釋,SKET在注釋工作中節(jié)省了大量時(shí)間。專家平均需要30秒來注釋診斷報(bào)告,而SKET每秒注釋三份以上的報(bào)告。因此,SKET節(jié)省了病理學(xué)家注釋報(bào)告所需時(shí)間的95.7%。預(yù)測超過30000個(gè)WSI注釋數(shù)據(jù)的時(shí)間,所需時(shí)間將超過250小時(shí)(無中斷),而NLP流程需要約2.5小時(shí)。SKET從醫(yī)院的診斷報(bào)告中自動(dòng)提取的弱標(biāo)簽與人工標(biāo)簽匹配,具有高精度。 PART THREE 使用自動(dòng)生成的標(biāo)簽訓(xùn)練的CNN在私人數(shù)據(jù)WSI分類上獲得高性能 使用從報(bào)告自動(dòng)生成的弱標(biāo)簽訓(xùn)練的CNN對(duì)于多標(biāo)簽WSIs分類非常有效。CNN使用內(nèi)部測試分區(qū)在WSI級(jí)別進(jìn)行評(píng)估,包括來源于Catania和Radboudumc的WSI以及人工創(chuàng)建的報(bào)告注釋。 CNN使用MIL框架進(jìn)行訓(xùn)練,進(jìn)行多標(biāo)簽預(yù)測。它分為五類(癌癥、高度發(fā)育不良、低度發(fā)育不良、增生性息肉和正常)。CNN使用SKET從診斷報(bào)告中提取的概念作為弱標(biāo)簽進(jìn)行訓(xùn)練,因此沒有任何人類像素注釋。 將使用自動(dòng)提取的弱標(biāo)簽訓(xùn)練的CNN與使用手動(dòng)弱標(biāo)簽訓(xùn)練的相同架構(gòu)的CNN進(jìn)行比較,結(jié)果表明使用自動(dòng)和手動(dòng)弱標(biāo)簽的性能沒有統(tǒng)計(jì)學(xué)顯著差異。 PART FOUR CNN使用自動(dòng)生成的標(biāo)簽進(jìn)行訓(xùn)練在公開數(shù)據(jù)集上具有良好的通用性 CNN使用從報(bào)告中自動(dòng)生成的弱標(biāo)簽進(jìn)行訓(xùn)練,證明了其在來自不同醫(yī)療中心的異質(zhì)圖像上進(jìn)行良好概括的能力。 公共可用測試分區(qū)包括從七個(gè)公共可用數(shù)據(jù)集收集的11888個(gè)圖像。CNN在公開可用的數(shù)據(jù)集上達(dá)到了良好的性能,與私有數(shù)據(jù)測試集的結(jié)果相當(dāng)。所獲得的結(jié)果令人鼓舞,因?yàn)樗鼈儽砻?,CNN可以推廣到外部異構(gòu)數(shù)據(jù)集,盡管其性能略低于私有數(shù)據(jù),保證了外部數(shù)據(jù)集的競爭性能。 CNN性能概述。圖片來源:npj Digital Medicine PART FIVE 使用自動(dòng)生成標(biāo)簽訓(xùn)練的CNN對(duì)標(biāo)簽錯(cuò)誤具有: 盡管存在一些性能差異,但使用從報(bào)告中自動(dòng)生成的弱標(biāo)簽訓(xùn)練的CNN顯示了對(duì)這種自動(dòng)提取過程引入的錯(cuò)誤的魯棒性。 為了驗(yàn)證這一結(jié)果,分別使用自動(dòng)和手動(dòng)弱標(biāo)記訓(xùn)練的模型的CNN在被SKET錯(cuò)誤標(biāo)記的CNN的WSI上進(jìn)行評(píng)估。SKET錯(cuò)誤標(biāo)記了來自Catania的25%的WSI(1704中的421個(gè))和來自Radboudumc的15%的WSIs(2065中的306個(gè))。結(jié)果顯示,使用自動(dòng)和手動(dòng)生成的弱標(biāo)簽訓(xùn)練的CNN的差異無統(tǒng)計(jì)學(xué)意義。 因此,SKET引入的噪聲有限地影響了CNN數(shù)據(jù)上的訓(xùn)練過程,證明了基于CNN的方法對(duì)錯(cuò)誤標(biāo)記的WSI的魯棒性。 對(duì)標(biāo)簽錯(cuò)誤的魯棒性。圖片來源:npj Digital Medicine PART SIX 使用自動(dòng)生成標(biāo)簽訓(xùn)練的CNN導(dǎo)致中等性能的patch-level分類 使用從報(bào)告自動(dòng)生成的弱標(biāo)簽訓(xùn)練的CNN在patch-level分類上達(dá)到中等性能。 patch-level分類是一項(xiàng)具有挑戰(zhàn)性的任務(wù),考慮到模型在沒有任何像素注釋的情況下進(jìn)行訓(xùn)練,通過多實(shí)例學(xué)習(xí)框架優(yōu)化圖像級(jí)預(yù)測。使用來自Catania數(shù)據(jù)集和AIDA數(shù)據(jù)集在patch-level獲得了中等性能(即根據(jù)定義,κ-分?jǐn)?shù)介于0.40和0.60之間),使用人工注釋和自動(dòng)生成的用于訓(xùn)練CNN的注釋獲得的結(jié)果之間沒有顯著差異。 圖a顯示了CNN在patch-level分類中的混淆矩陣和ROC曲線。在Catania數(shù)據(jù)上,該模型非常有效地將癌癥和正常分類(超過一半的樣本分類良好),而對(duì)于其他類別,尤其是高級(jí)發(fā)育不良類別,該模型表現(xiàn)出較低的性能。在AIDA數(shù)據(jù)上,該模型也以良好的性能分類了大多數(shù)類。 patch和WSI level分類模型的定量評(píng)估。圖片來源:npj Digital Medicine PART SEVEN CNN attention model 識(shí)別相關(guān)組織區(qū)域 使用從報(bào)告中自動(dòng)提取的標(biāo)簽訓(xùn)練的CNN的最高關(guān)注值是與預(yù)測類相關(guān)的區(qū)域。 注意網(wǎng)絡(luò)對(duì)每個(gè)類的patch進(jìn)行加權(quán),以便具有最高注意力值的patch對(duì)全局預(yù)測貢獻(xiàn)更大。在下圖中,由網(wǎng)絡(luò)分配給內(nèi)部測試分區(qū)的權(quán)重被可視化為熱圖。熱圖分析表明,每個(gè)類別的注意模型最集中的區(qū)域包括病理學(xué)家在像素注釋中用相應(yīng)類別注釋的補(bǔ)丁。因此,注意網(wǎng)絡(luò)更加重視包括相關(guān)patch在內(nèi)的區(qū)域,導(dǎo)致CNN預(yù)測正確的全局診斷。 熱圖與人工注釋的比較。圖片來源:npj Digital Medicine 本文提出了一種方法,以限制對(duì)人工注釋的需求,以培訓(xùn)數(shù)字病理學(xué)中的計(jì)算機(jī)輔助診斷工具。該方法包括兩個(gè)組件,由SKET和CNN表示,允許自動(dòng)從病理學(xué)家報(bào)告中提取有意義的語義概念,并將其用作高分辨率臨床病理圖像的弱標(biāo)簽,而無需任何人工監(jiān)督。 |
|