數(shù)字前沿 | 計(jì)算機(jī)輔助數(shù)字病理診斷，無需人工注釋！

付剛8bid499jz5 2023-02-20 發(fā)布于河南

展開全文

在臨床實(shí)踐中，盡管數(shù)字病理學(xué)越來越普遍，處理和分析通常在有限的數(shù)字輔助下進(jìn)行。數(shù)字病理學(xué)涉及獲取和管理數(shù)字化組織樣本，稱為全視野數(shù)字切片（WSI）。WSI通常以多尺度格式存儲(chǔ)，允許病理學(xué)家在分析期間可視化圖像的不同細(xì)節(jié)，從最低到最高放大級(jí)別。盡管概述報(bào)告（包括結(jié)構(gòu)化格式的患者特定數(shù)據(jù)）預(yù)計(jì)將越來越普遍，但半結(jié)構(gòu)化自由文本報(bào)告仍然是臨床設(shè)置中的標(biāo)準(zhǔn)。半結(jié)構(gòu)化報(bào)告包括多個(gè)領(lǐng)域，如組織樣本類型、分析期間確定的結(jié)果、早期診斷和患者的既往史。

計(jì)算病理學(xué)是一個(gè)以計(jì)算機(jī)輔助診斷工具為中心的新領(lǐng)域，用于自動(dòng)分析數(shù)字病理圖像。卷積神經(jīng)網(wǎng)絡(luò)（CNN）已成為解決多個(gè)計(jì)算病理任務(wù)的最先進(jìn)方法，達(dá)到了高性能。然而，盡管有越來越多的方法、應(yīng)用和科學(xué)發(fā)現(xiàn)，但數(shù)字臨床病理學(xué)數(shù)據(jù)的全部潛力仍未實(shí)現(xiàn)，還有一些挑戰(zhàn)仍然存在。

首先，CNN通常需要大數(shù)據(jù)集用于訓(xùn)練模型，以處理臨床實(shí)踐的高數(shù)據(jù)可變性。

第二，在計(jì)算病理學(xué)中提供最高性能的全監(jiān)督方法需要像素級(jí)注釋，這在醫(yī)學(xué)環(huán)境中很難獲得，因?yàn)榉浅Ｏ馁Y源和時(shí)間。

第三，WSI在適應(yīng)內(nèi)存方面也很有挑戰(zhàn)性。

最后，由于缺乏跨圖像和中心的組織制備和采集的標(biāo)準(zhǔn)化，WSI在染色變化方面可能具有高度異質(zhì)性，染色異質(zhì)性導(dǎo)致從異質(zhì)醫(yī)學(xué)背景中獲取的數(shù)據(jù)的模型泛化程度較低。

近年來，弱監(jiān)督學(xué)習(xí)方法已經(jīng)出現(xiàn)。弱監(jiān)督學(xué)習(xí)法使用全局（弱或圖像級(jí)）注釋，而不是局部（像素級(jí)）注釋。全局注釋通常指的是整個(gè)圖像，即使它們通常是從圖像的特定和小的子區(qū)域?qū)С龅?。例如，WSI可能被標(biāo)記為包含“癌癥”，即使癌組織僅出現(xiàn)在整個(gè)圖像的1-2%。因此，弱監(jiān)督CNN需要比完全監(jiān)督方法更大的訓(xùn)練數(shù)據(jù)集才能達(dá)到可比性能。到目前為止，在大多數(shù)情況下，需要醫(yī)學(xué)專家從報(bào)告中提取弱標(biāo)簽。

一組來自瑞士、意大利、波蘭、荷蘭等國家的研究團(tuán)隊(duì)在雜志npj Digital Medicine上發(fā)表了一篇題為“Unleashing the potential of digital pathology data by training computer-aided diagnosis models without human annotations”的文章，這項(xiàng)文章提出并評(píng)估了一種方法，以消除在數(shù)字病理學(xué)中培訓(xùn)計(jì)算機(jī)輔助診斷工具的手動(dòng)注釋的需要。該方法包括兩個(gè)部分：從診斷報(bào)告中自動(dòng)提取語義上有意義的概念，并將其用作弱標(biāo)記，以訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)（CNN）進(jìn)行組織病理學(xué)診斷。該方法在兩家醫(yī)院提供的3769張臨床圖像和報(bào)告上進(jìn)行了訓(xùn)練，并在來自私人和公共可用數(shù)據(jù)集的11000多張圖像上進(jìn)行了測試。將使用自動(dòng)生成標(biāo)簽訓(xùn)練的CNN與使用手動(dòng)標(biāo)簽訓(xùn)練的相同架構(gòu)進(jìn)行比較。結(jié)果表明，該工具僅基于現(xiàn)有臨床數(shù)據(jù)，無需手動(dòng)注釋，即可達(dá)到可靠性能。

圖片來源：npj Digital Medicine

PART ONE

分析流程概述

下圖描述了流程中的兩個(gè)組件。從病理報(bào)告中提取有意義的概念依賴于語義知識(shí)提取器工具（SKET）。SKET是一種無監(jiān)督的混合知識(shí)提取系統(tǒng)，它將基于規(guī)則的專家系統(tǒng)與預(yù)訓(xùn)練的機(jī)器學(xué)習(xí)模型結(jié)合起來，從自由文本報(bào)告中提取標(biāo)簽。圖像分類依賴于多示例學(xué)習(xí)（弱監(jiān)督框架）CNN，CNN使用SKET提供的弱標(biāo)簽進(jìn)行訓(xùn)練。CNN產(chǎn)生反映病理報(bào)告性質(zhì)的多標(biāo)簽預(yù)測，采用進(jìn)行多標(biāo)簽預(yù)測的網(wǎng)絡(luò)可以更好地近似組織樣本的性質(zhì)。

分析流程概述。圖片來源：npj Digital Medicine

PART TWO

SKET可以從自由文本診斷報(bào)告中提取圖像的弱標(biāo)簽

本研究共使用15601張結(jié)腸組織病理學(xué)圖像（4419張圖像及來自醫(yī)院的相應(yīng)報(bào)告，11888張來自公開數(shù)據(jù)集）。

SKET可以從診斷報(bào)告中提取具有語義意義的高質(zhì)量概念（可用作全視野數(shù)字切片的標(biāo)簽），從而取代專家在大規(guī)模數(shù)據(jù)集上創(chuàng)建的手動(dòng)注釋，并大幅減少數(shù)據(jù)注釋所需的時(shí)間和工作量。

專家們根據(jù)五個(gè)類別（癌癥、高度發(fā)育不良、低度發(fā)育不良、增生性息肉和正常）手動(dòng)標(biāo)記報(bào)告，該任務(wù)是一個(gè)多標(biāo)簽分類問題，因?yàn)槊總€(gè)報(bào)告都可以用一個(gè)或多個(gè)類進(jìn)行注釋。

通過自動(dòng)分析病理報(bào)告以提取弱注釋，SKET在注釋工作中節(jié)省了大量時(shí)間。專家平均需要30秒來注釋診斷報(bào)告，而SKET每秒注釋三份以上的報(bào)告。因此，SKET節(jié)省了病理學(xué)家注釋報(bào)告所需時(shí)間的95.7%。預(yù)測超過30000個(gè)WSI注釋數(shù)據(jù)的時(shí)間，所需時(shí)間將超過250小時(shí)（無中斷），而NLP流程需要約2.5小時(shí)。SKET從醫(yī)院的診斷報(bào)告中自動(dòng)提取的弱標(biāo)簽與人工標(biāo)簽匹配，具有高精度。

PART THREE

使用自動(dòng)生成的標(biāo)簽訓(xùn)練的CNN在私人數(shù)據(jù)WSI分類上獲得高性能

使用從報(bào)告自動(dòng)生成的弱標(biāo)簽訓(xùn)練的CNN對(duì)于多標(biāo)簽WSIs分類非常有效。CNN使用內(nèi)部測試分區(qū)在WSI級(jí)別進(jìn)行評(píng)估，包括來源于Catania和Radboudumc的WSI以及人工創(chuàng)建的報(bào)告注釋。

CNN使用MIL框架進(jìn)行訓(xùn)練，進(jìn)行多標(biāo)簽預(yù)測。它分為五類（癌癥、高度發(fā)育不良、低度發(fā)育不良、增生性息肉和正常）。CNN使用SKET從診斷報(bào)告中提取的概念作為弱標(biāo)簽進(jìn)行訓(xùn)練，因此沒有任何人類像素注釋。

將使用自動(dòng)提取的弱標(biāo)簽訓(xùn)練的CNN與使用手動(dòng)弱標(biāo)簽訓(xùn)練的相同架構(gòu)的CNN進(jìn)行比較，結(jié)果表明使用自動(dòng)和手動(dòng)弱標(biāo)簽的性能沒有統(tǒng)計(jì)學(xué)顯著差異。

PART FOUR

CNN使用自動(dòng)生成的標(biāo)簽進(jìn)行訓(xùn)練在公開數(shù)據(jù)集上具有良好的通用性

CNN使用從報(bào)告中自動(dòng)生成的弱標(biāo)簽進(jìn)行訓(xùn)練，證明了其在來自不同醫(yī)療中心的異質(zhì)圖像上進(jìn)行良好概括的能力。

公共可用測試分區(qū)包括從七個(gè)公共可用數(shù)據(jù)集收集的11888個(gè)圖像。CNN在公開可用的數(shù)據(jù)集上達(dá)到了良好的性能，與私有數(shù)據(jù)測試集的結(jié)果相當(dāng)。所獲得的結(jié)果令人鼓舞，因?yàn)樗鼈儽砻?，CNN可以推廣到外部異構(gòu)數(shù)據(jù)集，盡管其性能略低于私有數(shù)據(jù)，保證了外部數(shù)據(jù)集的競爭性能。

CNN性能概述。圖片來源：npj Digital Medicine

PART FIVE

使用自動(dòng)生成標(biāo)簽訓(xùn)練的CNN對(duì)標(biāo)簽錯(cuò)誤具有：

盡管存在一些性能差異，但使用從報(bào)告中自動(dòng)生成的弱標(biāo)簽訓(xùn)練的CNN顯示了對(duì)這種自動(dòng)提取過程引入的錯(cuò)誤的魯棒性。

為了驗(yàn)證這一結(jié)果，分別使用自動(dòng)和手動(dòng)弱標(biāo)記訓(xùn)練的模型的CNN在被SKET錯(cuò)誤標(biāo)記的CNN的WSI上進(jìn)行評(píng)估。SKET錯(cuò)誤標(biāo)記了來自Catania的25%的WSI（1704中的421個(gè)）和來自Radboudumc的15%的WSIs（2065中的306個(gè)）。結(jié)果顯示，使用自動(dòng)和手動(dòng)生成的弱標(biāo)簽訓(xùn)練的CNN的差異無統(tǒng)計(jì)學(xué)意義。

因此，SKET引入的噪聲有限地影響了CNN數(shù)據(jù)上的訓(xùn)練過程，證明了基于CNN的方法對(duì)錯(cuò)誤標(biāo)記的WSI的魯棒性。

對(duì)標(biāo)簽錯(cuò)誤的魯棒性。圖片來源：npj Digital Medicine

PART SIX

使用自動(dòng)生成標(biāo)簽訓(xùn)練的CNN導(dǎo)致中等性能的patch-level分類

使用從報(bào)告自動(dòng)生成的弱標(biāo)簽訓(xùn)練的CNN在patch-level分類上達(dá)到中等性能。

patch-level分類是一項(xiàng)具有挑戰(zhàn)性的任務(wù)，考慮到模型在沒有任何像素注釋的情況下進(jìn)行訓(xùn)練，通過多實(shí)例學(xué)習(xí)框架優(yōu)化圖像級(jí)預(yù)測。使用來自Catania數(shù)據(jù)集和AIDA數(shù)據(jù)集在patch-level獲得了中等性能（即根據(jù)定義，κ-分?jǐn)?shù)介于0.40和0.60之間），使用人工注釋和自動(dòng)生成的用于訓(xùn)練CNN的注釋獲得的結(jié)果之間沒有顯著差異。

圖a顯示了CNN在patch-level分類中的混淆矩陣和ROC曲線。在Catania數(shù)據(jù)上，該模型非常有效地將癌癥和正常分類（超過一半的樣本分類良好），而對(duì)于其他類別，尤其是高級(jí)發(fā)育不良類別，該模型表現(xiàn)出較低的性能。在AIDA數(shù)據(jù)上，該模型也以良好的性能分類了大多數(shù)類。

patch和WSI level分類模型的定量評(píng)估。圖片來源：npj Digital Medicine

PART SEVEN

CNN attention model 識(shí)別相關(guān)組織區(qū)域

使用從報(bào)告中自動(dòng)提取的標(biāo)簽訓(xùn)練的CNN的最高關(guān)注值是與預(yù)測類相關(guān)的區(qū)域。

注意網(wǎng)絡(luò)對(duì)每個(gè)類的patch進(jìn)行加權(quán)，以便具有最高注意力值的patch對(duì)全局預(yù)測貢獻(xiàn)更大。在下圖中，由網(wǎng)絡(luò)分配給內(nèi)部測試分區(qū)的權(quán)重被可視化為熱圖。熱圖分析表明，每個(gè)類別的注意模型最集中的區(qū)域包括病理學(xué)家在像素注釋中用相應(yīng)類別注釋的補(bǔ)丁。因此，注意網(wǎng)絡(luò)更加重視包括相關(guān)patch在內(nèi)的區(qū)域，導(dǎo)致CNN預(yù)測正確的全局診斷。

熱圖與人工注釋的比較。圖片來源：npj Digital Medicine

本文提出了一種方法，以限制對(duì)人工注釋的需求，以培訓(xùn)數(shù)字病理學(xué)中的計(jì)算機(jī)輔助診斷工具。該方法包括兩個(gè)組件，由SKET和CNN表示，允許自動(dòng)從病理學(xué)家報(bào)告中提取有意義的語義概念，并將其用作高分辨率臨床病理圖像的弱標(biāo)簽，而無需任何人工監(jiān)督。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：付剛8bid499jz5 > 《待分類》

舉報(bào)/認(rèn)領(lǐng)