2022-04-08 多參數乳腺MRI中對比增強病變分類的放射學與卷積神經網絡分析

目的:比較放射組學分析(RA)和卷積神經網絡(CNN)對放射科醫(yī)師在多參數乳腺MRI中將造影劑增強病變分類為良性或惡性的診斷性能。

材料和方法:2011年8月至2015年8月,447例患者共1294個增強病灶(787個惡性,507個良性;中值大小為15 mm ±20)。病灶由一名乳腺放射科醫(yī)師手動分割。通過使用L1正則化和主成分分析進行RA。CNN使用了34層的深度殘差神經網絡。所有算法還在一半數量的病灶上重新訓練(n=647)。將機器判讀與三位乳腺放射科醫(yī)師的前瞻性判讀進行比較。參考標準為組織學分析或隨訪。受試者工作曲線下面積(AUC)用于比較診斷性能。

結果:在全隊列上訓練的CNN優(yōu)于在半隊列上訓練的CNN(AUC分別為0.88和0.83;P=.01),但RA和L1正則化沒有差異(AUC分別為0.81和0.80;P=.76)或RA和主成分分析(AUC分別為0.78和0.78;P=.93)。通過使用完整隊列,CNN性能(AUC,0.88;95%可信區(qū)間:0.86,0.89)優(yōu)于RA和L1正則化(AUC,0.81;95%置信區(qū)間:0.79,0.83;P<.001)和RA及主成分分析(AUC,0.78;95%置信區(qū)間:0.76,0.80;P<.001)。然而,CNN不如乳腺放射學家的解釋(AUC,0.98;95%置信區(qū)間:0.96,0.99;P<.001)。

結論:在多參數乳腺MRI中,卷積神經網絡對乳腺強化病變的良惡性分類優(yōu)于放射組學分析。兩種方法都不如放射科醫(yī)師的表現;然而,更多的訓練數據會進一步提高卷積神經網絡的性能,但不會提高放射組學算法的性能。


MRI是診斷和篩查乳腺癌的有力工具[1]。然而, M 由于提供這種方法的站點有限,乳腺MRI的廣泛使用受到了限制。提供有限服務的一個主要原因是缺乏可以在解釋乳腺Mr圖像方面具有豐富的專業(yè)知識的放射科醫(yī)生。

復雜的機器學習方法有望補充人類診斷(2)。從廣義上講,機器學習可以分為兩大類:一類是放射組學分析(RA),提取手工制作的圖像特征;另一個是卷積神經網絡(CNN)的概念,在該概念中,計算機通?;谝唤M已標記的訓練示例來自行學習識別圖像特征。盡管在不同的領域,這兩種方法在圖像解釋方面都取得了相當大的成功:在診斷放射學領域,RA已成功用于進一步分類腫瘤類型(3,4)。然而,細胞神經網絡在達到臨床上有用的性能之前需要更大的訓練圖像池。

在放射學中,乳房成像,特別是乳房攝影篩查,有助于與CNN一起使用,因為類似的大數據集是可用的(5,6)。有了這么大的乳房攝影數據集,隨著計算能力的提高,深度學習可能有潛力超越常規(guī)的計算機輔助診斷系統(tǒng)來進行乳房攝影解釋(5)。

關于使用RA或CNNs對造影劑增強的乳腺病變進行診斷分類(即良性與惡性病變的鑒別診斷)的研究有限。Bickelhaupt等人(7)使用機器學習來進一步表征在數字乳房攝影圖像上發(fā)現的可疑癌癥病變,并為此使用未增強和擴散加權MRI。然而,使用RA或CNNs對常規(guī)、臨床、動態(tài)造影劑增強或多參數乳腺MRI中觀察到的增強病變進行分類尚未建立。

因為乳房MRI比乳房攝影篩查進行得少,所以可用的乳房MRI數據集較小而不是當前用于CNN分析醫(yī)學(和非醫(yī)學)圖像的數據集??紤]到這一點,以及動態(tài)對比增強MRI與數字乳腺攝影(例如)相比更復雜的性質,我們有興趣通過使用臨床環(huán)境中可獲得的MRI數據集體積來了解CNNs與RA相比的表現。

因此,我們研究的目的是確定三種不同的機器學習算法(放射組學分析的兩種變體,L1正則化和主成分分析,以及卷積神經元網絡)的性能,并與放射科醫(yī)師在多參數動態(tài)對比增強MRI中對增強病變進行分類的性能進行比較。

材料和方法

獲得了當地機構審查委員會的批準?;颊咛峁嬷橥鈺员銓ζ溆跋駭祿M行分析。

我們的研究評估了2011年8月至2015年8月期間進行的乳腺MRI檢查,并由學術乳腺中心的放射科醫(yī)師進行前瞻性解釋。?

為了生成分析隊列,我們首先從我們的圖像存檔和通信系統(tǒng)中選擇了2011年8月至2015年8月期間在我們科室接受乳腺MRI檢查的患者。該搜索獲得了5687例乳腺MRI檢查。從這個隊列中,我們隨機檢索了1000名患者。然后,我們排除了不符合以下標準的乳腺MRI研究:(a)未表現出增強病變或其他(B)最終診斷未驗證或其他(C)無法明確劃分為二元分類類別(即良性或惡性)的乳腺MRI研究(圖1)。通過組織病理學分析(MRI將所有病變歸類為乳腺影像報告和數據系統(tǒng)[BIRADS]第4、5或6類)或至少24個月的無異常MRI(對于MRI分類為BI-RADS 2或3類的所有病變)隨訪進行驗證 。為了提供明確的診斷事實(無論是惡性還是良性),我們排除了邊緣性(即高風險)病變的患者。

為了避免在同一患者中進行重復觀察,以免由于病變間的相關性而混淆結果,在具有多個相同類型的增強病變(例如,多中心癌或多發(fā)性纖維腺瘤)的患者中,我們每個乳腺僅包括一種類型的增強病變(例如,僅一種浸潤性癌)。

將所有算法的數據分為訓練、驗證和分析數據,以患者的方式進行,在外環(huán)中進行10倍交叉驗證,在內環(huán)中進行5倍交叉驗證,分別將72%/18%/10%的數據分為獨立的訓練集、驗證集和分析集。外環(huán)中的10次折疊中的每一次都會產生一個評分,該分數表示算法為10%的病變分配的惡性概率。因為文件夾之間的分析集是不相交的,并且它們的聯(lián)合覆蓋了整個集合,所以我們得到了所有病變的評分。拆分的更詳細描述附錄E1(在線)中提供了流程。

根據先前公布的標準化方案(8),進行了多參數對比增強雙側乳腺MRI。簡而言之,該方案由軸向雙側T2加權快速自旋回波和軸向雙側動態(tài)序列組成,該動態(tài)序列由五個動態(tài)階段(造影劑給藥前的一個階段和造影后的四個階段)組成,無脂肪抑制。在所有造影后階段進行圖像減影。乳腺MRI研究由三個不同的讀者(D.T.、 S.S.和C.K.,在解釋乳腺MRI研究方面具有7至25年的經驗)以大致相同的比例進行前瞻性解釋。除了通常的整體BI-RADS分類外,MRI報告還在每個病變的基礎上列出了BI-RADS類別,以促進不同乳腺成像模式中特定病變管理的交流。

所有計算均在配備英特爾酷睿i7–7700K處理器(英特爾,加利福尼亞州圣克拉拉)和NVIDIA?GTX 1080 Ti GPU(NVIDIA?,加利福尼亞州圣克拉拉)的臺式計算機上執(zhí)行。除非另有說明,代碼實現是基于Python 3.6.5(https://www.python.org)和軟件模塊NumPy、 SciPy和SkLearn(9)的內部開發(fā)。

病變由一名乳腺放射科醫(yī)師(S.S.,具有15年解釋乳腺MRI研究的經驗)手動分割。為了進行分割,放射科醫(yī)師首先查看所有圖像,以確定最適合查看病變邊界的圖像。在減影圖像上(在沒有運動的情況下)或在非減影源圖像上(在由于運動而存在減影誤差的情況下)執(zhí)行分割。在逐段的基礎上分割病變,直到捕獲完整的病變體積并獲得三維病變體積。接下來,感興趣的區(qū)域被傳播到所有剩余的序列,在這些序列上病變沒有被直接分割。為了確?;颊咧g圖像信號強度的可比性,使用N4ITK(10)對所有圖像進行偏置場校正,并將圖像強度重新縮放到0–511的固定范圍。

對于每個病變,通過使用Pyradiomics(11)工具箱提取統(tǒng)計、形狀和紋理特征。通過19個統(tǒng)計特征量化病變內的圖像強度分布。提取的紋理特征在灰度共生矩陣(27個特征)、灰度游程長度矩陣(16個特征)和灰度尺寸區(qū)域矩陣(16個特征)上計算。分別為T2加權圖像、第一次(對比前)動態(tài)采集的減影圖像和四次對比后動態(tài)采集的減影圖像提取統(tǒng)計特征和紋理特征,得到總共133個統(tǒng)計特征和413個紋理特征。總之,在分割掩模的基礎上,提取16個形狀特征來評估病變的空間屬性。所有圖像特征的詳細定義可在網上找 到(http://pyradiomics.readthedocs.io/en/latest/features.HTML)。

為了選擇一個合適的特征子集,既限制規(guī)模和不相關,以下兩種不同的特征選擇策略進行了評估:(a)L1正則化:通過線性分類器的L1正則化隱式地選擇特征。L1正則化使得線性模型的系數具有稀疏解,導致模型中所選特征的子集很??;以及(B)主成分分析,其中100個特征的子集是基于它們在區(qū)分訓練集中的惡性和良性病變的能力來選擇的(即,通過表現出最低的p值),隨后,對這些特征進行主成分分析,并將得到的前10個主成分用作輸入。附錄E1(在線) 以及表E1和E2(在線)中提供了有關特征選擇策略以及硬件和軟件使用的詳細信息。

我們使用了之前描述的網絡架構(12)。簡而言之,深度殘差神經網絡(ResNet18)(13)在日常物體(14)的14,000,000張彩色照片的數據集上進行預訓練,以使深層對潛在相關的結構信息(如邊緣和線條)敏感。附錄E1(在線)中提供了網絡架構的詳細信息。通過使用隨機旋轉和翻轉進行數據增強。我們使用隨機梯度下降的動量為0.9,衰減學習率開始于0.001(每七個時期減少0.05倍)。

因為網絡是在彩色圖像上預先訓練的,所以它期望三個輸入通道。為了確定7個可用序列中的哪個子集應該被輸入,測試了所有35個可能的三個組合。

統(tǒng)計分析

對于樣本量的計算,我們使用了一項關于RA的研究(7)的結果,對未增強乳腺MRI圖像中發(fā)現的病變進行分類。在該研究中,總共包括127個病變,曲線下面積(AUC)為0.85。為了在α誤差為0.05和β誤差為0.2的情況下檢測AUC改善0.05,對于良性和惡性病變患者的同等分配,至少702個病變的樣本量被認為是必要的(15)。然而,因為我們處理的是對比增強乳腺MRI,并且打算使用CNN而不是單獨使用RA,所以我們計劃包括至少1000個增強病變。

為了比較算法和放射科醫(yī)師讀數的準確性,在最小度量的截止值的基礎上計算各自的敏感性和特異性值m =(12靈敏度)2 +(1-特異性)2(圖2,3)?;谒惴ǖ慕o定數值和相應的BI-RADS類別,計算相應的受試者工作特征的AUC。對于后者,BI-RADS類別4-6被認為是測試陽性,其余的被認為是測試陰性。

為了評估對基礎數據集大小的依賴性,RA的兩種變體(主成分分析和L1正則化)和CNNs在一半大小的數據集(447名患者中的224名和1294個病變中的647個,其中393個病變?yōu)閻盒裕┥现匦掠柧殻⒅匦路治鯝UC。像以前一樣進行交叉驗證的拆分。

如Litjens等人(16)(圖E1[在線])所述,通過使用100000倍重采樣的Bootstrap分析計算標準偏差和置信區(qū)間。根據Bonferroni(17),算法之間兩兩比較的顯著性水平設置為0.05/6,以調整六個兩兩比較。

敏感性和特異性的置信區(qū)間計算基于二項分布的正態(tài)近似。?

由于大多數大于2 cm的增強病變是惡性的,因此對小于2 cm的病變進行了額外的敏感性分析(n=823)。

結果

最終的分析隊列包括447名患者的雙側乳腺MRI數據集(平均年齡66.0歲±10.3[標準差];年齡范圍為26.7-82.0歲),接受MRI檢查的適應癥詳見圖1;患者人口統(tǒng)計資料如表1所示。

共識別并分割1294個增強病灶,其中良性病灶507個(39.2%),惡性病灶787個(60.8%),平均每個乳腺產生1.4個不同類型的增強病灶。病變類型的描述見表2。所有強化病灶的平均大小為15mm±20; 惡性病變,19mm±22;浸潤性癌,16mm±15;導管原位癌,34mm±29。良性 病 變 的 平 均 大 小 為11mm±13(圖E2[在線])。

通過L1正則化的RA得到47個相關圖像特征的較小子集。其中,六個是從T2加權圖像導出的紋理和統(tǒng)計特征,一個是形狀特征(球度),而其余的 39個特征是基于動態(tài)序列的紋理和統(tǒng)計特征。即使在懲罰冗余特征的使用之后,對于減影圖像中的像素強度的平均絕對偏差、魯棒平均絕對偏差和四分位間距范圍,也發(fā)現了最高的特征間相關性,這或多或少地表明了腫瘤增強的不均勻性。在早期和晚期圖像的增強程度中發(fā)現了類似的塊,提供了關于增強動力學的信息。RA和主成分分析的選擇特征在性質上相似(兩種放射組學方法的詳細信息見附錄E1[在線])。

表3中提供了AUC,靈敏度,特異性和相應的95%置信區(qū)間。

CNN的訓練用了1350秒。根據包含病變的切片數量,單個病變的預測時間從66毫秒到528毫秒不等。在輸入CNN的三個輸入通道的7個可能的圖像中,提供最好結果的序列是預反差和第一、第三個后反差動態(tài)序列。?

乳腺放射科醫(yī)師的讀數得出的AUC為0.98±0.01.圖4-6和圖E3(在線)顯示了正確和錯誤分類的乳腺病變的示例圖像。被放射科醫(yī)師的讀數歸類為假陰性結果的三個惡性病變中,沒有一個被三個計算機算法中的任何一個正確識別。


兩種不同的RA方法的AUC無統(tǒng)計學顯著差異(P=.04),RA采用L1正則化(AUC,0.81),RA采用主成分分析(AUC, 0.78)。CNN的AUC(AUC,0.88)顯著高于兩種RA方法(兩種比較,P,.001),但仍顯著低于人類讀者(AUC,0.98;P,001)(表3;圖2a,3)。

當將分析限制到小于2cm的病變時,觀察到基本上相同的結果(圖2B)。?

對于采用L1正則化的RA和采用主成分分析的RA,與完全訓練隊列相比,將訓練損傷數量減半并不會導致AUC的顯著差異 (對于半規(guī)模與全規(guī)模隊列的訓練,RA和L1正則化P=0.05,[AUC,0.80];RA 和 主 成 分 分 析P=0.06,[AUC,0.78])。對于CNN來說,當半規(guī)模和全規(guī)模隊列訓練相比時,AUC顯著不同(AUC,0.83;P=.01)。

討論

我們對乳腺MRI研究的分析證實,存在編碼病變惡性的放射學特征,可通過RA和深度學習算法提取。然而,盡管努力調整兩種放射組學方法(L1正則化或主成分分析),但放射組學診斷準確性低于CNN,L1正則化或主成分分析的AUC分別為0.78和0.81,而CNN的AUC為0.88(兩種比較的P值均為.001)。盡管RA和CNN的診斷準確性可以被認為在臨床可接受的范圍內(18-21),但它們都遠遠不能與乳腺放射科醫(yī)師的表現相匹配,后者的AUC為0.98。還應當注意,機器學習算法的診斷性能指的是由放射科醫(yī)師識別的病變的分類;因此,算法的計算靈敏度反映了它們將預先確定的惡性病變正確分類為惡性病變的性能,但不包括它們在發(fā)現或檢測惡性病變方面的性能。

我們的結果表明,CNNs似乎是對增強病變進行分類的更有發(fā)展前景的候選者:盡管在擴大可用的訓練數據集后,兩種RA方法的性能都沒有改善,但在半尺寸隊列與全尺寸隊列訓練后觀察到相似的AUC(L1分別為0.80和0.81),CNN算法的AUC確實從0.83顯著提高到0.88。這意味著RA表現出其可達到精度的所謂飽和曲線; 一組固定的手工放射學特征所包含的信息量可能無法區(qū)分惡性和良性乳腺病變之間更細微的差異。然而,卷積神經網絡由于其更復雜和易于擴展的結構,可能能夠模仿放射科醫(yī)生解釋MR圖像時發(fā)生的難以捉摸和潛意識的過程。

因此,有理由假設在我們的CNN模型中包括甚至更多的數據,和/或更復雜的數據增強方法,例如生成對抗性神經網絡(22),將進一步改善我們的CNN模型的結果。?

我們的結果在與醫(yī)學成像的其他領域進行比較時是可信的,例如皮膚病變的解釋,其中CNNs已經達到了使用RA無法達到的診斷準確性水平(23)。在放射學領域,Kooi等人(5)證明,在篩查乳房X線照片的大數據集上訓練的卷積神經網絡優(yōu)于最先進的計算機輔助檢測軟件(即使用RA原理的算法)。在我們的研究中,相對較低的病例數足以實現相對較高的CNNs診斷準確性。這可能是因為我們使用了由經驗豐富的乳腺放射科醫(yī)師提供的高質量注釋數據進行培訓。?

在我們的隊列中,乳腺放射科醫(yī)師所達到的診斷準確性反映了乳腺MRI報告的診斷準確性范圍的上限,這部分是因為我們研究的是一個惡性病變發(fā)病率高的人工隊列。很明顯,診斷的準確性水平將隨著乳腺癌的高患病率而變化(即更高)。在我們的研究中,放射科醫(yī)師的診斷準確性相對較高的另一個原因是,我們的部門收到了大量的乳腺MRI轉診,因此這些讀者在解釋乳腺MR圖像方面獲得了豐富的經驗。?

我們的研究有幾個局限性。首先,在我們的研究中,敏感性是指由放射科醫(yī)師預先識別和分割的病變的正確分類。第二,我們的MR檢查采用標準化協(xié)議,而不同機構的脈沖序列協(xié)議各不相同;因此,經訓練的算法可能無法對來自其他采集協(xié)議的數據實現相同的精度。最后,通過使用生成對抗性網絡(22)的高級數據增強可以幫助將網絡結構調整為更合適的三維方法,以合并所有可用的成像序列,并且我們的算法僅使用所描述的三個子集。

總之,在多參數乳腺MRI增強病變的分類中,CNN優(yōu)于放射組學算法。即使使用有限的訓練數據集,用CNN實現的診斷準確性似乎也達到了臨床可接受的水平。盡管CNN不如乳腺放射科醫(yī)師,但隨著未來更多更大數據集的出現,CNN方法可能有潛力提高其性能。


?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容