AutoSAM告知你怎樣在醫(yī)療行業(yè)更快更好開發(fā)大模型

發(fā)布日期：2023-08-14 作者：康為點擊：

形成預訓練Transformer（Generative Pre-trained Transformer，GPT）系列模型的順利標明，假設在大范圍信息上進行訓練，大型話語模型在零樣件和非可視域中的少許快照任務上的功能與最新技術相當。

受GPT的啟迪，Segment Anything（SAM）為圖片分割任務引入了1個“根基模型”。他們采集了1100萬張圖片，并設計了1個半智能信息引擎，平均每張圖片形成約100個Mask，進而總共形成10億個Mask。接著，SAM在該SAM-1B信息集上應用Vision Transformer（ViT）Backbone訓練1個大型可prompt模型。在23多個信息集上應用各類零樣件任務進行評價后，SAM顯現(xiàn)出對大多數(shù)自然圖片的推廣前景。

但是，隨著SAM在醫(yī)學圖片行業(yè)引發(fā)人們的存眷，可以觀測到SAM在零樣件設置下不可較好地推廣到醫(yī)學圖片。將用自然圖片訓練的模型轉換為醫(yī)學圖片的挑釁可歸因于2個首要原因：

外表上的較大差別：自然圖片和醫(yī)學圖片在色彩、亮度和對照度方面體現(xiàn)出明顯差別。因為所應用的成像形式，比如CT掃描、MRI或超聲波，醫(yī)學圖片往往擁有不同的特點；

目的物體的模糊邊緣：醫(yī)學圖片時常顯現(xiàn)不同組織和器官之間的模糊邊緣。受過訓練的醫(yī)學顧問對解剖構造有必須的了解，而且可能辨認出針對僅依據(jù)自然圖片訓練的模型來說能夠不顯著的細微邊緣。

參考到采集與SAM-1B大小相當?shù)尼t(yī)學分割信息集的艱難，開拓預訓練的SAM中能否有可用來醫(yī)學圖片分割的常識是至關主要的。

另外，基于prompt的分割能夠不太合適真正世界的運用情景，原因如下：

為多類供應prompt很耗時。針對大多數(shù)公共醫(yī)學圖片分割的挑釁，它總是須要同時分割多個類型。為每個類型輸入確切的prompt能夠會變得麻煩，特別是當器官和組織很小而且相互相鄰時；

分割功能在較大程度上取決于prompt品質。制造準確的prompt須要特定行業(yè)的顧問常識，而這并不應用于一切狀況。

參考到這類限定，本文提出了一類在醫(yī)學圖片信息集上微調SAM的直接方式，即解凍SAM編碼器的權重，并在其上增加預判Head進行訓練。解凍權重的原因是SAM是1個大模型，而且大多數(shù)權重由編碼器奉獻。依據(jù)試驗結果，因為硬件需要高，對編碼器妥協(xié)碼器進行微調不單對一切開發(fā)職員來說不太容易，況且還會造成較差的分割功能。

另一方面，為了提升SAM在臨床運用中的可行性，作家將SAM中的Mask解碼器更換為不須要prompt進行訓練和推斷的預判Head。本文評價了三類不同型號的預判Head，含蓋視覺Transformer（ViT）、卷積神經(jīng)網(wǎng)絡（CNN）和線性層。ViT預判Head采取SAM Mask解碼器，命名為AutoSAM，由輕量級交叉注重力模塊和轉置卷積層構成。作家移除prompt標志并復制圖片嵌入以及其余輔助嵌入，以便解碼器可以同時為不同的類形成多個Mask。

為了展現(xiàn)作家方式的標志效益，作家在Few-Shot Head學習環(huán)境中進行了試驗，此中僅應用1或5次標志的MRI掃描來微調模型。在公開可用的醫(yī)學圖片分割信息集上獲取的結果凸顯標明，與零樣件及時驅動SAM相比，定制預訓練SAM獲得了明顯改善。

另外，作家的方式在較大程度上優(yōu)于從Head開始的訓練和最超前的自督促學習方式，注重SAM在醫(yī)學行業(yè)的運用后勁。二、有關工作2.1 大話語模型

在大型話語模型（LLM）顯現(xiàn)以后，許多工作努力于在LLM中引入圖片來完結多模態(tài)任務。比如，CLIP和ALIGN借用對照學習在嵌入空間中對齊網(wǎng)絡圖片及其標題。他們發(fā)掘這個簡潔的預訓練任務可以較好地推廣到其余零樣件下游任務，如視頻中的目的分類和動作辨認。

另外，DALL-E通過1個用來形成零樣件文本到圖片的尺度自回歸變換實現(xiàn)了較好的泛化。但是，這類大范圍的視覺模型未能解決全面的一切計算機視覺任務，如圖片分割。針對大型圖片分割模型來說，獲得標簽Mask的難度是主要。

SAM（Segment Anything）是第1個開發(fā)可prompt的分割模型并自行在全面的信息集上對其進行預訓練的工作。給定恰當?shù)膒rompt，SAM可能在沒有特定任務訓練的狀況下為目的形成能夠的Mask。另一方面，DINOv2依據(jù)信息和模型大小對ViT模型的預訓練進行縮放，以形成通用的視覺特點，借用這類特點可以更容易地微調下游任務。2.2 為醫(yī)學圖片定制大模型

這一系列工作首要集中在對于特定分割信息集微調SAM，由于SAM在醫(yī)學圖片上體現(xiàn)出明顯的功能退步。MedSAM通過30多個醫(yī)學圖片信息集上的標簽Mask形成的prompt，對SAM解碼器進行了微調，結果標明，與應用prompt形成的零樣件預判相比，功能獲得了改善。張凱東等人將基于低秩的微調方略運用于SAN編碼器，并將其與SAM解碼器一塊訓練，以定制SAM以施行腹部分割任務。吳俊德等人解凍SAM模型的權重，并在SAM中增加可訓練的自順應模塊，以減低從頭訓練的本錢。三、本文方式3.1 背景

首先，作家將扼要簡介SAM模型作為背景常識。SAM中有3個首要組件，

圖片編碼器

prompt編碼器

Mask解碼器

圖片編碼用具有與視覺Transformer（ViT）相近的架構，并在其自己采集的SAM-1B信息集上應用MAE[10]進行預訓練。它們供應了三類不同比率的圖片編碼器ViT-H、ViT-l和ViT-V的權重，作為實時功能和確切性之間衡量的選項。圖片編碼器獲得所有大小的輸入圖片，并將其整形為1024×1024。接著將圖片轉換為擁有patch大小16×16和嵌入大小256的次序patch嵌入。經(jīng)過幾個擁有窗口注重和殘差傳遞的Transformer塊以后，圖片編碼器的流出擁有（64×64，256）的維度。

prompt編碼器同時支持稠密prompt（點、框、文本）和密集prompt（Mask）。稠密prompt被投影到prompt Token 中并和圖片嵌入連通，而密集prompt則應用卷積嵌入并和圖片植入逐元素求和。

Mask解碼器首先在流出 Token 、prompt Token 和圖片嵌入上運用雙向注重力模塊。接著通過2個轉置卷積層對圖片嵌入進行上采樣，并對放大后的圖片嵌入與流出 Token 之間的逐點乘積進行預判。3.2 Prediction Head

為了以有效的方法使SAM順應特定的醫(yī)學圖片信息集，作家在SAM編碼器中保留權重，并附帶1個額外的特定任務預判Head進行微調。另外，作家將預判Head設計為不可prompt的，而且唯獨的輸入是來自SAM編碼器的圖片嵌入。作家討論了3種最常見的系統(tǒng)構造型號，ViT、CNN和線性層。3.2.1 Vision Transformer

作家注重到SAM中的起始Mask解碼用具有ViT Backbone，因而作家可以對其進行輕微竄改，以便預判Head不單不可prompt，況且可能借用SAM Mask解碼器中的權重。

如圖2所示，針對SAM解碼器，除了prompt Token 和圖片嵌入之外，還有可訓練的流出 Token ，含蓋用來形成Mask的Mask Token 和用來預判Mask置信度的IoU Token 。

另外，Mask Token 含蓋前景Mask Token 和背景Mask Token 。流出 Token 與prompt Token 連通，作家將其命名為輔助嵌入。在雙向注重力模塊中，每一層都進行自注重力和交叉注重力。對于交叉注重力，它含蓋從 Token 到圖片嵌入，以及從圖片嵌入到 Token （作為密鑰和值）。接著，通過2個轉置的conv層對圖片嵌入進行放大，并選取前景Mask Token 與放大的嵌入進行逐點乘積以獲取Mask。

相比之下，AutoSAM刪除輔助嵌入中的prompt標志，使其不再是可prompt的模型。另一類竄改是通過類的數(shù)目復制輔助嵌入和圖片嵌入，以形成多個類的Mask。每對的計算可以并行進行，因而與形成額外Mask有關的開支是可以忽視的。為1個推斷形成多個Mask的代替方式是簡潔地在流出 Token 中增加更多前景Mask Token 。但是，作家選取第一類方略是由于，直觀地說，一組輔助嵌入表示SAM中要分割的1個目的。AutoSAM獨立地為每個類啟動形成Mask。3.2.2 Convolutional Neural Network

這類型號的預判Head是不少盛行的醫(yī)學圖片分割模型中解碼器的表示，如UNet、UNet++、TransUNet和Swin-UNetr。作家首先將嵌入的圖片Reshape為大小為（256,64,64）的特點圖。依據(jù)UNet中的構造，CNN Head部有k個階段（k>=2），每個階段由Stride為1的conv層和Stride為2的轉置conv層構成。

在試驗部分嘗試了不同的k值，當k＞2時，在k?2階段，轉置的conv層被更換為conv層，促使流出特點圖總是放大4x。最終，運用kernel-size為1的逐點conv層來形成每個類的預判Mask。3.2.3 Linear Layer

簡潔的分類Head總是用來評價在預訓練任務中學習的特點表示的泛化。在這項工作中，作家還運用線性Head來測驗能否存在SAM編碼器提煉的頂級語義數(shù)據(jù)。與CNN相近，作家將嵌入的圖片從頭映照為2D特點圖，接著直接布置2個轉置conv層。接著，作家應用2個kernel-size為1的conv層來替代MLP來獲取每個像素的分類。四、試驗4.1 Dataset

ACDC（智能心臟診療挑釁）信息集是MICCAI 2017挑釁的一部分，該挑釁含蓋100名患者的心臟構造的MRI掃描，每個患者有2個3Dvolumes。該信息集還供應了左心室、右心室和心肌的顧問分割Mask。

作家依據(jù)患者將MRI掃描隨機劃為三部分，訓練集、驗證集和測驗集，比率為70:15:15。針對預處置，作家對每個volumes進行歸一化，以便volumes中的一切像素全是零均值和單位方差。接著，作家將像素值轉換為RGB格式，并將volumes內的每個切片存儲為PNG文件，由于SAM是在RGB圖片上訓練的，作家的目的是維持輸入格式的一致性。在此此前，雖然MRI掃描是以3Dvolumes進行的，但分割是在2D圖片上進行的。

作家計算測驗集中每個volumes的Dice分數(shù)和平均對稱外表距離（ASSD），接著從頭形成分割并反復試驗。報表了4次的平均得分和規(guī)范差。4.2 訓練細節(jié)訓練的施行基于深度學習包PyTorch。應用的GPU設施是NVIDIA特斯拉V100，內存為16GB，比A100更容易訪問。相比之下，SAM將訓練散布在256個A100 GPU中。在訓練流程中，作家對輸入圖片隨機運用信息加強，含蓋高斯噪聲、亮度竄改、彈性扭曲和轉動。訓練損失是交叉熵損失和Dice Loss的組合。用來刷新的優(yōu)化器算法基于Adam。學習率設置為0.0005，此中

。針對一切3個預判Head，單個GPU的最大batch-size為4。默認的訓練Epoch是120，由于作家觀測到在該Epoch數(shù)目以后驗證集上的損失收斂。4.3 Baselines

為了驗證作家提出的方式的有效性，作家在相近的設置下對許多基線方式進行了試驗作為較為。第一類是從Head開始訓練UNet，這是獲取特定信息集的智能分割模型的最常見方式。其次，作家還嘗試了一類自督促學習方式SimCLR，該方式被全面用來醫(yī)學圖片行業(yè)的標簽高效分割。

該SimCLR基線含蓋2個階段，預訓練和微調。

在訓練階段，作家應用訓練集中的一切信息，而不應用所有標志數(shù)據(jù)。作家從輸入圖片中獲取2個隨機視圖，并應用UNet編碼器將它們投影到特點空間中。接著運用對照損失來最大化2個視圖的嵌入之間的一致性。

在微調流程中，UNet的編碼器用預先訓練的權重進行初始化，而且模型中的一切參數(shù)都在標志信息上進行訓練。最終，作家在沒有所有微調的狀況下嘗試起始SAM，以解決將SAM自定論到特定信息集的必須性。對于prompt，作家應用box-style的prompt，而且box坐標是基于GT Mask計算的。4.4 試驗結果4.4.1 Label-efficient Adaptation

當在新的信息集上微調模型時，為了減低標志本錢，期望微調僅在有限的標志圖片的狀況下實現(xiàn)有期望的結果。因而，在表1中，作家只供應了1或5個標志的volumes來評價作家方式的信息效益。下列是從表1中得出的首要觀測結果。

1.首先，針對這兩類設置，AutoSAM和CNN Head顯現(xiàn)出與一切其余方式相比最佳的分割精度。特別是當只應用1個標志時，AutoSAM的平均 Dice 分數(shù)為39.32，幾乎是UNet和SimCLR的兩倍。這供應了令人信服的證據(jù)，證實在SAM編碼器中學習到的特點充足通用，可以轉化到醫(yī)學圖片中。

就統(tǒng)計明顯性而言，很難說AutoSAM或CNN能否擁有更高的 Dice 分數(shù)，為甚麼這也象征著SAM的強大威力首要是由圖片編碼器而不是Mask解碼器提煉的代表性特點的結果。另外，作家觀測到AutoSAM與CNN Head部相比擁有更低的ASSD。這類差別能夠歸因于SAM解碼器的訓練，該解碼器旨在形成集中在prompt位子附近的目的的Mask。相比之下，CNN Head部沒有從SAM解碼器加載數(shù)據(jù)，造成ASSD值更高。

2.其次，與AutoSAM和CNN編碼器相比，縱然僅用1個volumes訓練，SAM也體現(xiàn)出更差的分割功能，這有力地支持了微調SAM是解決其在醫(yī)學圖片信息集上功能下落的有效方式。但是，也注重到，SAM的ASSD比其余方式低得多。這一觀測結果有助于SAM受益于嵌入框prompt中的局部數(shù)據(jù)。該定位數(shù)據(jù)迫使預判Mask位于框領域周邊。另一方面，SAM的LV Dice 分數(shù)終究為0。依據(jù)圖4，作家可以發(fā)掘Myo是1個由其余2個類包圍的細圓，邊緣也很模糊。因為Myo的框靠近RB的框，因而Myo實際上被誤認定是RV的一部分，因而一切LV領域都被預判為Myo。

3.如表1所示，線性預判Head擁有比其余2個預判Head差得多的功能。特別是，當標志信息的數(shù)目從1個加大到5個時，線性Head不可獲取較大的分割精度提升。作家認定，這一結果是因為極輕的架構。當SAM編碼器形成的視覺特點不擁有充足的醫(yī)學圖片語義數(shù)據(jù)時，這類簡潔的預判Head會造成模型本領較弱，并能夠顯現(xiàn)不夠。4.4.2 Ablation Study

作家進行的第一項融化研發(fā)是對于CNN預判Head中的深度數(shù)目怎樣影響微調結果。在表2中， Dice 隨著深度的加大而加大，直到 Depth＝4為止。如上所述，線性預判Head能夠會顯現(xiàn)裝配不夠的問題。當Depth< 4時，更大的預判Head會帶來更好的模型本領。但是，當Depth > 4時，從加大預判Head中的參數(shù)所獲取的益處開始減小。在這一點上，圖片嵌入或預判Head架構的品質變成決議功能的更主要的原因。

作家還評價了AutoSAM和Encoder+CNN在SAM供應的不同編碼器尺寸（即ViT-b、ViT-l和ViT-h）下的功能。

表3顯現(xiàn)，往往較大的模型大小會在下游任務上形成更好的微調結果，但AutoSAM對編碼器架構的敏感性不如Encoder+CNN。當應用ViT-h Backbone時，CNNHead部的 Dice 得分顯著高過AutoSAM，雖然它仍舊有更高的ASSD。表3也可以作為對于效益和功能之間切換的考慮，由于與ViT-b相比，ViT-h造成更長的微調時間和更高的推斷延緩。

最終，作家在圖5中繪制了應用更多標志信息進行微調的結果。作家發(fā)掘，當標志的卷數(shù)小過10時，AutoSAM僅比UNet（沒有額外數(shù)據(jù)）和SimCLR（在同一信息集上預訓練的常識）擁有優(yōu)勢。這是由于SAM是在大范圍圖片信息集上預訓練的，而且圖片編碼器可能提煉語義數(shù)據(jù)，這有利于下游的分割任務。

但是，因為SAM從未接觸過醫(yī)學圖片，因而這類語義數(shù)據(jù)能夠是有成見的，而且特定于自然圖片。仿佛有了充足的標志信息，從自然圖片中獲取的常識在將預判Head專門用來醫(yī)學圖片行業(yè)時會形成負面影響。因而，為了為一切圖片模態(tài)創(chuàng)建1個真實的“根基模型”，將來須要1個大范圍的醫(yī)學圖片信息集來預訓練SAM。五、總結

雖然SAM在自然圖片中獲得了順利，但怎樣有效地將SAM順應散布外的醫(yī)學圖片信息集仍舊是1個懸而未決的問題。與現(xiàn)有工作不同，本文為解決這一問題供應了1個新的視角，即解凍SAM圖片編碼器中的權重，并增加1個輕量級的任務專屬預判Head。

為了促成全面的運用，作家將SAM竄改為不可prompt的，并可能形成多類Mask。作家開拓了三類型號的預判Head，ViT（稱為AutoSAM）、CNN和線性層，此中AutoSAM和CNN Head在Few-Shot Head學習設置中顯現(xiàn)出有期望的結果。僅用1個標志進行微調比框prompt的SAM擁有更好的功能，這一事實證實了為新信息集定制SAM的必須性。因為標志的數(shù)目有限，作家的方式優(yōu)于從Head開始訓練和自督促學習基線?？紤]

本文網(wǎng)址：http://m.gmeo.cn/news/2705.html

相關標簽：醫(yī)學插畫,期望大家知曉醫(yī)學生的

上一篇：初中七八九年級英語詞組大全
下一篇：解剖學和生物學教育模型制造商3B Scientific公布新品 | 美通社

新聞分類