對(duì)比語言圖像預(yù)訓(xùn)練(CLIP)
雖然prompt-tuning用于textual inputs,但是建議CLIP Adapter在視覺或語言分支上使用功能適配器進(jìn)行fine-tune
CLIPAdapter采用了一個(gè)額外的瓶頸層來學(xué)習(xí)新的特征,并將剩余的特征與原始的預(yù)訓(xùn)練特征進(jìn)行混合。
為了更好地適應(yīng)vision語言模型,使用功能適配器,而不是快速調(diào)整
1. Classifier Weight Generation for Few-Shot Learning
Co0P方法


a classifier weight matrix W(D,K),D維度,K類別分類,得到K-維度 logit

hard-prompt,pre-defined hard prompt template H.

soft-prompt,random-initialized learnable soft tokens

2. CLIP Adapter
只在CLIP的語言和圖像分支上附加少量可學(xué)習(xí)的瓶頸線性層,在few-shot , fine-tuning期間,保持原始clip主干凍結(jié)。
然而,使用附加層進(jìn)行簡(jiǎn)單的微調(diào)在few-shot中仍然可能會(huì)陷入過度擬合。為了解決過擬合問題,提高CLIP-Adapter的魯棒性,進(jìn)一步采用殘差連接,將微調(diào)后的知識(shí)與CLIP主干中的原始知識(shí)動(dòng)態(tài)融合。

image feature f , classifier weight W


