CLIP-Adapter: Better Vision-Language Models with Feature Adapters

對(duì)比語言圖像預(yù)訓(xùn)練(CLIP)

雖然prompt-tuning用于textual inputs,但是建議CLIP Adapter在視覺或語言分支上使用功能適配器進(jìn)行fine-tune

CLIPAdapter采用了一個(gè)額外的瓶頸層來學(xué)習(xí)新的特征并將剩余的特征與原始的預(yù)訓(xùn)練特征進(jìn)行混合。

為了更好地適應(yīng)vision語言模型,使用功能適配器,而不是快速調(diào)整

1. Classifier Weight Generation for Few-Shot Learning

Co0P方法

a classifier weight matrix W(D,K),D維度,K類別分類,得到K-維度 logit

hard-prompt,pre-defined hard prompt template H.

soft-prompt,random-initialized learnable soft tokens


2. CLIP Adapter

只在CLIP的語言圖像分支上附加少量可學(xué)習(xí)的瓶頸線性層,在few-shot , fine-tuning期間,保持原始clip主干凍結(jié)。

然而,使用附加層進(jìn)行簡(jiǎn)單的微調(diào)在few-shot中仍然可能會(huì)陷入過度擬合。為了解決過擬合問題,提高CLIP-Adapter的魯棒性,進(jìn)一步采用殘差連接,將微調(diào)后的知識(shí)與CLIP主干中的原始知識(shí)動(dòng)態(tài)融合。

image feature f , classifier weight W

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容