深度學(xué)習(xí)跑視覺相關(guān)模型,運(yùn)行一段時(shí)間直接卡死,問題排查

首先考慮gpu問題,如果是顯存等不足,應(yīng)該是程序直接終止。
使用watch -n 1 nvidia-smi監(jiān)視gpu運(yùn)行狀況,后來發(fā)現(xiàn)一個(gè)特點(diǎn),可以從風(fēng)扇轉(zhuǎn)速百分比確定是不是溫度過高,在五六十左右是正常的,如果80%以上說明已經(jīng)過熱了。

就我經(jīng)歷的情況而言,gpu溫度達(dá)到84度,風(fēng)扇接近100%,風(fēng)扇是在可以的情況下以盡可能低的轉(zhuǎn)速運(yùn)行的。這說明溫度已經(jīng)非常高了,風(fēng)扇不得不全速運(yùn)行。

解決散熱有效的辦法就是講機(jī)箱側(cè)板取下,取下后,gpu溫度穩(wěn)定在75左右,風(fēng)扇轉(zhuǎn)速在65%左右。程序沒有再卡死過。


在此之前我懷疑過是jupyter notebook不穩(wěn)定導(dǎo)致程序崩潰,事實(shí)是并不存在這種問題,以后還是優(yōu)先使用jupyter notebook運(yùn)行,可以查看各種數(shù)據(jù),也可以繼續(xù)運(yùn)行,十分方便。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容