首先考慮gpu問題,如果是顯存等不足,應(yīng)該是程序直接終止。
使用watch -n 1 nvidia-smi監(jiān)視gpu運(yùn)行狀況,后來發(fā)現(xiàn)一個(gè)特點(diǎn),可以從風(fēng)扇轉(zhuǎn)速百分比確定是不是溫度過高,在五六十左右是正常的,如果80%以上說明已經(jīng)過熱了。
就我經(jīng)歷的情況而言,gpu溫度達(dá)到84度,風(fēng)扇接近100%,風(fēng)扇是在可以的情況下以盡可能低的轉(zhuǎn)速運(yùn)行的。這說明溫度已經(jīng)非常高了,風(fēng)扇不得不全速運(yùn)行。
解決散熱有效的辦法就是講機(jī)箱側(cè)板取下,取下后,gpu溫度穩(wěn)定在75左右,風(fēng)扇轉(zhuǎn)速在65%左右。程序沒有再卡死過。
在此之前我懷疑過是jupyter notebook不穩(wěn)定導(dǎo)致程序崩潰,事實(shí)是并不存在這種問題,以后還是優(yōu)先使用jupyter notebook運(yùn)行,可以查看各種數(shù)據(jù),也可以繼續(xù)運(yùn)行,十分方便。