經(jīng)常會遇到如下異常, 某一個task多次失敗導(dǎo)致作業(yè)失敗. 這種情況下因?yàn)槿萜魍顺? 無法查看日志, 已經(jīng)很難判斷具體的失敗原因.

可以參考如下步驟進(jìn)行簡單診斷問題,
1. 點(diǎn)擊如下失敗的stage鏈接,

2. 進(jìn)入如下task列表, 可以看到Index 396就是上面異常中的Task 396,? 而對應(yīng)的四次失敗Attempt 的TID分別是 1165, 1318.
注意:這幾次失敗嘗試發(fā)生的Host完全相同, 表示作業(yè)在同一臺機(jī)器上反復(fù)執(zhí)行這個task 4次并均告失敗, 最終導(dǎo)致作業(yè)失敗. 這種情況就極有可能是當(dāng)時這臺機(jī)器的狀態(tài)不正?;蜇?fù)載偏高導(dǎo)致的
