CDH集群常見故障處理

1 kudu在CDH的各個組件中最容易出現(xiàn)服務(wù)停止的情況

報錯大部分原因是因為Clock init的問題,也就是時鐘同步的問題,處理方法與hdfs的nfs gatway服務(wù)無法啟動類似,手動同步一下時間即可:

????? Servicentp stop

?? Ntpdate CDH1

?? Service ntp start

另外,集群因為斷電之后重啟,發(fā)現(xiàn)kudu組件的Tablet Server和Master大概率無法啟動,一般來說,查看日志發(fā)現(xiàn)是Clock init方面的問題,只需要手動去同步節(jié)點上的系統(tǒng)時間就可以啟動成功:

如果是FSLayout

failed,datachecksum Incorrect之類的錯誤,那就比較麻煩,這是因為斷電的瞬間kudu還在寫數(shù)據(jù),導(dǎo)致數(shù)據(jù)塊(data,metadata)損壞,里面的數(shù)據(jù)offset對不上,這種情況下,假如報錯只發(fā)生在某一個節(jié)點上,那么把報錯的數(shù)據(jù)塊刪除掉再重啟服務(wù)即可,因為kudu默認(rèn)配置了3備份,在節(jié)點宕機期間數(shù)據(jù)在集群中仍然有備份。假如報錯發(fā)生在多個節(jié)點上,那么數(shù)據(jù)就很有可能丟失了,這種情況下的處理方案還有待考慮。

2安裝nfs rpcbind

如果提示rpcbind沒有安裝,那么yum -y install nfs-utils即可

云平臺的Centos沒有自帶NFS和RPCbind,需要yum -y install nfs rpcbind來安裝之后才可正常啟動hdfs

3

kafka啟動失敗的時候,可以看一下是不是分配給kafka的java

heap size太小的原因,修改一下java heap size,一般修改到1G以上

4離線安裝spark的時候,要將一個Spark2_on_yarn的jar包放到每個節(jié)點的csd目錄下,否則spark安裝會報錯。

5

hive需要將一個mysqlconnector的jar包放到/usr/local/java目錄下

6重裝kakfa的時候,提示啟動失敗,查看日志提示log.dir(/var/local/kafka/data)中有文件,要刪除這個目錄下的文件才可啟動

7

hdfs的nfs gateway服務(wù)無法啟動一般是因為rpcbind服務(wù)沒有起來,到該服務(wù)對應(yīng)的節(jié)點上service rpcbind start,然后service nfs stop即可

8在云平臺上安裝hdfs時會出現(xiàn)datanode啟動時對config.zip的permission denied,修改java heap size之后,啟動成功。

9如果HBase經(jīng)常因為大數(shù)據(jù)量寫入而導(dǎo)致Master服務(wù)宕機的話,可以考慮修改Hbase的GC機制,可以在CM管理頁面中,HBase配置頁下搜索“HBase Master的java配置選項”,在輸入框中填寫:

-XX:+UseG1GC -Xms32G -Xmx32G -XX:MaxGCPauseMillis=50 -XX:MaxTenuringThreshold=1-XX:G1HeapWastePercent=10 -XX:G1MixedGCCountTarget=16-XX:InitiatingHeapOccupancyPercent=65

然后重啟HBase服務(wù)。

注意:在CM中做的任何配置修改,都要重啟相應(yīng)服務(wù)才能生效,某些關(guān)聯(lián)到其他組件的配置還需要重啟相關(guān)服務(wù)甚至重啟集群。

10離線安裝組件,以Spark2為例

在安裝Spark2時,使用自己從Cloudera下載的parcel包做離線安裝的話,要將Spark2的parcel包上傳到主節(jié)點的/opt/parcels/目錄下,然后將SPARK_ON_YARN-2.1.0.cloudera2.jar上傳到/opt/cloudera/csd/目錄下,然后在主節(jié)點上:

/opt/cm-5.11.1/etc/init.d/cloudera-scm-server restart

在每個節(jié)點上:

/opt/cm-5.11.1/etc/init.d/cloudera-scm-agent restart

必須要重啟cloudera服務(wù)才能在CM添加服務(wù)頁面找到Spark2的安裝選項。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容