1 kudu在CDH的各個組件中最容易出現(xiàn)服務(wù)停止的情況
報錯大部分原因是因為Clock init的問題,也就是時鐘同步的問題,處理方法與hdfs的nfs gatway服務(wù)無法啟動類似,手動同步一下時間即可:
????? Servicentp stop
?? Ntpdate CDH1
?? Service ntp start
另外,集群因為斷電之后重啟,發(fā)現(xiàn)kudu組件的Tablet Server和Master大概率無法啟動,一般來說,查看日志發(fā)現(xiàn)是Clock init方面的問題,只需要手動去同步節(jié)點上的系統(tǒng)時間就可以啟動成功:
如果是FSLayout
failed,datachecksum Incorrect之類的錯誤,那就比較麻煩,這是因為斷電的瞬間kudu還在寫數(shù)據(jù),導(dǎo)致數(shù)據(jù)塊(data,metadata)損壞,里面的數(shù)據(jù)offset對不上,這種情況下,假如報錯只發(fā)生在某一個節(jié)點上,那么把報錯的數(shù)據(jù)塊刪除掉再重啟服務(wù)即可,因為kudu默認(rèn)配置了3備份,在節(jié)點宕機期間數(shù)據(jù)在集群中仍然有備份。假如報錯發(fā)生在多個節(jié)點上,那么數(shù)據(jù)就很有可能丟失了,這種情況下的處理方案還有待考慮。
2安裝nfs rpcbind
如果提示rpcbind沒有安裝,那么yum -y install nfs-utils即可
云平臺的Centos沒有自帶NFS和RPCbind,需要yum -y install nfs rpcbind來安裝之后才可正常啟動hdfs
3
kafka啟動失敗的時候,可以看一下是不是分配給kafka的java
heap size太小的原因,修改一下java heap size,一般修改到1G以上
4離線安裝spark的時候,要將一個Spark2_on_yarn的jar包放到每個節(jié)點的csd目錄下,否則spark安裝會報錯。
5
hive需要將一個mysqlconnector的jar包放到/usr/local/java目錄下
6重裝kakfa的時候,提示啟動失敗,查看日志提示log.dir(/var/local/kafka/data)中有文件,要刪除這個目錄下的文件才可啟動
7
hdfs的nfs gateway服務(wù)無法啟動一般是因為rpcbind服務(wù)沒有起來,到該服務(wù)對應(yīng)的節(jié)點上service rpcbind start,然后service nfs stop即可
8在云平臺上安裝hdfs時會出現(xiàn)datanode啟動時對config.zip的permission denied,修改java heap size之后,啟動成功。
9如果HBase經(jīng)常因為大數(shù)據(jù)量寫入而導(dǎo)致Master服務(wù)宕機的話,可以考慮修改Hbase的GC機制,可以在CM管理頁面中,HBase配置頁下搜索“HBase Master的java配置選項”,在輸入框中填寫:
-XX:+UseG1GC -Xms32G -Xmx32G -XX:MaxGCPauseMillis=50 -XX:MaxTenuringThreshold=1-XX:G1HeapWastePercent=10 -XX:G1MixedGCCountTarget=16-XX:InitiatingHeapOccupancyPercent=65
然后重啟HBase服務(wù)。
注意:在CM中做的任何配置修改,都要重啟相應(yīng)服務(wù)才能生效,某些關(guān)聯(lián)到其他組件的配置還需要重啟相關(guān)服務(wù)甚至重啟集群。
10離線安裝組件,以Spark2為例
在安裝Spark2時,使用自己從Cloudera下載的parcel包做離線安裝的話,要將Spark2的parcel包上傳到主節(jié)點的/opt/parcels/目錄下,然后將SPARK_ON_YARN-2.1.0.cloudera2.jar上傳到/opt/cloudera/csd/目錄下,然后在主節(jié)點上:
/opt/cm-5.11.1/etc/init.d/cloudera-scm-server restart
在每個節(jié)點上:
/opt/cm-5.11.1/etc/init.d/cloudera-scm-agent restart
必須要重啟cloudera服務(wù)才能在CM添加服務(wù)頁面找到Spark2的安裝選項。