Servicehot告訴你運(yùn)維常說的 5個9、4個9、3個9啥意思?

?在系統(tǒng)的高可靠性(也稱為可用性,英文描述為HA,HighAvailable)里有個衡量智能運(yùn)維其可靠性的標(biāo)準(zhǔn)——X個9,這個X是代表數(shù)字3~5。

X個9表示在系統(tǒng)1年時間的使用過程中,系統(tǒng)可以正常使用時間與總時間(1年)之比,我們通過下面的計算來感受下X個9在不同級別的可靠性差異。

3個9:(1-99.9%)*365*24=8.76小時,表示該系統(tǒng)在連續(xù)運(yùn)行1年時間里最多可能的業(yè)務(wù)中斷時間是8.76小時。

4個9:(1-99.99%)*365*24=0.876小時=52.6分鐘,表示該系統(tǒng)在連續(xù)運(yùn)行1年時間里最多可能的業(yè)務(wù)中斷時間是52.6分鐘。

5個9:(1-99.999%)*365*24*60=5.26分鐘,表示該系統(tǒng)在連續(xù)運(yùn)行1年時間里最多可能的業(yè)務(wù)中斷時間是5.26分鐘。

那么X個9里的X只代表數(shù)字3~5,為什么沒有1~2,也沒有大于6的呢?我們接著往下計算:

1個9:(1-90%)*365=36.5天

2個9:(1-99%)*365=3.65天

6個9:(1-99.9999%)*365*24*60*60=31秒

可以看到1個9和、2個9分別表示一年時間內(nèi)業(yè)務(wù)可能中斷的時間是36.5天、3.65天,這種級別的可靠性或許還不配使用“可靠性”這個詞;而6個9則表示一年內(nèi)業(yè)務(wù)中斷時間最多是31秒,那么這個級別的可靠性并非實現(xiàn)不了,而是要做到從“5個9”

到“6個9”的可靠性提升的話,后者需要付出比前者幾倍的成本。

【1、MTBF】MTBF,即平均故障間隔時間,英文全稱是“Mean Time Between

Failure”。是衡量一個產(chǎn)品(尤其是電器產(chǎn)品)的可靠性指標(biāo)。單位為“小時”。具體來說,是指相鄰兩次故障之間的平均工作時間,也稱為平均故障間隔。概括地說,產(chǎn)品故障少的就是可靠性高,產(chǎn)品的故障總數(shù)與壽命單位總數(shù)之比叫“故障率”(Failure

rate)。它僅適用于可維修產(chǎn)品。同時也規(guī)定產(chǎn)品在總的使用階段累計工作時間與故障次數(shù)的比值為MTBF。磁盤陣列產(chǎn)品一般MTBF不能低于50000小時。

【2、失效率】失效率是指工作到某一時刻尚未失效的產(chǎn)品,在該時刻后,單位時間內(nèi)發(fā)生失效的概率。一般記為λ,它也是時間t的函數(shù),故也記為λ(t),稱為失效率函數(shù),有時也稱為故障率函數(shù)或風(fēng)險函數(shù)。

失效率

λ=1/MTBF,單位1FITs=10-9(1/h)

【3、MTTR】MTTR,全稱是Mean Time To

Repair,即平均修復(fù)時間。是指可修復(fù)產(chǎn)品的平均修復(fù)時間,就是從出現(xiàn)故障到修復(fù)中間的這段時間。MTTR越短表示易恢復(fù)性越好。

MTTR也必須包含獲得配件的時間,維修團(tuán)隊的響應(yīng)時間,記錄所有任務(wù)的時間,還有將設(shè)備重新投入使用的時間。是一個縮寫的平均時間恢復(fù)或平均修復(fù)時間代表的平均時間將有缺陷的部件或系統(tǒng)恢復(fù)工作秩序。

它是衡量一個系統(tǒng)的可維護(hù)性和可預(yù)測的平均所需的時間讓系統(tǒng)工作的情況下再次出現(xiàn)系統(tǒng)故障。

MTTR可以從幾個毫秒,如不間斷電源(UPS)的許多數(shù)小時甚至數(shù)天的情況下的應(yīng)用軟件或復(fù)雜的機(jī)制。

【4、修復(fù)率】修復(fù)率(μ) repair rate

產(chǎn)品維修性的一種基本參數(shù)。修理時間已達(dá)到某個時刻但尚未修復(fù)的產(chǎn)品,在該時刻后的單位時間內(nèi)完成修理的概率。

經(jīng)常用到所謂4個9或者5個9,也就是99.99%與99.999%。那么,4個9或者5個9的差距有多大,差距是0.009%,還不到0.01%。但對于系統(tǒng)而言,恰恰是這不到0.01%的差距,決定了系統(tǒng)完全不在一個檔次上。

所謂5個9的系統(tǒng),一年內(nèi)不能正常工作的時間少于5分15秒。對應(yīng)4個9的系統(tǒng)是不超過52分36秒。這些都是理論上的數(shù)據(jù),在實際工作中有些故障導(dǎo)致的宕機(jī)時間遠(yuǎn)超過5分鐘,即使采用大型主機(jī),也有宕機(jī)4個多小時的慘痛教訓(xùn)。問題出在哪里?

一個系統(tǒng)的可靠性并不完全取決于硬件,而由軟件和硬件共同來決定,如果是軟件問題,最好的解決辦法就是打補(bǔ)丁、升級,再好的硬件也沒有辦法解決軟件的問題。要提高系統(tǒng)的可靠性,軟件是沒有太好辦法的,只有依靠廠商服務(wù)來解決問題。用戶可以選擇的只有硬件,其中,包括網(wǎng)絡(luò)、服務(wù)器以及存儲設(shè)備。其中,網(wǎng)絡(luò)可以借助多運(yùn)營商接入來解決,存儲有RAID、快照等應(yīng)對技術(shù),通過備份來提高數(shù)據(jù)安全性。但對于服務(wù)器來說,更多用戶的選擇是采用雙機(jī)集群的方法。

采用雙機(jī)集群的方案是達(dá)不到5個9的要求的。原因很簡單,雙機(jī)集群是通過集群軟件來構(gòu)建方案的,當(dāng)其中的一臺服務(wù)器產(chǎn)生故障的時候,切換到備份主機(jī)繼續(xù)工作,保持業(yè)務(wù)連續(xù)性。設(shè)備之間也可以依靠心跳線連接對故障進(jìn)行判定。對于集群而言,故障切換是有嚴(yán)格要求的,要求主機(jī)、備用機(jī)的環(huán)境是一致的。在應(yīng)用實踐中,要求管理要到位,例如同步升級、升級,打補(bǔ)丁。如果管理不到位,很有可能會導(dǎo)致切換失敗。這也是為什么,系統(tǒng)可以在演示環(huán)境下成功切換,但現(xiàn)實中往往做不到的原因。

了解更多關(guān)于ITSM系統(tǒng)以及工具方面的內(nèi)容,可以關(guān)注一下我們ServiceHot哦~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 如果你去買一部手機(jī),你會考慮什么因素呢?一般我們都會首先考慮智能手機(jī)、照相功能、多大容量等。而除了這些,我們通常還...
    禚嫻靜閱讀 1,765評論 3 0
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,715評論 19 139
  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 179,366評論 25 708
  • 只有把人的基因移植到螞蟻里,他(或者她)覺得自己是人,其實只是螞蟻;此后就可以在一個盆景里得到這種幸福,世界也會因...
    靜靜咕咕雞閱讀 256評論 0 0

友情鏈接更多精彩內(nèi)容