對于互聯(lián)網(wǎng)公司來說,系統(tǒng)復(fù)雜化導(dǎo)致的人工運維成本激增已經(jīng)是普遍現(xiàn)象,采用智能運維是行之有效的應(yīng)對策略。智能運維的核心思想是利用算法來處理海量運維數(shù)據(jù),積累運維經(jīng)驗,從而代替人工思考判斷,以自動化的過程實現(xiàn)風(fēng)險的預(yù)防、發(fā)現(xiàn)、定位和處理。而智能運維系統(tǒng)是其中的重中之重,但建設(shè)企業(yè)應(yīng)用智能運維系統(tǒng),不是應(yīng)用運維部獨立規(guī)劃設(shè)計就可以完成的,它需要業(yè)務(wù)、產(chǎn)品、開發(fā)、基礎(chǔ)設(shè)施運維多部門協(xié)同才能順利實施。
因為工作需要不停充電,前陣子買了《應(yīng)用智能運維實踐》這本書,讀過之后受益匪淺,書里詳細(xì)講解了智能運維系統(tǒng)的架構(gòu),分享了規(guī)劃建設(shè)智能運維系統(tǒng)的簡要方案,這里做個總結(jié)記錄,算是寫給我自己的閱讀筆記,也給大家做個分享~
前期準(zhǔn)備
前期準(zhǔn)備過程中需要詳細(xì)地調(diào)研,并討論以下四個需要完成的內(nèi)容:需求準(zhǔn)備、應(yīng)用準(zhǔn)備、人員準(zhǔn)備和技術(shù)準(zhǔn)備。
需求準(zhǔn)備:理解企業(yè)現(xiàn)有的應(yīng)用運維過程。
需求準(zhǔn)備階段核心的工作內(nèi)容是理解企業(yè)現(xiàn)有的應(yīng)用運維過程,定義應(yīng)用運維場景,并基于實際需求規(guī)劃建設(shè)目標(biāo)。開展這項工作,首先需要應(yīng)用運維團(tuán)隊和企業(yè)內(nèi)部負(fù)責(zé)應(yīng)用系統(tǒng)開發(fā)的產(chǎn)品/項目團(tuán)隊溝通,了解當(dāng)前應(yīng)用系統(tǒng)的現(xiàn)狀,對應(yīng)用畫像。
在前期溝通工作中,最關(guān)鍵的是對目標(biāo)用戶場景進(jìn)行梳理,從中找出用戶的關(guān)鍵需求點。
另外,需求調(diào)研人員要對對標(biāo)產(chǎn)品有足夠深入的理解,能夠透徹地分析優(yōu)勢和劣勢,并總結(jié)目標(biāo)場景。

應(yīng)用準(zhǔn)備:為目標(biāo)應(yīng)用的運行狀態(tài)準(zhǔn)確畫像。
在應(yīng)用準(zhǔn)備階段,要做的是對運維目標(biāo)應(yīng)用的運行狀態(tài)進(jìn)行畫像;對應(yīng)用所處的生命周期階段、服務(wù)目標(biāo)用戶群、用戶接入方式和系統(tǒng)架構(gòu)進(jìn)行調(diào)研;通過定性和定量分析方法找到應(yīng)用特點,制定與其匹配的運維智能化策略。
人員準(zhǔn)備:組建技術(shù)和管理專家團(tuán)隊。
在通常情況下,制定應(yīng)用智能運維系統(tǒng)建設(shè)的驗收目標(biāo),需要進(jìn)行需求調(diào)研的目標(biāo)團(tuán)隊主要有:應(yīng)用運維團(tuán)隊,其主要關(guān)注日常應(yīng)用的穩(wěn)定性、性能保障;產(chǎn)品/項目團(tuán)隊,其主要對上線系統(tǒng)的代碼問題進(jìn)行定位分析;數(shù)字運營團(tuán)隊,其關(guān)注應(yīng)用的穩(wěn)定性、性能對數(shù)字營銷效果和用戶轉(zhuǎn)化率的影響。

技術(shù)準(zhǔn)備:儲備運維智能化的關(guān)鍵技術(shù)。
落地智能化的運維算法難度較大,解決實際應(yīng)用場景問題,要求應(yīng)用運維團(tuán)隊不但要有應(yīng)用性能工程、APM、應(yīng)用鏈路追蹤、日志分析等傳統(tǒng)運維技術(shù),還要有大數(shù)據(jù)存儲、索引、清洗、統(tǒng)計等方面的經(jīng)驗,能夠熟練使用機器學(xué)習(xí)和人工智能算法。如下圖所示,企業(yè)需要在建設(shè)前期積累的技術(shù)能力。

規(guī)劃設(shè)計
圍繞運維現(xiàn)狀,規(guī)劃建設(shè)愿景。
做好了需求、應(yīng)用、人員和技術(shù)的準(zhǔn)備,就可以圍繞企業(yè)當(dāng)前的運維現(xiàn)狀,規(guī)劃設(shè)計應(yīng)用智能運維系統(tǒng)的建設(shè)目標(biāo)和愿景了。行業(yè)、規(guī)模和經(jīng)營模式的差別導(dǎo)致企業(yè)運維模式大相徑庭。充分考慮企業(yè)當(dāng)前的運維現(xiàn)狀、應(yīng)用系統(tǒng)狀態(tài)和目標(biāo)用戶特點,制訂分階段可行的目標(biāo)愿景,可以大幅度提高系統(tǒng)建設(shè)成功的概率。
多部門協(xié)作,規(guī)劃服務(wù)質(zhì)量目標(biāo)。
對于依賴信息系統(tǒng)直接面向用戶提供服務(wù)的企業(yè),服務(wù)質(zhì)量目標(biāo)(SLO)是運維、運營、開發(fā)等多部門關(guān)注的關(guān)鍵KPI。運維部門要通過SLO判斷故障的嚴(yán)重程度,以及是否需要立即介入;運營部門要依據(jù)SLO判斷數(shù)字營銷效果是否會受應(yīng)用穩(wěn)定性的影響,分析用戶轉(zhuǎn)化率與應(yīng)用性能之間的關(guān)系,需要提出對SLO的保障要求;開發(fā)部門則要根據(jù)SLO量化監(jiān)控的需要,提供應(yīng)用程序監(jiān)控埋點,獲取對應(yīng)業(yè)務(wù)流程的點擊次數(shù)、請求響應(yīng)時間等指標(biāo)的支持。
制訂監(jiān)控策略,設(shè)計SLO計算算法。
制訂SLO,首先要考慮相關(guān)指標(biāo)的量化,并且找到聚合計算需要的原始監(jiān)控指標(biāo),否則就需要人工統(tǒng)計計算。其次,對真實用戶訪問過程進(jìn)行被動監(jiān)控追蹤。有了原始監(jiān)控指標(biāo),還需要根據(jù)經(jīng)驗設(shè)計對應(yīng)的SLO聚合計算算法,并在上線運行過程中不斷修正和調(diào)整,這樣才能適應(yīng)真正監(jiān)控的需要。
專注過程,規(guī)劃有效的風(fēng)險管理機制。
運維的關(guān)鍵任務(wù)是管理風(fēng)險,管理風(fēng)險是關(guān)聯(lián)工具、數(shù)據(jù)和人的過程。在實踐過程中,過程經(jīng)常采用自動化工作流管理工具。

概念驗證
不同于CMDB、ITOM、APM等系統(tǒng)建設(shè)有成熟的工具平臺和方法學(xué)指導(dǎo),應(yīng)用智能運維系統(tǒng)建設(shè)更貼近用戶和應(yīng)用場景,數(shù)據(jù)采集、存儲和使用人工智能算法解決問題都可能需要針對具體需求定制,很難做到標(biāo)準(zhǔn)化。加上當(dāng)前數(shù)字信息技術(shù)的演進(jìn)速度加快,互聯(lián)網(wǎng)應(yīng)用的迭代更新也隨之加速,導(dǎo)致對應(yīng)用運維保障需求的變化更加頻繁。因此,應(yīng)用智能運維系統(tǒng)建設(shè)需要基于高度開放、容易擴展且能力相對完備的數(shù)據(jù)采集、存儲分析和展現(xiàn)平臺來開展概念驗證,然后基于驗證結(jié)果,結(jié)合實際需要制訂實施計劃。
