概覽
通過(guò)此文檔,你能夠配置簡(jiǎn)單的Grafana8告警。
背景
Grafana8以后,alert功能更新。新告警設(shè)置與老告警設(shè)置完全不同。我們這里暫定新告警名為統(tǒng)一告警。
在開始配置之前,需要先對(duì)齊一下信息。
監(jiān)控架構(gòu)圖
整體監(jiān)控平臺(tái)以prometheus為核心進(jìn)行設(shè)計(jì)。
不支持在 Docs 外粘貼 block
告警級(jí)別分類
告警級(jí)別很重要,故障應(yīng)急策略會(huì)根據(jù)告警級(jí)別而定。
不支持在 Docs 外粘貼 block
告警配置
告警頁(yè)面常用名詞解釋:
三大組件關(guān)系圖:
為了方便理解,將配置告警使用的對(duì)象,簡(jiǎn)稱為三大組件。
他們分別是:Alert rules , contact points,notification polices
不支持在 Docs 外粘貼 block
設(shè)置Prometheus告警
第一步:contact points
創(chuàng)建告警通道
一個(gè)contact points可以設(shè)置多個(gè)發(fā)送告警通道

第二步:Notification policies
創(chuàng)建告警通道匹配規(guī)則
- 使用label匹配alert rules
- 選擇contact point
- 設(shè)置Override general timings (可選)
- Group wait: 調(diào)節(jié)告警敏感度
- Group interval:這里設(shè)置多個(gè)alert rules匹配1個(gè)contact point,所以此參數(shù)設(shè)置較低。
- Repeat interval:建議對(duì)齊"告警策略"中的"故障狀態(tài)更新時(shí)間"參數(shù)設(shè)置
第三步:Alert rules
配置告警策略
這里使用CPU告警舉例
- 找到CPU的監(jiān)控panel

- 編輯panel進(jìn)入alert頁(yè)簽,創(chuàng)建alert rule

- 設(shè)置報(bào)警規(guī)則
設(shè)置所有IP地址是10.11開頭的主機(jī),CPU使用率最新的參數(shù)超過(guò)80%閾值,30s檢查一次,持續(xù)1分鐘都超過(guò)告警閾值,則觸發(fā)告警。為了匹配告警通道,標(biāo)簽設(shè)置Contact_point=alert-test-group-ms-teams
注意:告警內(nèi)容要清晰的告知需要做什么,因半夜2點(diǎn)多當(dāng)你收到告警時(shí),你很難保證在迷糊的狀態(tài)快速的做出正確的判斷。

上圖的配置會(huì)將此報(bào)警綁定到下圖的告警通道

Microsoft Teams設(shè)置webhook
- 創(chuàng)建群組
- 給群組增加通道
- 給通道增加連接器
- 選擇Add Incoming Webhook
- 創(chuàng)建后復(fù)制webhook地址,填寫到Grafana中。
注意:webhook地址需要單獨(dú)保存,創(chuàng)建后無(wú)法再次查看。
參考文檔:
https://grafana.com/docs/grafana/latest/alerting/unified-alerting/
https://docs.microsoft.com/zh-cn/outlook/actionable-messages/send-via-connectors