如何做到智能告警的管理?

早早发表于:2020年10月23日 15:51:20

告警,往往是繁杂而密集的,如果没有一个高效的管理告警的办法,那只会大大降低运维人员的工作效率,导致问题处理不及时,最终影响到业务。那么,如何做到告警的智能高效管理呢?

 

睿象云智能告警平台Cloud Alert(以下简称CA)是睿象云旗下产品,从时间、人员、信息、过程、知识、问题6个维度,实现对告警的管理。

时间:将告警第一时间通知到相关人员,保证告警无延迟,尽可能的缩短告警处理的时间流程

人员:实现团队的成员的管理,保证告警的精准通知

信息:将告警信息标准化,统一化管理

过程:告警从发生到恢复,形成一套完整的可视化处理流程

知识:告警处理的具体详情积累,形成告警知识图谱,方便快速处理告警问题

问题:解决类似告警风暴等类似问题

image.png

CA告警管理流程

告警的主要处理流程首先将用户的多个监控平台接入到CA中,然后在CA中进行管理,最终通知到用户、系统或者第三方协作策略中,CA中管理可以实现【开放式一体化管理】【自动化事件分派响应机制】【自研机器学习算法直达事件根因】【多渠道通知必答移动端快速处理】

image.png

CA告警数据处理流程

监控平台的数据发送到CA中,将告警数据标准化处理,通过设定的压缩规则(可选),将告警压缩成主告警后,进行通知

image.png

CA所能带来的是什么呢?

 

场景一:实现告警的分级的不同方式的通知,例如:严重告警电话通知,其他告警实现微信通知

设置接收告警人员的通知方式,严重级别告警设置电话通知,提醒和警告级别告警设置微信通知

 

image.png

image.png

场景二:实现将多个平台告警统一化管理

CA支持将多个监控平台接入到一个admin的账号进行集中管理

image.png

场景三:在告警未能及时处理时,再次通知到下一负责人或者同一人,防止重要告警未能及时处理导致的遗漏

在CA中的分派策略中设置分派升级策略,可以选择指定时间内,告警未被处理,升级到下一人通知,升级几次可以根据用户的需求来设置

image.png

场景四:将告警发送到钉钉或企业微信等群组中,通过团队协作的方式快速处理问题

CA可以设置协作通知,将告警发送到钉钉或者企业微信等第三方协作工具中,并可以进行认领或关闭等操作。

image.png

场景五:针对告警的分析,以及成员对告警的处理情况的分析

CA支持告警回溯与多维分析,可以查看历史告警趋势、成员工作效率、告警内容top分析、告警智能分类分析等。

image.png