告警压缩与降噪

早早发表于:2020年03月06日 13:53:00更新于:2020年04月05日 15:45:06

为何要压缩告警?

运维监控工具/平台,一般是通过配置固定阈值,达到阈值后自动触发/生成告警。如网络中断、闪断;系统升级更新;设备多监控内容多等情况下,更会产生海量告警。以下为告警管理常见问题:

l 故障期间,告警风暴,手机/邮箱会被海量告警淹没;

l 运维人员很难从海量告警从筛选出重要告警,容易忽略重要告警;

l 固定阈值控制,频繁误报、漏报告警;

 

如何实现告警压缩与降噪?

睿象云智能告警平台 Cloud Alert(后文为:CA)适应不同行业、不同规模、不同运维水平公司的各种告警需求,平台支持多维度告警压缩合并与降噪,帮助您在不遗漏重要告警前提下,快速减少告警。

CA实现告警降噪根据降噪程度不同,分为事前和事后共三种方式:

事前:也就是影响告警通知的方式;

事后:不影响告警通知的方式,可以用作事后分析判断。

1. 自动去重压缩;(事前)

2. 规则压缩;(事前)

3. 算法智能降噪(事后)

 

自动去重(事前)

全量告警推送到CA平台后,CA平台会自动基于时间序列,将相同的事件/告警压缩。不同监控工具去重压缩机制有细微差异:根据 eventId(事件ID)和告警对象,去除重复告警。

 

规则压缩(事前)

自动去重后的告警,会按照压缩规则,将相似、同源(同一设备不同类型的信息)告警再次进行压缩。一共分为两种压缩机制,分别是:

1. 算法智能降噪

2. 自定义压缩规则降噪

算法智能降噪

主要原理是将指定时间内的告警,提取相应的关键词放在一组模板中,通过我们的算法将告警进行比对,符合要求的告警会被压缩、整合后在进行通知。

自定义压缩规则降噪

用户可根据自身需求来设置主机、服务、告警内容、告警对象的压缩条件,设置完毕后告警会根据告警压缩规则,来进行压缩降噪。

 

智能算法降噪(事后)

这个事后的算法智能降噪,用于用户的告警分析,使得用户可以清晰的排查告警主要出现的问题在哪,是在通知后进行的,所以不影响告警通知,其中有两种降噪方式,分别是:

1. 高聚合智能算法降噪

2. 仿阅读智能算法降噪

高聚合智能算法降噪

主要原理是将告警的内容,进行文本以算法进行比较,将符合要求的告警文本进行告警聚类。

仿阅读智能算法降噪

主要原理是将告警内容模板化,再将告警模板以一种特定的算法进行对比,将符合规定的告警进行合并。

仿阅读智能算法比高聚合智能算法,降噪条件更严格,因此聚类后的结果一般多于后者。

 

一个高效的压缩与降噪方式,能够有效的避免告警风暴问题,并且能够减少大部分的成本。更多高效功能,欢迎访问睿象云智能告警平台,进行产品使用。