媒体报道丨玩转“告警”的睿象云,又在琢磨“事件”

早早发表于:2019年10月28日 10:50:13更新于:2019年10月28日 11:19:29

睿象云,一家AIOps企业。

他在玩转“告警”后,又开始琢磨“事件”。

敲门是事件,破门就是告警;输入密码是事件,三次输入错误密码就会告警;CPU利用率波动是事件,利用率超过阈值就会触发告警。睿象云一直关注于此,琢磨AIOps智能运维中,事件与告警之间的因果,也琢磨事件与业务的关联。

AIOps自立门户

时间回到3年前,此时Garter开始关注AIOps(智能运维),并在相关文章报告中,逐渐增加“AIOps”的出现频率。但有时代特征的细节是,当时AIOps(智能运维)中的“AI”,还并非人工智能的缩写,A指为Algorithmic,即算法。

原因很简单,IT系统已经越来越复杂,运维工程师不得不,使用各类监控工具,以掌握主机、网络、容器、应用、日志等不同实体的实时性能,而由此产生的海量数据,显然超出人脑容量所及,必须引入算法加以分析。

定义的转变出现在2017年,Garter明确给出AIOps平台应该具备的11项能力。由此,AIOps开始被业内广泛认定为,颠覆式的运维技术,其可增强,甚至部分取代APM(应用性能监控)的价值。而观察此时间点,正是人工智能和大数据技术,趋于成熟的阶段。

上述即是AIOps概念的由来。2016 年前后,面向应用程序的AIOps被称为“应用分析”,此后被称为“算法IT运维”,而在2017年之后,AIOps才被正式命名为“智能运维”,即以大数据为基础,以人工智能为引擎,替代传统基于规则的IT运维模式。

玩转“告警”的睿象云

“也是在2016年前后,睿象云开始关注AIOps。或者说,睿象云开始关注告警数据沉淀,并基于数据训练模型算法,以提升IT运维效率。”高科是睿象云公司联合创始人,回溯此段经历并非在刻画公司的资历,而是引出了睿象云的技术路线图。

2015年9月,OneAlert 1.0系统上线,这是睿象云Cloud Alert平台的前身,也是国内第一个告警管理SaaS服务平台。而此后的4年中,睿象云已逐步接入了5000家企业的2.3亿条原始告警数据,并通过过滤、甄别、合并,对其中230万条告警数据进行人工标注,并尝试了20余种人工智能算法,而这才有了今天Cloud Alert的智能降噪、分类和新奇事件发现等功能。应了那句话:有多少人工,就有多少智能!

 

0015db6587aa868f5d37d446eb9db44

图1. 睿象云智能告警平台发展线路图

当然,这也成为睿象云不可复制的能力。有何价值?传统固定阈值触发告警的模式,只是报警的“搬运工”,完全不经过大脑分析,这必然会频繁诱发告警错报、漏报、告警风暴等问题。

举例说明,平均每次告警风暴可能产生100~1000条告警,造成运维工程师每天收到2~3万条告警信息。但这其中多数为重复或相关的因果信息,只有不到10条告警需要被重点关注,并触发工单处理。这是什么概念?相当于一分钟之内,工程师要在所有北京马拉松的参赛选手中,迅速找到10位犯规的选手。

不过,这也并非不可能,前提是需通过算法对告警信息进行甄别分类,找到罪魁祸首。“睿象云智能告警平台,可以减少99.6%的告警噪音。”高科始终强调,睿象云是以人工智能赋能告警平台。而如前文所述,“数据+算法”正是睿象云智能告警平台(Cloud Alert)的核心竞争力。

0015db65898efaa42d7e8972d6e49ae

图2. 智能告警平台-智能降噪功能产品界面图

通过2亿条原始告警数据的沉淀,睿象云已训练形成面向自然语言处理的各类人工智能算法模型,而只有通过这些模型,可实现告警信息的分类和聚类、过滤和合并,这才能屏蔽报警风暴,并最终极大提升系统运维响应效率。

琢磨“事件”的睿象云

上述即是玩转“告警”的睿象云,而回到文章开头所述,睿象云为何又在琢磨“事件”,“告警”和“事件”两者间有何区别?而这就是研究“事件”的意义价值,即通过分析事件与告警间的关联,追本溯源地找到系统故障根因,进而可防患于未然。

举例说明。导致发烧的原因,可能是病毒感染,也可能是甲状腺功能亢进,还可能是脑震荡后遗症或食物中毒。医生通过望闻问切,通过血常规检查、X光透视等一系列检查手段,才能最终确定病因,并给出治疗方案。“告警”和“事件”之间的关联,与此极为相似,告警是发烧,而事件就是白细胞、红细胞等一系列表征指标。

当然,以技术维度区别“告警”和“事件”,两者间还另存在明显差异。告警是结果状态,事件是过程状态;告警属于异常状态的描述,事件属于状态变化或不变的显示,事件可能会触发告警,但也可能并不触发。

也就是说,告警平台虽然处理了海量数据,但仍不能与“事件”数据量同日而语,而且寻找事件与事件、事件与告警之间关联的蛛丝马迹,就更需要将数据提纯可视化,更需要依赖于算法。

按图索骥的的睿象云

当然,在茫茫的事件海洋中寻找相关性,是一件非常挑战的事情,能不能给这个寻找的过程提供一张全景的地图呢?2019年10月,睿象云正式发布国内第一个中文运维知识图谱(COKG),这是睿象云团队历时18个月完成的第一阶段工作,这也是“智能事件平台”的基石。

0015db65898e16be1a59244218d470b

图3. COKG中文运维知识图谱模型

其实早在2012年,Google就已提出“知识图谱”概念,而睿象云首次将此概念沿用到IT运维领域,以显示IT系统中,不同实体的属性和实体之间的关联。其价值相当于 IT系统的血缘图谱。

“目前,睿象云中文运维知识图谱首期,已发布30万个实体,明确了400万个逻辑关系。”高科说进一步阐述了“知识图谱”的价值:“我们将企业特有IT知识,以及通用IT知识,都沉淀到运维知识图谱中来。”

可如此比喻,心、肝、脾、胃、肾可对应IT系统中CPU、中间件、交换机等实体,而且每一产品的不同型号,都是实体的属性之一。知识图谱则相当于IT系统的“病理库”。发烧引起的各实体指标表征变化,以及用药的最佳实践,都将沉淀在“病理库”之中。而这将极大地提升事件处理效率,保证业务运行更加可靠。

举例说明,系统响应时间从2秒增长到4秒,不一定会触发报警,但一定是过程事件。而影响系统响应时间的因素,可能是系统访问并发增加、代码变更升级,也可能软硬件不兼容、存储设备写满溢出,还可能是DDoS攻击、0Day漏洞攻击等。这就需要以NLP算法和知识图谱,按图索骥地提升判断异常事件的精准性,并降低运维工作中对专家型人才的依赖。

0015db658992621a9d0e827fc25e33e

图4. 以事件和知识为中心,打造智能运维体系闭环

贴近业务的的睿象云

不仅如此,以知识图谱为基石“智能事件平台”,价值已远超出IT运维范畴,其作用进而延伸到安全,以及业务分析维度。举例说明,系统恶意访问,往往披上合法合理的外衣,也不一定会触发报警,但一定属于典型的安全事件。而通过“智能事件平台”则可迅速判明性质,并通知管理员锁定攻击源头。

当然,再转变另一维度,智能事件平台的想象空间则更大。针对事件的研究,可帮助睿象云融入应用场景。通过指纹锁沉淀的事件数据,可以分析员工的工作习惯;通过景区闸口沉淀的游客事件数据,可以实时调度摆渡车资源;而基于业务访问并发的监控,可实时以最佳节奏,弹性扩展IT资源。

0015db658990f4e2bd32e71d346422e

图5. 睿象云“两纵一横”产品生态蓝图

由此可见,玩转“告警”的睿象云,又在琢磨“事件”。其是在帮助用户追本溯源,找到系统故障根因,进而防患于未然;其也是在帮助用户形成知识沉淀,降低运维难度,降低对运维专家的依赖。

而在此过程之后,睿象云对“事件”的研究,也必将推动安全系统与IT架构的融合,IT架构与业务系统的融合。“由此,智能运维将实现与智能运营融合,智能运维也将在企业数字化转型中,发挥更大的价值作用。”高科最后说。