波音737 MAX 上的告警风暴

早早发表于:2019年11月11日 16:02:39更新于:2019年11月11日 16:11:06

前言:2019年9月26日,美国国家运输安全委员会发布首份波音737 MAX 系列客机事故调查报告,认为波音公司曾忽视了驾驶舱警报系统的运作时间等问题,建议美国联邦航空管理局对波音737 MAX 机型的驾驶舱警报系统进行评估。

美国国家运输安全委员会认为,驾驶舱警报系统的混乱可能导致飞机驾驶员反应迟缓。波音公司此前忽视了这一系统的运作时间问题,造成飞行员可能在同一时间内收到多重警报,无法正常判断和做出反应。而波音公司原本应该“更清楚、更简明地告知飞行员,在同一时间收到多个警报时,应该用什么顺序去处理这些警报。”因此,波音公司可能需要对飞机的警报系统、驾驶员操作程序以及训练系统等都进行调整。

前段时间发生了一件事情,那就是美国发布了首份波音737 MAX 调查报告,这份报告将事故肇因锁定在了“波音公司曾忽视驾驶舱警报系统问题”这一关键事件上。

0015dc9148063804f8f499628b76f59

正所谓大风起于青萍之末,警报的发生必须引起第一时间的注意。只有及时发现,妥善处理,才能称得上是应对危机的应有表现。

然而文章中却遗憾引述道:

“飞行员可能在同一时间内收到多重警报。”

“无法正常判断和做出反应。”

在红灯亮起,满舱喧闹的情况下,唯一该对此作出有效反应的飞行员,却是手足无措,思绪如麻。

灾难便只能如大厦将倾般不可挽回地发生了。

0015dc91492ce4a28337e0530445313救援人员在埃塞俄比亚坠机现场

正如体量庞大,事件繁浩的企业 IT 系统。其结构环环相扣,一旦发生任何小小的 IT 问题,便会牵一而动万千,引起多米诺骨牌式的连锁反应,进而造成难以挽回的巨大损失。

人们为了预防这些零星却致命的事故发生,便启用了占据大量人力资源的运维团队,消耗海量的时间与精力去层层提防,处处看护,唯求“天下”不乱。

然而智者千虑必有一失,再精良的运维人员,也有马失前蹄之时。

只有毫无纰漏的机器思维,方能抛却人类具有的杂念,化纷繁于极简,无限接近于0失误去处理复杂事件。

0015dc914a331601e5eea5c7f19b8f0

2017年5月28日,“中国围棋第一人”柯洁迎战谷歌公司的人工智能棋手“阿法狗( AlphaGo )”,最终以三局全负的结果彻底败退,这让广大围观群众第一次清晰而具体地见识到了人工智能的威力。

时任中国围棋协会副主席的聂卫平更是断言:

“人工智能的运算能力远远不是人类能够匹及的。”

而运维界早已认识到人工智能威力的仁人志士们,早早便提出了一个先进的理念 —“智能化运维(Artificial Intelligence for IT Operations,简称 AIOps )”

旨在以人工智能算法,代替传统运维,实现全自动的“智能化运维”。

有了这样的运维方式,万千繁杂不过小小云烟,三两运转即可抵挡千般疑难。

而睿象云即是这样一家,以打造“智能化运维”为己任,致力于让运维更加轻松高效的公司。

0015dc914b45480ea4950af6c7554e1

在如今人工智能飞速发展的中国,优秀的新兴产品不断问世,其中,睿象云倾力打造的匠心产品——智能告警平台( Cloud Alert ,以下简称 CA 平台),便是众多告警平台中的佼佼者。

在这场波音737 MAX 事故中,如果早些接入我们的 CA 平台,妥善管理,则完全可以防患于未然,彻底在事故发生之前解决这场危机。

我们将“波音事故”的官方报告稍作总结,发现了产生事故的三个重大原因:

1.驾驶舱警报系统突发混乱,直接导致飞机驾驶员反应迟缓;

2.飞行员在同一时间收到多重警报,无法正常应对危机情况;

3. 警报未能得到有效回应,事态持续扩大,最终失控。


驾驶舱警报系统混乱

产生混乱的原因,往往是因为突发的告警繁多,不同监控环境同时产生大量问题,一时红灯频闪,让人手足无措。

CA 平台秉承着轻松接入,智能管理的原则,提供跨多家公有云的告警实时接入,同时支持 Zabbix 、Nagios 、Cacti 、Solarwinds 、Prometheus 等主流监控工具对接,实现对不同厂商,不同工具接入的告警集中管理,快速定位问题根源。

可以说,监控告警的及时、准确、稳定,对系统环境平稳运行起着至关重要的作用。

只有去除告警紊乱,才能避免系统混乱,从而保证“天下不乱”。


飞行员同一时间收到多重警报

多重警报扑面而来的场面,往往都是运维监控人员的噩梦。当系统在短时间内产生大量告警时,就会出现可怕的“告警风暴”,致使处理者不能有效地解决问题。

而 CA 平台会自动基于时间序列,将相同的事件/告警压缩,达到自动去重的目的,然后将相似、同源告警再次进行规则压缩,再通过我们海量的算法积累进行智能降噪。

使得最终呈现的报警有序而简洁,避免多重警报,一眼洞察难疑。

因此,无论是庞大系统中浩若烟海的突发警报,抑或是巨型机器里纷乱繁杂的运行错误,不会再有过往场景中,每一级别的人员都惊慌四起,面对眼前的告警心急如焚却又手足无措的情况。

持有 CA 平台,只需冷静面对井然有序的告警信息,有条不紊地分门别类,按需处理即可。

大江河海奔腾来,皆化三千小涓流。


警报未能得到有效回应

警报未能得到有效回应。要么是接受消息的人员认为问题无足轻重,予以忽视、要么是通知消息接收人未能察觉,根本没有达到有效传达,导致事态愈演愈烈,形成事故。

就像我们在国际大片上经常会看到的经典桥段 — “一个重要的消息发送至主角的手机里,他的精力却关注在眼前的“佳人”上,导致重要消息遭到忽视,事态继续升级,不消一会儿,便引发了‘危机’。”

0015dc914c651cb73ed04cdd7eb9b97

电影桥段只为博君一乐,然而在现实生活中,忽视重要告警会产生类似“波音事故”这样真正的危机,带来巨大的经济损失以及人员伤亡。

因此,CA 平台特地开发了独特的分派策略功能,首先,告警通知会通过多种方式发送,在短信、邮件此等普通传达之外,还会进一步发送至你的社交 App ——如微信,钉钉等,甚至拨打你本人电话。确保接收者能查收告警。

CA 平台还能区分工作时间段,告警只会发送给正在值班的人员,确保接受者处于能够第一时间高效处理问题的状态,智能通知,使命必达。

为保万无一失,CA 平台还具备逐级通知功能。当第一级通知人未能做出有效回应时,系统会自动下达通知到上一级,直至最高级别的传达人。

在“波音事故”中,如果一线技术人员不对这个警告做出有效处理,那么报警便会层层传递。

我们可以想象,当告警消息传达至机长本人后,他断然不会无视这样的紧急情况,势必会立即安排具体措施,妥善处理相关故障。


话止于此,CA 平台如何通过自己的先进方式去预防这三类事故起因的工作机制也已讲述完毕。

作为业内领先的智能化运维服务商,我们现在所做的事情真的很酷,酷到可以避免“波音事故”这样的悲剧发生,酷到可以解放万千 IT 运维人员的辛劳,酷到可以达成人工智能自动化运维这一终极目标。

我们虽未名满天下,仍尚在奔跑之中。但我们始终秉承着一颗匠心,持续不断地在专研迭代产品,目前的优势便已可圈可点,至少在上述阐述中,已经展现地淋漓尽致。

没有名气不代表没有实力,我们的能力可以撑起一片天地。

就像当初扬言要打造“中国黄页”的 Jack ma 一样。

0015dc914d79aafe8a2170558ac5757

0015dc914dbed205a1ee25a6a04e038

《书生马云》纪录片截图

当他谈论到可以将整个中国的商品信息录入网上,提供给全球各地的人们购买之时。

人们也是说他“口号喊得震天响”,即使他当时的阿里巴巴网站已经表现出了不俗的实力。

就像今天,睿象云的实力也已初具规模,而我们的理想也同样伟大。

我相信,有朝一日,波音公司会前来与睿象云洽谈,希望接入我们的先进系统,为他们提供智能化运维服务。

我相信,这一天一定会到来,就在不久后的将来。

本文由“睿象云”原创,转载请注明来源。