行业洞察系列 - 选择一个事件管理平台的八大要素

早早发表于:2021年07月29日 09:53:10


自动化事件管理对一家企业来说有多重要?

在今天,对一家企业而言仅仅几分钟的业务故障就可能导致数百名客户的流失,负面客户情绪的激增,甚至数万元的收入损失。 这就要求您企业的 IT 团队在维护和管理云及本地 IT 基础设施、应用程序、API 、容器的同时,以近实时的效率完成系统升级和产品迭代,来应对不断变化的客户需求。与此同时,IT 团队还需要将传统 IT 服务管理 (ITSM) 模型与敏捷开发、DevOps 和 SRE 最佳实践相结合,以确保 IT 系统的不间断运行。

在帮助企业加速事件管理效率方面,有许多工具和解决方案可供选择,并且它们都具有不同的功能特性。为了保持企业的竞争力,在众多工具和方案中选择一个合适的事件管理平台就变得尤为重要。这将帮助企业在业务出现问题时,通过实时的故障可观察和完整的上下文信息,在最短时间内修复问题,恢复业务。

一个理想的事件管理平台应该具备以下特征:

• 帮助您减少故障时间,预防故障出现

• 能适应工作中出现的非线性或临时性流程需要

• 为IT团队提供运营、系统和基础设施健康状况等维度的态势

• 帮助您的团队提供可靠的产品给最终用户

 

 

这本白皮书总结了企业在选择事件管理平台时需要重点关注的八大问题:

1. 事件管理平台是否7*24小时可用?

2. 事件管理平台如何进行更新升级,更新频度如何?

3. 事件管理平台是否提供基于服务(service-based)的管理配置能力,满足业务和企业管理灵活性的需要?

4. 事件管理平台是否提供灵活多样的使用环境,满足不同工作场景需要?

5. 事件管理平台是否可以帮助您实时了解突发事件和应用的运行状况?

6. 事件管理平台是否提供噪音过滤,以便团队可以专注于关键信息?

7. 事件管理平台社区的活跃度如何?

8. 事件管理平台是否提供更多的信息洞察和态势感知能力?

 

的业务出现故障时,您的事件管理平台是否仍在正常运行?

选择的事件管理平台是否还有维护窗口期呢

我们的客户希望能够随时随地操作自己的银行帐户,在线上进行商品采购,以及启用叫车服务。这就意味着您的企业必须确保您的数字业务服务随时可用,否则您可能会面临流失客户和收入的风险。

正是有了这些期望,传统的业务系统维护窗口已成为了过去时。云架构、容器和 SaaS 的兴起带来了更多的灵活性和创新性,大多数现代企业已经接受了 DevOps 文化和敏捷开发,他们要么已经取消了系统维护窗口,要么正在逐步淘汰它们。

一个优秀的事件管理平台应该积极拥抱和采用这种新的敏捷工作方式。如果您的事件管理平台服务商在系统维护窗口期内发生中断,会出现什么情况呢?通常,这意味着您的团队可能错过关键告警,停机时间的延长、营业收入的损失和客户的不满。

最佳实践

选择一家已经淘汰维护窗口的事件管理平台服务商,以确保您不会错任何告警

 

SLA 透明度的重要性

说起告警,您选择的用于电话通知的事件管理平台也需要对其自身的故障信息提供透明度。公开平台的安全性和可靠性保障措施,应该是任何一家事件管理平台服务商的首要职责。这样可以帮助您更多的了解服务商对平台安全性和可靠性的重视程度。

首先,您需要寻找一家明确了SLA (服务级别协议)的平台服务供应商。SLA 是服务供应商和客户之间关于所提供服务的承诺和期望的协议,它应该易于理解。供应商使用模糊语言或将 SLA 变得复杂,可能会导致各方对预期结果带来更多的不确定性。 

此外,您应该向您的平台服务商索要平台运行维护记录。您可以确认的问题包括:他们是否有信息公开页面提供平台运行状态?他们是否在社交媒体上发布

他们的平台运维信息,以便大家可以及时了解相关信息?他们是否会公开他们解决客户使用问题的过程?

通过了解上述问题有助于您全面了解您潜在的平台服务商的状态,并清楚了解他们如何解决问题,以及不断改进后端服务的处理流程。 

最佳实践

确保您的事件管理平台服务商提供非常清晰和全面的 SLA,以确保承诺的服务就是交付的服务。

 

平台服务商是否进行了 API 限流?

为了提升响应突发事件的有效性,您需要确保您的事件管理平台可以接收和处理所有事件或告警。由于当今每个企业都在向数字企业转型,并且支撑企业技术服务的复杂性不断增加,因此 IT 系统将创建越来越多的事件或告警。这就意味着告警风暴将是一种常态。

随着所有这些告警的出现,企业不仅需要掌握每天发送接收多少告警和多少次 API 调用,还需要收集更多、更全面的信息,包括他们应该关注哪些告警,以及查询告警完整的上下文信息,以便正确评估故障的严重性和对业务的影响。

这就要求您选择的事件管理平台必须能动态将 API 调用的支撑能力扩展10倍以上。一个不具备这种扩展能力的平台意味着您可能会错过重要的告警,错失从基础设施运维数据中获取新洞察的机会,以及丢失有助于排除故障和诊断问题

所需的上下文信息。 简而言之,如果您的平台限制了每天的 API 调用次数,您就有可能错过严重影响您业务和客户的重要告警。

最佳实践

确保您的事件管理平台不使用复杂的计算来限制 API 输入。如果这样的话,它是在保护自己,而不是您的利益。

 

事件相关人员及时沟通的重要性

当发生影响业务和客户的重大事件时,运维人员并不是唯一需要采取行动的人。整个企业的其他相关团队,包括技术和非技术人员,也需要参与进来。

这些“二级责任人”需要了解故障解决进度的最新情况,以便他们可以采取行动来降低业务影响。从事对接客户工作的服务人员,他们需要了解故障将如何影响业务,并告知他们与客户的沟通方法和内容。一个优秀的事件管理平台应该提供多种通信和协作方式,帮助运维团队与其他相关人员更加方便的进行事件信息的同步和协作。

例如,向故障相关人员发送一条特定语音或文本通知,就是一种让他们了解相关情况的方式。如果故障相关人员不是率先从总部收到信息,而是从客户那里听到它,将会是一件多么可怕的事情!在这种情况下,如果有一个实时显示业务服务运行状况的仪表板,就可以帮助员工一目了然地了解系统的当前运行状况,

查看历史上发生的故障,并可以在第一时间了解即将发生的系统变更,如系统维护或升级等。

最佳实践

寻找一个提供多种沟通和协作方式的事件管理平台,方便企业内部相关人员进行及时的信息同步。

 

3 事件管理平台是否支持基于服务的管理方法

您可能在您的企业中设定了一个事件管理流程,来保障运维团队或人员在故障发生时能进行快速的响应和处理。但是,您有没有想过如何优化您的流程呢?

我们看到大量企业使用基于团队/组织的事件管理配置方案,这样做可以快速地创建一个随叫随到的分派策略,并确保团队的每个人都参与事件处理。但是,更高效的事件管理策略不应该是从您团队支撑的业务服务出发吗? 毕竟,业务服务的连续性是最终的保障目标,同时业务服务也远比开发和运维它们的团队更加长寿。企业的组织架构和团队成员不断在变化,唯有业务服务推陈出新,起承转合。

采用基于服务的事件管理配置方案,可以帮助您获得更大的管理灵活性。 例如,如果一个团队的成员随着时间的推移而发生变化(新人加入,老人离开),

而他们支持服务是保持不变的,这意味着每当组织发生变化时,重新构建事件管理流程的时间成本会较少。

 

什么是基于服务的事件管理配置方法?

首先,基于服务的事件管理配置方法需要您确定您的关键业务服务,这些服务是您的产品或应用的不同功能,向客户提供完成某项任务的能力,例如,“登录”、“购物车”和“搜索”都被视为业务服务。

然后,针对每个业务服务要确定支撑该业务的技术服务。理想情况下,每个技术服务在某个时间点都应该只归属一个团队,即使是有多个团队为这个技术服务的长期维护在做贡献。

 

一旦您确定了您的业务服务和支撑它的技术服务,您就可以开展很多有趣的工作。例如,团队可以实时查看整个业务中发生的事情,以更好地了解某个故障是孤立的还是具有广泛的影响性,从而在跨多个团队和服务进行协作时进行更高效的响应。

通过基于服务的事件管理,每个不同的业务服务都直接与影响客户的事件相关联,能够帮助您计算业务中断的真实成本,并将该成本与支撑它的技术服务关联起来。

 

基于服务的事件管理配置方法的好处

• 提高业务可见性,以便更好地了解服务的运行状况,并改进内部流程和提升根本原因分析效率。

• 深入洞察服务趋势,即使是服务仍处在“正常”运行范围,以便识别热点并预测故障发生。

• 能够快速地查看哪个团队支持了哪些服务,而不需要在了解服务状态之前搞清楚多个团队和系统层级之间的关系。

最佳实践

从一开始就使用基于服务的事件管理配置方法来关联您的团队和业务,以更好地了解成本和业务服务的故障风险。

 

4 您的团队可以继续使用他们喜欢的工具吗?

通常,我们会使用大量的应用/工具软件来辅助我们完成工作。在处理突发事件时,我们专注于寻找加强沟通和流程管理的最佳方案,通过应用/工具软件在最大程度上缩短故障响应时间变得至关重要。

您的团队能否在他们熟悉的界面中工作,例如 Jira、钉钉、飞书、企业微信、Slack、Jira 或移动设备? 工作方式的改变是很难的,所以能够保留他们想要/熟悉的方式工作,延用当前的流程,以他们习惯的方式进行沟通是效率最高的选择。另一件要考虑的事情是,故障还经常发生在非工作时间。为了缩短问题处理时间,一个高效的事件管理平台应该能够与不同的第三方应用/工具软件相集成,

以便团队可以随时随地的处理整个事件管理流程。因此,平台提供的集成性很重要,因为它拥有的集成越多,团队就越有可能继续使用他们喜欢的工具。它带来了如下好处:

• 便利性。使用者无需学习新的系统或 UI,从而节省培训时间和成本。

• 高效性。使用者无需在系统之间来回切换以处理不同的任务,这样能更快地响应所有突发事件。

• 准确性。人工操作总是容易出现错误,迫使使用者手动在多个工具中进行操作,容易导致数据不一致和丢失。

• 自动化。确保各类细节数据不被丢失的同步到相关系统,如JIRA中。

 

您的团队是否可以随时随地、灵活地参与事件管理流程的各个环节呢?

集成现有的工具只是能够随时随地处理工作的一个方面。一个理想的事件管理平台应该提供在移动设备上参与事件管理流程的能力。这意味着不仅仅是通过移动设备知道了某个突发事件,还要能在他们的移动设备上创建问题工单,执行响应操作、通知相关人员,运行补救措施(例如重新启动服务器),以及获取解决故障所需的所有相关信息。

最佳实践

为了优化事件管理流程,缩短故障修复时间,选择一个能让团队继续在他们想要/熟悉的工具中工作的平台。

 

平台是否提供了有据可查的 REST API?

一个提供了有据可查的公共 REST API 的事件管理平台,将允许您与任何您需要的监控工具进行集成,以持续提供高性能和高可靠的用户体验,它将更好的适配您的环境,无论是满足现在还是将来的需要。REST API 还允许工程师根据自己的喜好自定义告警、事件行为和工作流。

此外,如果没有公共API,就无法插入或提取对象数据,也无法轻松地满足您对数据和工作流的自定义需求。这些问题可以帮助您确定这一点对您来说是否重要:您现在使用的是什么监控、工单、部署和协作工具?您是否曾经或未来打算使用自定义脚本监控您的环境?

与以往任何时候相比,IT 工具推陈出新的速度都在不断加快,您应该确保您选择的平台能应对这种变化。如果我们的最终目标是提高故障处理效率,那么意味着我们需要建立一个跨越 APM、日志、健康检查、轨迹追踪、错误告警、工单、部署工具等的工具的集中化平台。

最佳实践

选择一个提供详细记录信息 REST API 的平台,将帮助您的团队更加灵活地根据自己的喜好自定义事件处理行为和工作流程。

5 如何自动而非手工的减少告警数量?

运维噪音正以指数级速度增长,每天企业的应用系统中发生着数以百万计的事件,但是您有办法来处理这种噪音吗? 您如何判断这些告警是否需要处理? 通过手工编写复杂规则和异常处理流程只能解决部分问题,但从长远来看这个方法并不可取。

虽然事件数量不断增加,但您仍可能不会投入更多的人; 相反,您的团队还在努力寻找提高解决(和预防)问题效率的办法。 一个理想的事件管理平台应该充分利用机器学习来满足团队对人效比的追求。

告警降噪应该建立在几个关键原则之上:易于使用、平民化访问和机器学习,平台能够提供清晰的洞察力,并随着更多数据的输入而不断改进。

机器学习是一种新的事件管理方法,它使企业可以更轻松地聚合监控数据,自动化流程,抑制噪音,并为团队提供完整的态势感知。 理想情况下,机器学习算法应该能通过学习人机交互行为来提升事件处理的效率。我们可以运用在很多场景中,例如事件聚合、告警抑制、分派路由变更,或建议重新启动服务器之类的自定义操作。

使用机器学习而不是手工规则的优势在于,它只需要更少的设置和手工维护,不必经常创建新规则以适应业务变化。它还可以更准确,因为它考虑了在配置过程中通常容易被忽视的外部因素和人为因素。

最佳实践

选择一个利用机器学习来观察事件处理流程的平台,并将其与系统数据相结合,帮助企业进一步优化事件处理方式,并提供有关如何管理事件的建议。

 

6 平台是否提供对关键应用的突发事件和整体健康状况的实时感知能力?

在发生重大突发事件时,您的团队并没有太多时间从历史事件中挖掘有用的信息。 这就需要事件管理平台能够实时提供应用程序和 IT 基础架构的全面视图,当前突发事件的详细情况,以及过去如何解决类似事件的相关信息。

毕竟,大多数重大突发事件都不是“孤立”的,换句话说,系统不会突然的停止工作。 通常情况下,问题的不断累积最终导致了中断事故的发生,这些不断累积的问题与中断事故一样具有影响力,有助于团队确定事故原因和解决问题所需的资源。一个理想的事件管理平台应当提供引发中断事故的时间进程表,以便您的团队能更好地预防将来发生类似的事故。

最佳实践

一个理想的事件管理平台应该为使用者提供所有突发事件的完整背景信息,以及有助于更快解决问题的历史背景信息。

平台提供商是否有一个 DevOps 社区,使用开源工具构建他们的软件?

一个拥有活跃用户社区的平台服务商是一个拥有不断改进和提升能力的平台服务商。通过这个社区您可以充分利用行业领军者和其他行业的知识,并及时调整和定制解决方案,以最大限度地简化和提升效率。社区还为您提供了一个与他人分享和协作的场所,并获得他人对于工具和流程的反馈。在选择事件管理平台服务商时,您需要寻找:

• 一位业界思想领袖,有着大量的帮助客户进行事件管理的成功经验。

• 确保用户能够在现有平台上,通过 API 进行自定义能力的扩展。

• 积极参与社区的 DevOps 相关活动,并对这样一个由富有创造力和才华的工程师组成的社区做出有意义的贡献。

鼓励社区的发展应该创建一个正式的开发者平台,这远超仅仅提供的基本 API 和有限的文档说明。更具体地说,就是开发人员需要开发方面的支持,例如,高级文档(包括示例),自服务工具,专门的服务对接人员。

开发者平台应提供示例和论坛,社区成员可以在其中相互讨论 API 使用,以更好地简化工作并激发新想法,为创建和维护集成能力的开发人员创建流程。 在下游,用户能够通过正式的社区环境分享、学习和搜索其他用户的成果。这是一个独立的、中立的地方,供用户寻找,安装和阅读每一个应用的评论。

最佳实践

选择一个拥有活跃用户社区的事件管理平台,允许团队协作并鼓励每个人不断贡献知识,迭代流程。 

 

8 能否从数据中获得更多有价值的洞察?

当下,企业需要处理大量的数据,以获取更有价值的业务洞察,例如如何改进运营或提升 IT 基础设施的健康状况? 毕竟,如果你不能充分利用数据,那数据又有什么用呢?

您要选择的事件管理平台应该能帮助您的团队从同行业友商和行业基准数据中学习更多知识。这就意味着事件管理平台应该拥有大量的客户,并且积累了大量的匿名历史数据。通过这些数据能形成更加有效的业务洞察。

 

一个理想的事件管理平台还应该提供:

• 更加简洁明了的记分卡,同时指出需要改进的关键领域,例如告警疲劳或团队成员的工作绩效。

• 服务绩效的复盘,帮助企业了解服务质量和服务风险。并能反映服务之间的相关性,例如,更新数据库时购物车是否总是出现故障?

• 业务绩效的复盘,帮助业务部门领导通过以下问题复盘运营如何影响业务产出?

– 您应该合作,自建还是购买下一个新的功能?

– 维护一个新的功能需要多少成本?

– 您的系统是否能应对更频繁的变更,或是您需要放慢系统的代码升级周期?

– 您是否有足够的资源来处理不断增加的需求,或者您是否必须增加人员来处理更多的突发事件?

 

选择适合您团队的事件管理平台并非一件易事,这很可能会决定您未来是面临更长的停机时间,还是更短的故障恢复时间。

 

 

本文译自Pagerduty的“Choosing an Incident Management Platform”。

 

 

关于睿象云

睿象云是一家全球领先的智能运维平台厂商,创始团队始终秉承 “让开发运维工作变得更加高效” 的使命,专注于为企业提供更加智能、全面的跨云监控和事件管理平台。

睿象云团队致力于运用便捷的集成方式,精准的智能算法,及完善的分派响应机制,为企业搭建灵活、统一的运维管理平台,实现云环境下所有 IT 指标和事件信息的汇聚、处理、分派以及智能分析。从而帮助业务运维团队更加快速的掌握业务健康状况,甄别运维问题,判定故障根因,建立知识图谱,最终全面提升企业的IT运维能力,降低运营成本和风险,创造更加优质的用户体验。

Cloud Alert是国内首个SaaS智能告警管理平台,能够帮助您快速接入监控工具的告警,集中到同一个平台统一管理,自动去重降噪,帮助运维从海量告警中识别重要告警,聚焦处理核心问题,更快解决告警,让业务更可靠。

 

想了解更多? 访问 aiops.com 或申请 21 天免费试用版,了解睿象云如何帮助您改进事件管理流程。