这次疫情让我们看到了在线服务的重要性,与此同时,企业对服务中断的响应效率也变得比以往任何时候都更加重要。尽可能地缩短停机时间,不断提升客户的服务体验,已成为企业保持核心竞争力的关键。
Computing Research 采访了150名员工人数超500人的企业 IT 决策者,针对企业数字化转型速度,事件响应处理,以及采用自动化事件响应的意愿三方面进行了调研。此次调研涉及行业广泛,公共和私营领域兼顾,超三分之一的调查对象为IT总监或以上级别人士,近一半为经理级别。参与调研的组织机构,其经营范围涵盖零售和批发、运输和物流、媒体、采矿、工程、建筑、农业、制造、商业、法律、教育和金融。
调研结果显示,身处新冠疫情风暴之中,确保 IT 系统平稳有效地运行从未如此这般重要。出现问题时,企业需要采取及时有效的响应。而且这种响应需要以所有制文化为基础,实现高度的组织化和自动化,这样故障处理过程才能转化为运维经验,运维经验才能转化为管理最佳实践。疫情防控常态化下的商业竞争中,面对一直虎视眈眈想要抢夺市场空间和客户的竞争对手,我们的企业需要反应更加敏捷,才能保持竞争优势。
主要发现
绝大多数企业都加快了其数字化转型的计划。2020年后未做改变的机构相对较少。
图 1:Covid-19是否使您的企业加速了数字化服务交付?
21%的调查对象表示,他们在很大程度上加快了数字化服务交付,57%的调查对象正在适度加快步伐。这意味着,新冠疫情迫使大部分企业加快了数字化转型速度。
图2:下列哪项最符合您的企业在数字运营进程中的定位?
事件响应
图3:在故障发生时(不考虑优先级),以下哪些团队可能会参与解决?
不可否认,这是一项团队工作,分别涉及从开发到运维再到安全,服务台,网络,应用管理和云计算等各部门,所有这些部门都要发挥作用。 因此,协作至关重要。
图4 :当中断或问题发生时,如何协作应对?
很显然,在应对任何故障时,都需要大量的组织工作。我们的调查对象在对故障的反应上有相当大的差异。其中四分之一有自动化响应能力,会提醒合适的团队去处理。大约40%的企业(占比最大)由一位集中管理人员决定谁来做出响应。还有20%的机构在做出响应前先在团队间进行讨论,这意味着在领导层面上的某种真空,并有可能就谁应该对该问题负责而产生浪费时间的争论,这绝不是一种人人都会做出的选择。令人担忧的是,15%的机构形容自己是“临时”做出响应,有可能是一种匆匆做出的无组织的响应。
图 5a : 解决高优先级问题(如中断问题)需要多长时间?
图 5b : 解决低优先级事件(如网站延迟)需要多长时间?
至于解决高优先级问题(如中断)所需的时间,47%(将近一半)的机构会在一小时或更短的时间内解决。相比之下,只有不到1%的机构分别会在5分钟内和超过一天的时间内解决。令人担忧的是,23%的机构解决一个严重问题会花费数小时。上面两个图的数据间有很强的相关性应该不足为奇:对问题缺乏有组织的响应的企业解决问题的时间最长。这一点很重要。IT部门解决中断问题以及修复影响客户体验的小问题的时间直接关系到竞争优势。
有效地组织对问题的响应,鼓励个人和团队承担对相应问题和该问题解决方案的责任,这样做会带来竞争优势。相反,如果不这样做则会导致员工时间的浪费,有可能形成一种无人负责的指责文化,对员工的士气产生负面影响(要知道在我们现在所处的个体关联松散的世界中,维持这份士气已经变得愈发具有挑战性),对系统和数字体验的改进变慢,并且很容易使业务流失到竞争对手那里。
解决告警疲劳问题
优化事件响应的一种方式是自动化。这里,我们的研究发现表明,人们对自动化表现出了由衷的肯定态度,绝大多数调查对象认为自动化可以解决告警疲劳这个问题。
图6:在1-7的级别范围内,1代表“完全没有”,7代表“非常大”,您认为自动化对解决告警疲劳有多大帮助?
毫无疑问,告警疲劳是一个非常普遍的问题。当被要求就该问题进行1到7的级别评分时(其中1代表“完全没有”,7代表“非常大”),超过三分之一(35%)的调查对象打分为6或7。还有三分之一(37%)的调查对象打了5分。
图7:在1-7的级别范围内,1代表“完全没有”,7代表“非常大”
您的IT团队在多大程度上受到“告警疲劳”的困扰?
自动化能帮助解决警报疲劳吗?
大多数企业至少已经朝着这个方向发展了,服务请求和工单流程管理在很大程度上实现了自动化。其他流程,如变更请求和资产管理等重要领域,通常也已经自动化了。相比之下,资产管理作为自动化程度最低的IT工作流程落在了最后。
如果看一下是什么在阻碍机构进一步提高自动化,会发现有一系列的因素,其中最显著的因素是缺乏时间:大约54%的机构计划进一步提高自动化,但到目前为止尚未实现。其他明显的障碍包括复杂的工作流程,复杂的环境和工作流程带来的困难,以及对自动化可能会抹去个人责任的担心。18%的机构认为进一步的自动化成本太高。
图8:以下哪些IT工作流程/过程是自动化的?
图9 : 对于贵公司没有采用自动化的任何实例,主要原因是什么?
因此,人们对自动化能解决告警疲劳持高度的乐观主义,但这种乐观主义被现实世界的限制和担忧中和了。总的来说,调查结果表明,将时间投入其中是非常值得的:企业有望通过减少告警疲劳,更快地解决问题,从而使维护人员变得更开心,也使企业自身变得更加敏捷、更有竞争力。
评估成熟度
有效响应与DevOps 采用之间的相关性
在图2中,我们展示了调查对象在一个理想化的数字运营进程中如何定位自己,类型涵盖从能够在中断和问题发生前做出预测的最佳“预防型”组,到在问题出现时才处理的反应型组。预防型的机构数量最少,不到3%,并不奇怪。
我们还询问了调查对象其机构在采用 DevOps 方面的情况。我们发现此处有一项显著的关联:“主动型”和“预防型”组,即对停机和故障有最高程度的组织化和优化响应的小组,往往在DevOps 的道路上走得更远。
图 10a:以下哪项最能描述您的企业在 DevOps 转型进程中的进度?
图 10b:与事件响应相关联的 DevOps 成熟度
结论
各组织机构开始展望2021年,甚至更远。快速适应不断变化的时代是一个永恒的话题,今年让企业全面拥抱大规模远程工作和数字化转型进一步提速,强化了“不适应就淘汰 "的需要,并揭示了机构在这一过程中面临的关键挑战。
应对停机事故和改良用户体验现在已经成为拥有强大数字化生态的一个组成部分,由于涉及许多复杂的系统,企业需要一种责任制文化对IT问题进行快速的响应。
尽管有许多来自跨组织团队的人参与到事件响应中,但这并不代表完美的处理水平。一些事故的响应时间仍然太慢,而且存在混乱和争论,不清楚问题发生时谁是合适的处理团队。
随着数字化服务的上线,事件响应的管理只会越来越重要。管理告警的解决方案之一是自动化。这是一种提高响应能力,帮助团队解决告警疲劳,从而最大程度缩短停机时间的方式。今年的情况已经表明,随着数字化转型的进程的加速,企业如何有效管理重要事件响应的挑战只会越来越重要。
本文译自 Computing Research 的 研究报告
关于睿象云
睿象云是一家全球领先的智能运维平台厂商,创始团队始终秉承 “让开发运维工作变得更加高效” 的使命,专注于为企业提供更加智能、全面的跨云监控和事件管理平台。
睿象云团队致力于运用便捷的集成方式,精准的智能算法,及完善的分派响应机制,为企业搭建灵活、统一的运维管理平台,实现云环境下所有 IT 指标和事件信息的汇聚、处理、分派以及智能分析。从而帮助业务运维团队更加快速的掌握业务健康状况,甄别运维问题,判定故障根因,建立知识图谱,最终全面提升企业的IT运维能力,降低运营成本和风险,创造更加优质的用户体验。
Cloud Alert 是国内首个 SaaS 智能告警管理平台,能够帮助您快速接入监控工具的告警,集中到同一个平台统一管理,自动去重降噪,帮助运维从海量告警中识别重要告警,聚焦处理核心问题,更快解决告警,让业务更可靠。