停机不必人人负责:创建一种IT问题责任制文化

早早发表于:2021年07月29日 10:12:19

引言

 

新型冠状病毒的大流行是人类历史上一次前所未有的经历。尽管大流行病并不新鲜,但这次流行病发生在2020年,这是一个生活和工作都离不开数字化服务的时代。为躲避正在蔓延的疫情,人们将工作和生活转移到了互联网上,因此我们的企业不得不尽快进行调整,转向全面拥抱数字化平台。

这次疫情让我们看到了在线服务的重要性,与此同时,企业对服务中断的响应效率也变得比以往任何时候都更加重要。尽可能地缩短停机时间,不断提升客户的服务体验,已成为企业保持核心竞争力的关键。

Computing Research采访了150名员工人数超500人的企业IT决策者,针对企业数字化转型速度,事件响应处理,以及采用自动化事件响应的意愿三方面进行了调研。此次调研涉及行业广泛,公共和私营领域兼顾,超三分之一的调查对象为IT总监或以上级别人士,近一半为经理级别。参与调研的组织机构,其经营范围涵盖零售和批发、运输和物流、媒体、采矿、工程、建筑、农业、制造、商业、法律、教育和金融。

调研结果显示,身处新冠疫情风暴之中,确保IT系统平稳有效地运行从未如此这般重要。出现问题时,企业需要采取及时有效的响应。而且这种响应需要以所有制文化为基础,实现高度的组织化和自动化,这样故障处理过程才能转化为运维经验,运维经验才能转化为管理最佳实践。疫情防控常态化下的商业竞争中,面对一直虎视眈眈想要抢夺市场空间和客户的竞争对手,我们的企业需要反应更加敏捷,才能保持竞争优势。

主要发现

• 78%的企业指出他们提供数字服务的速度已经加快。

• 72%的企业在一小时内解决P1事件,但45%的企业需要几天时间解决不太紧急的影响客户事件,如网站访问延迟。

• 74%的企业在处理问题时将自己描述为“反应型”“响应型”。只有23%的企业是主动型”

• 通常会有多达7个独立团队参与事件响应。

• 只有25%的企业有事件的自动响应能力

• 告警疲劳是一个严重问题,绝大多数企业认为解决这个问题的关键是自动化。

• 事件响应的复杂性和成熟度与DevOps的采用直接相关。

新冠疫情对数字化转型的影响

新冠疫情如何影响数字化转型速度?

 

绝大多数企业都加快了其数字化转型的计划。2020年后未做改变的机构相对较少。

 

 1Covid-19是否使您的企业加速了数字化服务交付?

image.png

21%的调查对象表示,他们在很大程度上加快了数字化服务交付,57%的调查对象正在适度加快步伐。这意味着,新冠疫情迫使大部分企业加快了数字化转型速度。

2:下列哪项最符合您的企业在数字运营进程中的定位?

image.png

数字化和云迁移通常相伴相随,对多数机构来说这会导致少量中断状况和问题的出现。业务中断被定义为彻底失灵,问题被定义为相对不严重的故障,如网站访问延迟。

 

这项调查要求访问对象对自己的企业在数字运营进程中的状态予以定位,结果显示各企业在数字化成熟度上的表现差异很大。 占比最大(43%,将近一半)的是“响应型”,他们对问题及应对问题的响应进行了明确定义;将近三分之一(31%)是“反应型”,在问题突显时才做出响应。 大约 23% 是主动型,具有自动化的跨团队响应能力;而极少数是“预防型”,会在问题发生前进行预测。

事件响应

关于事件响应处理(不考虑严重程度),《Computing》的研究发现这并不是一个简单的过程。 多个团队和多项技能都会被包含其中。

在故障响应中的协作是必不可少的,调查显示至少7个团队或个人会参与其中。

 

3:在故障发生时(不考虑优先级),以下哪些团队可能会参与解决?

image.png

不可否认,这是一项团队工作,分别涉及从开发到运维再到安全,服务台,网络,应用管理和云计算等各部门,所有这些部门都要发挥作用。 因此,协作至关重要。

image.png

很显然,在应对任何故障时,都需要大量的组织工作。我们的调查对象在对故障的反应上有相当大的差异。其中四分之一有自动化响应能力,会提醒合适的团队去处理。大约40%的企业(占比最大)由一位集中管理人员决定谁来做出响应。还有20%的机构在做出响应前先在团队间进行讨论,这意味着在领导层面上的某种真空,并有可能就谁应该对该问题负责而产生浪费时间的争论,这绝不是一种人人都会做出的选择。令人担忧的是,15%的机构形容自己是“临时”做出响应,有可能是一种匆匆做出的无组织的响应。

image.png

至于解决高优先级问题(如中断)所需的时间,47%(将近一半)的机构会在一小时或更短的时间内解决。相比之下,只有不到1%的机构分别会在5分钟内和超过一天的时间内解决。令人担忧的是,23%的机构解决一个严重问题会花费数小时。

像网站延迟这类不太严重的问题明显需要更多的时间来处理。44%(近一半)的机构可能需要几个小时,而45%的机构可能需要几天才能解决。大约10%的机构需要几周时间来解决,而2%的机构需要经过更长的时间后才会引起对这类问题的关注。

上面两个图的数据间有很强的相关性应该不足为奇:对问题缺乏有组织的响应的企业解决问题的时间最长。这一点很重要。IT部门解决中断问题以及修复影响客户体验的小问题的时间直接关系到竞争优势。

有效地组织对问题的响应,鼓励个人和团队承担对相应问题和该问题解决方案的责任,这样做会带来竞争优势。相反,如果不这样做则会导致员工时间的浪费,有可能形成一种无人负责的指责文化,对员工的士气产生负面影响(要知道在我们现在所处的个体关联松散的世界中,维持这份士气已经变得愈发具有挑战性),对系统和数字体验的改进变慢,并且很容易使业务流失到竞争对手那里。

解决告警疲劳问题

优化事件响应的一种方式是自动化。这里,我们的研究发现表明,人们对自动化表现出了由衷的肯定态度,绝大多数调查对象认为自动化可以解决告警疲劳这个问题。

image.png

毫无疑问,告警疲劳是一个非常普遍的问题。当被要求就该问题进行1到7的级别评分时(其中1代表“完全没有”,7代表“非常大”),超过三分之一(35%)的调查对象打分为6或7。还有三分之一(37%)的调查对象打了5分。

image.png

自动化能帮助解决警报疲劳吗?

大多数企业至少已经朝着这个方向发展了,服务请求和工单流程管理在很大程度上实现了自动化。其他流程,如变更请求和资产管理等重要领域,通常也已经自动化了。相比之下,资产管理作为自动化程度最低的IT工作流程落在了最后。

如果看一下是什么在阻碍机构进一步提高自动化,会发现有一系列的因素,其中最显著的因素是缺乏时间:大约54%的机构计划进一步提高自动化,但到目前为止尚未实现。其他明显的障碍包括复杂的工作流程,复杂的环境和工作流程带来的困难,以及对自动化可能会抹去个人责任的担心。18%的机构认为进一步的自动化成本太高。


image.png

因此,人们对自动化能解决告警疲劳持高度的乐观主义,但这种乐观主义被现实世界的限制和担忧中和了。总的来说,调查结果表明,将时间投入其中是非常值得的:企业有望通过减少告警疲劳,更快地解决问题,从而使维护人员变得更开心,也使企业自身变得更加敏捷、更有竞争力。

 

评估成熟度:有效响应与 DevOps 采用之间的相关性

在图2中,我们展示了调查对象在一个理想化的数字运营进程中如何定位自己,类型涵盖从能够在中断和问题发生前做出预测的最佳“预防型”组,到在问题出现时才处理的反应型组。预防型的机构数量最少,不到3%,并不奇怪。

我们还询问了调查对象其机构在采用DevOps方面的情况。我们发现此处有一项显著的关联:“主动型”和 “预防型”组,即对停机和故障有最高程度的组织化和优化响应的小组,往往在DevOps的道路上走得更远。

image.png

image.png

spacer.gifspacer.gifspacer.gifspacer.gif并不一定是件难事,采用Devops的是那些积极加速开发生命周期的机构。就其本质而言,对Devops的采用涉及将多学科团队聚集在一起,需要不同的工作角色和技能组合,追求的是一个总体目标。Devops培养合作精神,使企业从错误中不断学习,鼓励一种问题责任制文化。



 

结论

各组织机构开始展望2021年,甚至更远。快速适应不断变化的时代是一个永恒的话题,今年让企业全面拥抱大规模远程工作和数字化转型进一步提速,强化了“不适应就淘汰 "的需要,并揭示了机构在这一过程中面临的关键挑战。

应对停机事故和改良用户体验现在已经成为拥有强大数字化生态的一个组成部分,由于涉及许多复杂的系统,企业需要一种责任制文化对IT问题进行快速的响应。

尽管有许多来自跨组织团队的人参与到事件响应中,但这并不代表完美的处理水平。一些事故的响应时间仍然太慢,而且存在混乱和争论,不清楚问题发生时谁是合适的处理团队。

随着数字化服务的上线,事件响应的管理只会越来越重要。管理告警的解决方案之一是自动化。这是一种提高响应能力,帮助团队解决告警疲劳,从而最大程度缩短停机时间的方式。

今年的情况已经表明,随着数字化转型的进程的加速,企业如何有效管理重要事件响应的挑战只会越来越重要。

关于睿象云

 

睿象云是一家全球领先的智能运维平台厂商,创始团队始终秉承 “让开发运维工作变得更加高效” 的使命,专注于为企业提供更加智能、全面的跨云监控和事件管理平台。

睿象云团队致力于运用便捷的集成方式,精准的智能算法,及完善的分派响应机制,为企业搭建灵活、统一的运维管理平台,实现云环境下所有 IT 指标和事件信息的汇聚、处理、分派以及智能分析。从而帮助业务运维团队更加快速的掌握业务健康状况,甄别运维问题,判定故障根因,建立知识图谱,最终全面提升企业的IT运维能力,降低运营成本和风险,创造更加优质的用户体验。

Cloud Alert是国内首个SaaS智能告警管理平台,能够帮助您快速接入监控工具的告警,集中到同一个平台统一管理,自动去重降噪,帮助运维从海量告警中识别重要告警,聚焦处理核心问题,更快解决告警,让业务更可靠。

想了解更多? 访问 aiops.com 即刻申请 21 天免费试用版,了解睿象云如何帮助您改进事件管理流程。