案例|直击传统运维痛点 Cloud Alert 助力上海博泰告警管理变革

早早发表于:2019年04月12日 16:45:44更新于:2019年04月12日 18:24:51

前言

创办于 2009 年的上海博泰是目前亚洲首屈一指的车联网公司。随着博泰的业务规模不断扩大,业务场景的不断创新,系统之间相互关联更加紧密,告警数量也急剧增加,对运维来说是非常大的挑战。

通过 CloudAlert 智能告警平台的全面部署,快速接入各类告警信息,运用人工智能算法,从海量告警数据中挖掘内在关系,明确衍生告警和根源告警,准确定位故障根因。

CZh75WWlVW8822QN.png!thumbnail

客户背景

上海博泰悦臻网络技术服务有限公司(以下简称:博泰)开创了中国的车联网行业,创始人应宜伦被誉为汽车界的乔布斯。博泰是目前亚洲首屈一指的车联网公司,也是行业内少有的可以提供从主动安全、汽车电子、底层汽车软件、智能操作系统、应用软件、国内国际互联网汽车生态、手机互联、通讯运营、HMI 与用户体验、TSP 平台开发与运营服务、云计算、大数据、内容服务集成与运营、地图引擎软件与云端架构、语音嵌入式与云平台解决方案、PAAS 平台、AI、IoT与穿戴式设备的综合车联网服务提供商。

业务诉求

伴随着博泰的飞速发展,业务的不断扩充,应用复杂度的持续增加,博泰希望通过实施一套适应业务和管理成熟度发展规律的科学化告警管理体系,建立规范有序、切实有效的运维机制,从而支撑业务的稳定运行与发展。

  • 告警消息繁杂:在异常大面积发生或关键节点出现异常时,运维团队往往会收到数百条告警,频发的告警噪音会干扰工程师的工作状态,从而忽略有效告警信息,十分不利于问题的快速定位;

  • 通知方式单一:告警信息仅可以通过邮件通知给运维人员,单一的通知方式,对告警的及时处理会产生一定影响;

  • 告警处理效率低下:告警处理主要基于运维人员的经验去判断,很难精确定位根源告警和故障发生点,往往会拖延了处理告警的最佳时期。

部署成果

CloudAlert 助力告警管理新升级

CloudAlert 智能告警平台,利用人工智能算法,深入发掘系统告警内在关联规律,准确定位根源告警,从而实现精准、自动的告警关联、告警压缩、故障定位、分派通知、回溯管理,实现告警事件的全生命周期管理,帮助博泰构建稳定、可靠的业务运维体系。

跨平台告警无缝集成:CloudAlert 几乎支持了国内外所有常用的运维监控工具,其中就包括博泰一直在用的 nagios。在满足其服务水平协议的同时,为内部的运维人员提供了灵活的工作方式;

image.png

  • 智能化告警分析:Cloud Alert利用卷积神经网络和循环神经网络模型,对所有告警消息进行智能关联分析,快速定位故障问题根因,大大缩短了故障排查及恢复时间,帮助运维人员能够快速响应;

V5LWAFQPQzMhzJay.png!thumbnail

  • 多渠道分派处理,通知必达:Cloud Alert提供有序的分派策略和升级机制,将告警直接分派相应人员;然后采用多方式通知,重要的告警可通过短信和电话的方式通知,Cloud Alert保障告警可达率高于99%,将告警送达时间缩短至2分钟以内;

FmTH0myfYWMPBVTR.png!thumbnail

  • 更好的平衡工作与生活:Cloud Alert 能够将信号与数千个告警产生的噪音区分开来,配合排班分派策略,运维人员只需在自己要立即采取行动的事件中被通知,告别在半夜被不重要告警唤醒的烦恼。并且Cloud Alert具有多种移动化的处理方式,可随时随地方便的接收、查看并处理报告。

客户反馈

博泰运维负责人谈到,我司主要做车联网业务,业务平台主要部署在云上,此次与睿象云的合作,帮我们把一直使用的各监控工具全部接入到Cloud Alert 平台统一管理,帮助我们极大地提升了告警消息的及时率和到达率。同时依托平台的分派能力,建立起了多层联动协作机制,配合多种人性化的通知处理方式,缩短了故障处理和恢复时间,实现从粗放运维到精细运维、从职能管理到流程管理的转变。充分保证了博泰系统的可用性及可靠性,为博泰后续的业务发展提供了有力的IT支撑和保障。