ITPub博客

首页 > 自动化运维 > DevOps > 想要告警的智能化管理?看这一篇就够了

想要告警的智能化管理?看这一篇就够了

原创 DevOps 作者:ruixiangyun 时间:2020-09-27 14:21:59 0 删除 编辑

企业 IT系统 建设 是一个聚沙成塔的过程,伴随业务规模的不断 扩大 IT系统越来越多、IT架构的复杂度呈指数级增长,运维部门承受着巨大的管理压力 在如此庞杂的环境下,数据 间紧密相连,一个指标的变化,可能引发一系列的告警连锁反应。这就需要对离散的IT监测系统和海量的告警数据进行统一的采集、处理和呈现。

充满挑战的运维告警管理

相信每一个运维小伙伴都被这些问题困扰着:如 何抑制告警风暴?如何保障重要告警不漏不丢?如何快速地甄别根因告警?如何沉淀告警处置经验?如何快速恢复业务运行? 那么, 到底是什么原因给 告警管理 带来如此之高的复杂度呢?

1. 千丝万缕的 应用系统关系

每有一个用户访问 应用系统,应用 都需要 调用链路上 多个 IT单元, 而这其中,有一个环节出现问题, 都有可能导致业务故障。 系统中任何一个监控对象的告警都可能引发其他多个相关策略的告警, 这些 告警的相关度高达90% 以上。

2.   告警策略设置难以找到平衡点

过高的告警阈值,容易漏掉系统运行故障;而过低的告警阈值,又会带来大量的无效告警,影响运维团队的工作效率。同样,告警检查周期的长短设置也存在类似的问题。往往运维团队为了不 遗漏 告警, 提升告警的灵敏度, 导致 告警重复率高达60%。

3.   告警响应 及时

一个告警问题往往不是1个运维人员可以解决的,大部分的团队都是多 个人参与同一类告警的处理 ,而 同一个告警 会被推送到 团队中的 多个运维人员的手中。但是,通常在一些特殊时段只有一个值班 员负责处理告警,这就给其他团队成员生活带来了巨大的干扰。因为缺少高效的分派和排班管理机制,加上大量重复的无效信息,这将会在一定程度上造成告警处理的延时和遗漏,从而引发告警风暴。

 

告警 管理的关键因素

如果没有一个高效的管理告警的办法,那只会大大降低运维人员的工作效率,导致问题处理不及时,最终影响到业务。那么,如何做到告警的智能高效管理呢?这就不得不提到 告警管理有以下 6 点主要因素

1. 时间:发生告警要及时通知,运维人员的响应速度和处理效率都与告警通知的时间息息相关;

2. 人员:所有需要处理问题,需要指定相应的运维人员参与;

3. 信息:发送的告警信息需要重点突出问题内容,以方便运维人员快速了系统问题;

4. 过程:从告警的发生到告警修复完成的全过程,至少要流转2次;

5. 知识:每一次处理问题需的经验和解决方案都是宝贵的知识储备;

6. 问题:在告警处理过程中极易产生告警风暴,当然告警风暴的产生除了与业务系统不稳定、多个监控工具等客观因素同时是与处理告警效率有直接的关系。

 

睿象云智能告警平台 C loud Alert 的告警闭环管理来帮您

告警的主要处理流程首先将用户的多个监控平台接入到智能告警平台 Cloud Alert(以下简称 : CA )中,   CA 的数据处理引擎会对接入的数据进行标准化处理,自动去重处理,然后进行存储 并在后面增加压缩规则的处理 随时可查。 最终通过自定义的分派策略通知到用户、系统或者第三方协作平台中。最终实现【开放式一体化管理】【自动化事件分派响应机制】【自研机器学习算法直达事件根因】【多渠道通知必答移动端快速处理】的告警管理模式。

睿象云智能告警平台亮点功能详解

1. 告警的跨 平台统一管理

C A 平台可通过多种方式,接入现今主流的 1 00+ 监控工具,可 轻松对接 来自 第三方监控工具 的各种 告警事件 。一旦告警发生时,只需 要在C A 平台内处理告警即可,告别在各个监控工具之间来回切换的工作模式。

2. 自定义通知分派策略

·   不同 别的告警可通过 的不同方式 进行 通知 提醒 ,例如:严重告警电话通知,其他 级别 告警 通过短信或者 微信 进行 通知;

·   分派策略灵活多样: 根据告警级别和内容自定义分派条件,并将告警与人员、团队和排班计划相结合,实现告警的动态路由,确保告警在第一时间得到解决。超时的未认领告警会自动触发升级策略,通过更高效的通知手段,如语音电话,直达上级责任人,全方位减少告警的遗漏。

·   多平台协作支持: 告警对接到钉钉、企业微信、倍洽、简聊等工具, 通过团队协作的方式快速处理问题 ,极大地提升故障的处理效率。

·   多维度告警分析: CA支持告警回溯与多维分析,可以查看历史告警趋势、成员工作效率、告警内容top分析、告警智能分类分析等。 整合企业全部告警信息,通过告警量趋势、告警分类、告警级别、MTTA、MTTR等多维度指标为系统连续性保障提供更多洞察。

欢迎大家进入 睿象云 官网,试用了解~

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/69948837/viewspace-2724484/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论
睿象云始终秉承“让运维更加轻松高效”的经营理念,不断探索运维管理的奥秘,为企业发展提供源源不断的动力。

注册时间:2019-09-19

  • 博文量
    24
  • 访问量
    9802