站长之家- 传媒 2018-11-23T11:25:28 +08:00

云智慧AIOps智能运维应用实战之智能故障预测

      2015 年初,一篇题为《普通运维人员就是秋后的蚂蚱!》的博文引发了运维行业发展的大讨论——IT资源的广泛云化(集中化)和运维管理的高度自动化能否导致普通运维的大面积失业?!四年过去了,自动化运维和NoOps不但没有统治IT界,反而逐渐被AIOps所取代。究其根本,没有机器学习、深度学习、智能预测等AI能力和高性能的大数据分析处理能力的自动化运维,是无法替代不断学习、成长的运维工程师的。

    云智慧智能运维平台的智能故障预测依托强大的大数据分析和机器学习能力,建立起面向业务场景的故障预测模型,对IT历史数据进行关联分析和深度学习,同时与监控系统实时获取的流式监测数据结合,进行IT故障的趋势分析和预测,在故障发生之前提前通过预测作出判断,帮助运维人员在故障发生之前采取有效措施,避免或者减少损失。

    智能故障预测典型应用场景

    在实际的运维工作中,故障往往不是独立存在的。特别是对于一家规模化的现代企业来说,IT系统积累了海量历史数据,这些数据来自持续运转的监控系统、日志系统、APM系统、业务系统等等,对于运维人员的经验提升和IT故障的判断、处理具有极大的参考价值。

    然而,由于IT系统的广泛云化,系统规模和IT数据呈指数级增长,运维人员很难通过告警信息对故障的影响进行有效的预测判断,并对可能产生的故障作出正确的预案,只有当故障产生后才能对故障进行排查、处理,不但影响了IT系统的持续健康运行,还会造成业务上的损失。

    云智慧智能运维平台智能故障预测,基于历史告警消息的相关性,对当前处理故障状态的警报可能造成的影响进行预测判断,能够对未来可能发生的告警进行预警,从而实现故障的智能预测。

    智能故障预测解决方案

    云智慧智能故障预测产品的数据接入分为两类,企业积累的IT历史数据、历史告警消息通过智能算法库进行计算,生成告警预测的结果模型。同时,云智慧智能告警模块接入各种监控系统的实时告警消息,并对告警消息进行告警抑制和分流处理,当新的故障产生时,根据预测结果模型匹配告警预测结果。在系统生成告警通知的内容时,可自动将告警预测的结果与抑制后的告警内容共同发送给客户。

    基于告警信息的智能故障预测

    同时,告警消息经过智能关联分析模块的训练,能够发现告警之间的关联关系以及故障的发生概率,对告警进行预测,还可以根据告警的相关性进行故障的根源追溯,借助机器学习对有较高概率引发故障的关联告警进行优先排查提醒。

    智能故障预测系统在经过一段时间的数据沉淀后,可在故障发生时有效的将短期内有概率发生的其他故障一并进行通知,使运维人员在日常工作中做到 “防患于未然”,提升系统的整体运行质量。

    智能故障预测典型案例

    某大型金融企业拥有数十套不同的监控系统,分别用于基础设施监控、网络监控、应用监控、用户体验监控等,当故障发生时,多套监控系统会同时发送告警信息。对于常规告警信息,运维人员很难迅速确认故障的影响范围以及潜在可能造成的风险,若短期内出现大量故障告警,运维人员难以确定问题的实际优先级。

    通过云智慧的AIOps解决方案,将所有监控系统的告警消息进行了统一采集和分析,确保系统可以有效处理各系统产生的独立告警消息。通过关联分析,对历史告警消息进行深度学习,进而得出了故障之间的相关性。当故障再次发生时,准确告知故障的潜在风险,并帮助运维人员确定故障的优先级别。

    经过了 1 个月多月的真实生产环境运行,可以在常见故障发生时,预测未来 1 小时内可能存在的故障,准确率超过80%,并将业务系统的故障率有效降低30%以上。

推荐关键词

24小时热搜

查看更多内容

大家正在看