企业IT运维事中故障定位方法及工具

2022年05月10日

企业IT故障定位指诊断故障直接原因或根因,故障定位有助于故障恢复动作更加有效。故障定位通常是整个故障过程中耗时最长的环节,定位的目标围绕在快速恢复的基础上,而非寻找问题根因,后者由问题管理负责。通常大部分可用性故障,要借助运维专家经验的假设判断或已知预案的执行得到解决,但仍有部分故障,尤其是性能、应用逻辑、数据故障需要多方协同与工具支持。故障定位的方法通常包括专家经验驱动的假设尝试、测试复现、预案启动、代码分析四种,这个过程涉及对日志、链路、监控、数据感知、知识管理五类工具。随着系统复杂性不断提升,依靠专家经验驱动的假设尝试准确率会下降,如何将数字化手段结合专家经验,融入到协同机制中,这考验故障定位场景的设计水平。

1.定位方法

1 专家经验驱动的假设尝试

随着企业的应用系统架构由原来单体架构向分布式微服务架构发展,以及研发、运维团队对高可用架构的重视与投入,越来越多的系统在服务级别的可用性、可靠性、健壮性更强,再加上配套的监控工具完善,一般的服务级别不可用故障有更好的应对方案。当前运维面临的故障定位问题,主要是:

在面对上面的故障时,整体的自动化能力还有较大提升空间,基于运维专家经验驱动的假设性尝试诊断与恢复仍是当前主要的应对手段。要让运维专家经验发挥得更好,需要重点关注四件事: 

2 已知预案启动

对于疑难杂症或重大故障,我们认为故障诊断过程中,应该采用两条操作路径,一是前面提到的基于专家经验的尝试性的诊断,另一点是围绕已知预案的尝试启动。已知预案指提前对故障场景进行描述,并制定应急操作步骤。在预案的启动中,我们做了几件事:

3 测试复现

复杂系统的故障定位必然是一个跨团队协同的过程,测试复现是一个协同定位的解决方案。从岗位看,测试与 bug 打交道的机会最多,对于逻辑、数据引发的故障更敏感。测试复现与定位问题用什么方法,因为不专业不作说明,以下从运维赋能测试复现问题的角度列一下运维需要提前准备的支持:

4 代码分析

虽然开发可能不清楚复杂系统完整的上下游关系,部署架构,但一定是最清楚具体逻辑、数据的人角色。与测试复现提到的类似,运维也要为研发团队提供应急协同的工具。除上面为测试提供的工具适用于研发外,运维还要为开发提供线上程序版本、配置信息、各功能号的性能信息等数据。性能管理, AIOps等场景的工具应用,将有利于研发团队在故障定位环节,提升代码分析能力。

2. 定位工具

1 日志

对于运维而言,日志是运维了解硬件及软件内部逻辑的一面窗口。以软件为例,从系统生命周期看,由于运维没有参与到软件的需求分析、系统设计、编码开发、质量测试等阶段,当系统交接到生产环境时,软件日志是运维了解系统运行状况的重要手段。日志记录了从业务、中间件、系统等全链路信息,可以有效监控IT系统各个层面,从而有效的调查系统故障,监控系统运行状况。利用日志,运维可以了解用户行为操作,服务请求调用链路,功能调用是否成功,失败原因等信息,是故障定位的重要手段,帮助运维人员快速定位问题。

传统运维依靠人力从日志中排查故障原因,主要通过 grepsed等指令利用关键词(error, fail, exception等)进行搜索,或利用基于规则的日志提取方法,通过传统方式手动设置正则表达式来解析日志。这不仅对代码要求高,而且要求运维人员对系统和业务有着丰富的经验。随着系统的日趋复杂化,日志显现出数量庞大、无固定模式、不易读懂等特点。仅凭借管理员在海量日志中手动查看日志记录,需要登陆每一台服务器,一次次重定向文件,操作繁琐, 不利于故障定位。所以,构建一体化的日志分析平台和利用人工智能的技术对日志进行分析是解决当前日志分析的方向,实现分散日志的归集,并在日志数据之上建立日志数据二次加工,提升故障定位能力。

2 链路

这里提的链路主要包括纵向与横向的依赖关系,纵向关系指从生产对象的部署关系建立的从基础设施、网络、计算资源服务器、存储、虚拟机、容器、主机、应用系统、应用、服务的关系,通常围绕应用系统进行扩散;横向关系主要从服务调用关系,通过通过业务进行构建关系链。从技术实现上,我觉得可以围绕 CMDB PAAS 平台两个平台建设之上持续完善链路关系。其中 CMDB 应该将关系定位为 CMDB 最重要的配置数据之一,如果当前的 CMDB 到了以业务为中心的配置管理方案,那么集成必要的关系发现、关系绘制构建、关系消费的能力是下一代 CMDB 的重点( CMDB 的发展可以分为:满足 IT 资源管理线上化,支撑运维平台化互联互通,以业务为中心的配置管理,基于关系为核心的知识图谱)。PAAS 平台,侧重指企业以微服务为应用平台,或是面向云原生的应用平台。通常应用平台为了解平台上的系统的可维护性与可靠性,服务调用链有配套的解决方案,运维需要对平台现有链路关系进行在线的获取。

3 监控

以往,监控往往被定位为“监测”的角色,即只负责发现异常,将报警发出来即尽到监控职责。站在运维业务连续性保障的最终价值看,监控要在“监”的基础上,增加“控”在故障恢复角度的要求,而要实现“控”前,需要监控具备定位问题的能力。监控提升故障定位能力,可以考虑以下几个点:

对于监控方面的内容将有专门的章节作介绍,这里不再展开。

4 数据感知

数据感知不仅仅是将数据可视化,而是要从更高维度去感知系统运行状况。传统应用监控主要采用 “点”的方式不断完善监控,即当出现新的漏洞或事件,则在监控系统增加相应运行“点”的数据采集,并加上对数据的预警策略达到预警的效果。这种“点”的监控方式更多的是打补丁的方式,是一种“事后”、“被动”、“加固”的思路,为了提高监控能力需要利用每个运维同事的专家经验转变成“事前”、“主动”、“预防”为主,以“事后”、“被动”、“加固”为辅思路。要实现 “事前”、“主动”、“预防”,需要将以“点”为主的监控视角,转变成“面”的视角(可以理解为上帝视角,自上而下),这种”面“的视角是对现有监控方式的一个补充,是应对应用越来越复杂、业务连续性要求越来越高问题的要求。我觉得数据感知有以下的特征: 

5 知识管理

知识管理是一个大家都知道应该要做,但大部分都没做好的事情。原因可能有很多,比如:在管理上,执行环节领导关注度不够有关,前三天很热,后续推进不足,缺少持续的管理、有效的奖惩措施;在运营上,知识需要融入员工工作流程中,这需要知识的运营方参与运维工作流程的设计,在流程和线上化场景中整合知识的生产过程;在技术上,知识库没有与运维场景工具整合在一起,知识的生产、加工,与知识的应用脱节,知识用得少无法验证知识数据的准确性,引发对知识的信任问题。但是,可以预见,随着系统架构复杂性越来越高,数据量越来越大,当前主要依靠运维专家现场经验驱动的临断决策解决问题的模式在未来受到的挑战会越来越大。尤其是对于未知故障的应急管理成为当前运维组织重中之重需要解决的问题。

以手工维护为主的知识库也许可以向基于下一代智能技术实现的知识图谱发展,增强生产对象与对象关系的描述能力,将对故障定位起来至关重要的作用。比如,运维知识图谱能赋能故障的决策,将运维知识图谱融入到运维应急工具中,可以将运维人员的故障定位决策过程数字化,构建决策支持知识图谱,借助机器对海量定位决策操作行为进行穷举式遍历。如果运维知识图谱准确性有保证,可以预见还能够支持数据源/指标/文本异常检测、基于人工故障库/数据挖掘的故障诊断、故障预测、故障自愈、 成本优化、资源优化、容量规划、性能优化等场景。


江苏国骏信息科技有限公司 苏ICP备17037372号-2 电话:400-6776-989; 0516-83887908 邮箱:manager@jsgjxx.com