智能运维平台功能之监控管理

- 2019-03-29-

人工智能技术发展迅速,现今已经渗透进了各个领域,从根本上改变和影响着这些领域的业务模式、技术架构以及方法论,运维领域也同样深受影响。前面的几篇文章我们分别讲到了智能运维平台的探索与实现、智能运维给传统运维工作带来的影响以及智能运维的发展前景与前瞻性。今天的文章,则想从智能运维的功能出发,逐一浅析一下智能运维平台的各项功能。

在运维行业有一句流传范围很广话——“无监控、不运维”,可见监控是整个运维乃至整个产品生命周期中十分重要的一环。监控涉及到事前及时预警发现故障,事后提供详实的数据用于追查定位问题,如果监控功能缺乏,什么基础运维、业务运维都将无从谈起。从某些层面来说,监控是运维工作的最重要组成部分之一,尤其是在智能运维发展迅猛的现在,用监控数据快速发现、定位问题,显得更加必要。在传统运维工作中,运维工程师常常被说成是“背锅侠”,那么,有了监控,有了充足的数据,一切以数据说话,运维工程师也就不用再扮演“背锅侠”这一角色了。

既然监控在运维工作中有着如此重要的作用,那么,在智能运维时代,一个成熟的智能运维平台又能在传统的监控模式上作出哪些优化和革新呢?下面我们从监控的意义,运维平台的演变以及智能运维平台的监控管理功能三方面出发,来具体了解一下。

在讨论智能运维平台的监控功能的重要性之前,我们首先需要厘清监控的具体概念以及监控的方法与内容。监控,总的来说算是一个比较大的概念,会因为每个人所处的环境不同被赋予不同的理解与意义。但无论身处何种环境,当应用于实际工作中的时候,监控系统则需要站在公司的业务角度去考虑和实施,而不仅仅是针对某个监控技术的使用。

以监控目标不同来划分,监控可以分为以下四类:

1、对系统不间断实时监控:实际上是对系统不间断的实时监控;

2、实时反馈系统当前状态:我们监控某个硬件、或者某个系统,都是需要能实时看到当前系统的状态,是正常、异常、或者故障;

3、保证服务可靠性安全性:我们监控的目的就是要保证系统、服务、业务正常运行;

4、保证业务持续稳定运行:如果我们的监控做得很完善,即使出现故障,能第一时间接收到故障报警,在第一时间处理解决,从而保证业务持续性的稳定运行。