从少到多服务器的运维监控该怎么做?

- 2019-01-22 -

随着机器越来越多,需要监控的服务也越来越多,告警信息出现爆发式增长,每天收到上千封报警邮件。有个小插曲,我应该是第一个将腾讯企业邮箱撑爆的人,运维监控不是容量撑爆了,是邮件的数量超过了他们数据库的最大值,导致我在一周内没办法收发邮件,也没办法删除。

运维监控的好处就是可以充分利用数据、组合数据、分析数据、解释数据,将晦涩难懂的数据解读成人人能懂的数据,让产品人员、销售人员、老板统统明白当前的业务状态是怎么样的。最后给大家展示两个我们自建监控系统中分析后展示的数据:

这个图显示了全国各省访问Track系统的情况,不仅包含了速度,访问的数据中心,还能显示是否出现域名劫持等信息。当然靠运维监控的监测节点是得不到这么多这么全的监控数据的,这时候需要云智慧的“监控宝”出面帮忙了,我们使用监控宝的全国200多个节点,将检测数据通过API回传,再整理分析、反馈在图上。

交换机的流量之前使用的是Cacti,交换机多了之后查找起来简直是个庞大的任务,针对这个需求痛点,我们的监控系统支持了交换机监控,除了基础的CPU等信息外,专门在流量上花了点心思。

运维监控看到哪里流量达到了预警值,哪个交换机出现了问题,在快速定位处理上提供了很大的便利。最后,每个公司的运维监控需求不一样,每个运维面对的痛点也不尽相同,不管有多少变化,万变不离其宗,有了机器上的各种监控数据,就可以组合分析出你想要的结果,自建的路上,我们才刚刚开始,keep moving!谢谢大家!