IT运维的新风口:AIOps

- 2018-11-21 -

Gartner 在 2016 年时便提出了 AIOps 的概念,并预测到 2020 年,AIOps 的采用率将会达到 50%。江苏IT运维——南京风城云码就来为您解答一下AIOps是什么。

何为 AIOps

AIOps 是 Artificial Intelligencefor IT Operations 的缩写,指 IT 运营方面的人工智能。它是一个多层技术平台,通过使用习惯和深度机器学习来分析从各种 IT 操作工具和设备收集的大数据,以实时自动发现问题并对问题做出反应,最终实现 IT 运营的增强和自动化。不同于单独的 IT 数据,它将观测数据(监控系统和作业日志中的观测数据等)与大数据平台内的参与数据(通常在事件和事件记录中找到)结合起来。  AIOps 针对组合的IT数据实施全面的分析和机器学习(ML)策略,期望得到持续的分析结果,其中最重要的步骤是自动化改进和修复。从这个意义上来说,AIOps 就是核心IT功能的持续集成和部署(CI / CD)。AIOps 连接三个不同的 IT 学科:服务管理,绩效管理和自动化,以实现持续洞察和改进的目标。

AIOps 的优势价值?

故障处理和操作变更是运维两大主题。在过去,为维护系统稳定,各业务线都投入大量人力进行故障处理工作,除直接人肉运维外,各产品线深度定制的运维工具、系统被研发出来。随着业务规模扩张和形态变迁,传统运维模式受到极大挑战:无统一的开发管理模式,运维服务开发及维护成本大,运维效率低。横向扩展能力差,运维经验难以复用,各产品线”重复造轮子”。智能运维开发框架,提供了一种以软件工程方式解决运维问题的解决方案。通过提供统一的开发模型和管理机制,支持不同产品线运维操作的设计、实现和管理。从而:降低设计、开发难度与成本,使业务 OP 专注自身的业务逻辑,提高开发和迭代效率。促进基于代码的跨产品线经验积累与分享,提升百度整体的业务运维能力。充分运用和发挥自动控制、机器学习、人工智能等领域的技术成果,提高运维效率江苏IT运维。

落地 AIOps 的前提条件

AIOps 的首要前提条件,一定是先要有高度完善的运维自动化,如果自动化都没做好,先不要玩 AI,否则就会本末倒置。

而从 AI 的角度,应该有三个方面的充要条件:机器学习算法、计算能力(类似于 GPU 的高性能设备)、海量数据,对应到 AIOps 的三个方面即:

1、算法已经成熟,但是具体的实施过程中需要有相应专业能力的团队。

2、数据就是要靠线上运行的真实数据和日志,所以必须要有大量的数据积累。

3、计算能力上,目前看到我们基于大数据技术的数据处理能力已经足够。

从这三个条件来看,也就不难理解,AIOps 做的比较超前的为什么都是那些国内外的大厂,因为有技术实力、有足够的资源、有足够的数据,最关键的是足够复杂和变态的业务场景以及运维场景,在倒逼着 Ops 往这个方向上走。

运维未来的发展趋势

就目前来看,国内的百度、搜狗、宜信、阿里巴巴都已经探索尝试了 AIOps,并且取得了不错的收益。

从技术发展上来看,随着计算能力、数据量的积累、以及机器算法的进步,如何更加高效的开展 Ops 这个问题就摆在我们面前,AIOps 的魅力就在于此。

所以从手动运维到运维自动化,再到 AIOps,这个过程根本上是在朝着如何更加高效运维的趋势在发展,也是必然的发展趋势。那么,如果您想对 AIOps 有一个更深刻的理解与认识的话,江苏IT运维为您解答。