开发智能运维,团队需要的能力结构

概述

智能化运维实践 从ansible到kubernetes_应用场景

业务能力

智能化运维实践 从ansible到kubernetes_运维_02

产品能力

智能化运维实践 从ansible到kubernetes_应用场景_03

数据能力

智能化运维实践 从ansible到kubernetes_应用场景_04

智能化运维实践 从ansible到kubernetes_大数据_05


智能化运维实践 从ansible到kubernetes_数据_06

工程能力

智能化运维实践 从ansible到kubernetes_大数据_07


智能化运维实践 从ansible到kubernetes_big data_08

算法能力

概述

算法,是智能运维无法回避的一个话题。

能力结构
  • 计算机科学相关的基础算法:比如说 搜索算法、树、图论、动态规划等;
  • 统计学相关基础知识;
  • 时序算法
  • NLP
  • 数据挖掘、神经网络
  • 知识图谱
  • 本体论
  • 知识图谱相关的开源工具
  • 如果后续要自己开发相关的工具,还需要具备:
  • 编译原理,用于设计和开发推理引擎;
  • 推理逻辑
  • 数据库相关的理论,分布式系统算法相关的理论,用于开发分布式数据库;
  • 运筹学,规划类的问题

智能运维如何落地

概述

智能化运维实践 从ansible到kubernetes_应用场景_09

寻找切入点

做前沿项目,还是比较忌讳一开始贪大求全。这不仅仅是技术问题。
项目刚开始的项目,还是有很多东西需要处理的:

  • 熟悉业务的过程;
  • 跟业务方的磨合;
  • 技术的尝试阶段;
  • 等等;

以根因分析作为切入点为例

根因分析技术简介

具体详见:

  • 分析意图
  • 根因分析,需要给出解释的:逻辑推理、状态图、贝叶斯网络等;
  • 只需要给出结论:机器学习、频繁项挖掘等;
  • 场景划分
  • 实时分析:1分钟之内
  • 准实时分析:5分钟之内
  • 离线分析:5分钟之后
如何落地

智能化运维实践 从ansible到kubernetes_大数据_10

如何体系化的建设智能运维

数据体系化建设 — 运维数仓
基础能力建设
  • 数据采集
  • 数据清洗
  • 数仓建设
  • 大数据可视化
  • 数据分析
应用
  • 质量保障
  • SLA指标体系
  • 故障影响评估
  • 安全生产数据支持
  • 可用率分析
  • 成本管理
  • 资源使用率
  • 效率
  • 性能分析
  • 用户体验
  • 等等
工程体系化建设 — 业务系统
基础能力建设
  • 分布式系统架构能力建设
  • 运维能力建设
  • 算法模型工程化
应用场景
  • 支撑智能运维解决方案落地
算法体系化建设
基础能力建设

见上面

应用场景
  • 质量保障
  • 成本优化
  • 效率提升
  • 用户体验分析与提升
    等等