开发智能运维,团队需要的能力结构
概述
业务能力
产品能力
数据能力
工程能力
算法能力
概述
算法,是智能运维无法回避的一个话题。
能力结构
- 计算机科学相关的基础算法:比如说 搜索算法、树、图论、动态规划等;
- 统计学相关基础知识;
- 时序算法
- NLP
- 数据挖掘、神经网络
- 知识图谱
- 本体论
- 知识图谱相关的开源工具
- 如果后续要自己开发相关的工具,还需要具备:
- 编译原理,用于设计和开发推理引擎;
- 推理逻辑
- 数据库相关的理论,分布式系统算法相关的理论,用于开发分布式数据库;
- 运筹学,规划类的问题
智能运维如何落地
概述
寻找切入点
做前沿项目,还是比较忌讳一开始贪大求全。这不仅仅是技术问题。
项目刚开始的项目,还是有很多东西需要处理的:
- 熟悉业务的过程;
- 跟业务方的磨合;
- 技术的尝试阶段;
- 等等;
以根因分析作为切入点为例
根因分析技术简介
具体详见:
- 分析意图
- 根因分析,需要给出解释的:逻辑推理、状态图、贝叶斯网络等;
- 只需要给出结论:机器学习、频繁项挖掘等;
- 场景划分
- 实时分析:1分钟之内
- 准实时分析:5分钟之内
- 离线分析:5分钟之后
如何落地
如何体系化的建设智能运维
数据体系化建设 — 运维数仓
基础能力建设
- 数据采集
- 数据清洗
- 数仓建设
- 大数据可视化
- 数据分析
应用
- 质量保障
- SLA指标体系
- 故障影响评估
- 安全生产数据支持
- 可用率分析
- 成本管理
- 资源使用率
- 效率
- 性能分析
- 用户体验
- 等等
工程体系化建设 — 业务系统
基础能力建设
- 分布式系统架构能力建设
- 运维能力建设
- 算法模型工程化
应用场景
- 支撑智能运维解决方案落地
算法体系化建设
基础能力建设
见上面
应用场景
- 质量保障
- 成本优化
- 效率提升
- 用户体验分析与提升
等等