(CEPETA)
China Electric Power Engineering Technology Association
智能运维科研问题 针对历史事件 瓶颈分析 热点分析 KPI聚类 KPI关联关系挖掘 异常事件关联关系挖掘 全链路模块调用链分析 故障传播关系图构建 针对当前事件 异常检测 异常定位 异常报警聚合 快速止损 故障根因分析 针对未来事件 故障预测 容量预测 趋势预测 热点分析 案例 故障预测 问题描述 对于发生轻微异常的组件,需要预测在未来一段时间内是否会发生故障。 输入 KPI数据 告警 输出 是否会发生故障 1:会发生故障 0:不会发生故障 转换为机器学习问题(监督学习) 问题定义 二分类问题 关键步骤 样本构造(历史样本集) 特征构造 分类算法(随机森林) 故障定界(异常定位) 问题描述 需要判断是哪一个设备故障导致的异常 输入 KPI数据 网络拓扑 输出 故障位置 转换为机器学习问题(非监督学习) 问题定义 聚类问题 关键步骤 样本构造(历史样本集) 特征构造 聚类算法(层次聚类) 异常事件关联关系挖掘(告警关联) 问题描述 对网络每天产生的大量告警进行关联,把属于同一个故障的告警压缩为一组 输入 告警 网络拓扑 输出 告警组 转换为数据挖掘问题 问题定义 序列频繁项集挖掘问题 关键步骤 告警预处理 清除重复告警 清除闪断告警 告警空间关联 告警时间分组 频繁项集挖掘 挖掘出频繁项集后,有专家人工确认有关联的故障规则
智能运维科研问题
针对历史事件
瓶颈分析
热点分析
KPI聚类
KPI关联关系挖掘
异常事件关联关系挖掘
全链路模块调用链分析
故障传播关系图构建
针对当前事件
异常检测
异常定位
异常报警聚合
快速止损
故障根因分析
针对未来事件
故障预测
容量预测
趋势预测
案例
问题描述
对于发生轻微异常的组件,需要预测在未来一段时间内是否会发生故障。
输入
KPI数据
告警
输出
是否会发生故障
1:会发生故障
0:不会发生故障
转换为机器学习问题(监督学习)
问题定义
二分类问题
关键步骤
样本构造(历史样本集)
特征构造
分类算法(随机森林)
故障定界(异常定位)
需要判断是哪一个设备故障导致的异常
网络拓扑
故障位置
转换为机器学习问题(非监督学习)
聚类问题
聚类算法(层次聚类)
异常事件关联关系挖掘(告警关联)
对网络每天产生的大量告警进行关联,把属于同一个故障的告警压缩为一组
告警组
转换为数据挖掘问题
序列频繁项集挖掘问题
告警预处理
清除重复告警
清除闪断告警
告警空间关联
告警时间分组
频繁项集挖掘
挖掘出频繁项集后,有专家人工确认有关联的故障规则