文章目录

  • 融合随即森和梯度提升树的入侵检测研究
  • 论文摘要
  • 论文解决的问题
  • 1.特征选择
  • 2.特征变换
  • 3.GBDT分类器


融合随即森和梯度提升树的入侵检测研究

论文摘要

网络入侵检测系统作为一种保护网络免受攻击的安全防御技术,在保障计算机系统和网络安全领域起着非常重要的作用。针对网络入侵检测中数据不平衡的多分类问题,机器学习已被广泛用于入侵检测,比传统方法更智能、更准确。对现有的网络入侵检测多分类方法进行了改进研究,提出了一种融合随机森林模型进行特征转换、使用梯度提升决策树模型进行分类的入侵检测模型 RF-GBDT。

该模型主要分为特征选择、特征转换和分类器这 3 个部分。

采用 UNSW-NB15 数据集对 RF-GBDT 模型进行了实验测试,与其他 3 种同领域的算法相比,RF-GBDT 既缩短了训练时间,又具有较高的检测率和较低的误报率,在测试数据集上受试者工作特征曲线下的面积可达 98.57%。RF-GBDT 对于解决网络入侵检测数据不平衡的多分类问题具有较显著的优势,是一种切实可行的入侵检测方法。

论文解决的问题

  1. 提出了一种特征降维的方法
  2. 融合了随机森林和梯度提升树模型,提高了模型准确率

1.特征选择

使用每个特征的基尼指数作为特征重要性的评估标准

从小到大排序每个特征的重要性。每次删除最小的特征,基于新的特征集用GBDT进行训练,记录每次的损失值,直到特征集合为空。选择损失值最小对应的特征集合作为最优特征集。

实现了特征降维

2.特征变换

先使用随机森林对训练集进行训练,然后把训练集和测试集中的每个样本在随机森林中的每棵树上的叶子索引作为一个特征,假设有n棵树,那么每个样本就有n个特征。用这n个特征组成的新的训练集和测试集来进行训练和册数

3.GBDT分类器

需要调整的参数有树的个数和学习率。树越多效果越好,时间越长。需要权衡这些参数。