基于支持向量机的启发式遗传算法在入侵检测中的应用外文翻译资料

 2022-03-25 07:03

英语原文共 21 页,剩余内容已隐藏,支付完成后下载完整资料


2014第四次国际通信系统和网络技术会议

基于支持向量机的启发式遗传算法在入侵检测中的应用

Tao Yerong Sui Sai Xie Ke Liu Zhe

中国洛阳电子装备试验中心

Luoyang, China

suisai@foxmail.com

摘要—利用启发式遗传算法对支持向量机(SVM)的参数进行优化,进而检测网络入侵行为。针对模型的分类精度,采用启发式实数编码遗传算法对高斯核支持向量机的最佳参数进行优化。分类精度大大提高。实验结果表明,该方法具有广阔的应用前景。

关键词:支持向量机; 遗传算法;入侵检测

Iota;.介绍

随着计算机网络的发展,网络规模越来越大,网络的入侵也越来越频繁,网络安全已经成为一个不容忽视的全球性问题。网络入侵的检测基本上可以看作是模式识别、正常行为或异常行为的分类问题。然而,有时我们不仅需要判断异常行为是否出现,还需要判断异常入侵行为属于哪种攻击类型。因此,网络入侵检测可以看作是一个多分类问题。

常用的基于贝叶斯推理[1,2]或神经网络[3]的入侵检测方法是常用的。入侵检测系统(IDS)结合机器学习方法[4]是一种重要的方法,它具有较强的适应性、自学习性和鲁棒性,但该方法需要大量的训练数据,以保证检测模型具有良好的泛化能力。该方法需要大量和高质量的数据。支持向量机(SVM)是一种基于统计学习理论的机器学习方法,它具有S样条、高维、非线性和拟合度等优点,在入侵检测中得到了广泛的应用。入侵检测可以被看作是一个多分类问题,非常适合SVM检测。支持向量机在入侵检测方面的研究显示了良好的性能[5]。SVM参数对检测性能有重要影响,选择最优的SVM参数对提高入侵检测的准确性至关重要。遗传算法具有良好的全局寻优能力,适用于群体搜索策略和个体之间的信息交换。本文采用启发式遗传算法对支持向量机参数进行优化,以模型的分类精度为目标函数,达到提高入侵检测能力的目的。

Ⅱ.基于SVM的入侵检测模型

A. SVM原理

支持向量机SVM最初是用来解决模式识别问题的。在模式识别中,为了提高决策规则的泛化能力,我们选择训练数据的子集称为支持向量。最优支持向量分离等价于所有数据分离,支持向量机是在线性可分离情形下由最优分离超平面演化而来。基本的想法可以解释与二维情况如图1。

图1 最优分类超平面

实心和空心图1点两个采样点,H是分类线。H1和H2平行于分类线,并在两个类别中与样本线最近的样本交叉,H1和H2之间的距离称为分类区间。不仅可以优化分类线,正确分离两类(训练误差为0),而且使类区间最大。如果h满足最优分离超平面的条件,则训练样本点在H1和H2上,称作支持向量。

一个训练样本,伴随着输出,这代表了分别定义的两个类别,如果属于第一类相应的输出标记为正而如果属于第二类,则相应的输出标记为负。

我们的目标是正确地构造一个决策函数,尽可能地对测试数据进行分类,并将其原始问题描述为:

(1)

上面的公式,C是惩罚函数,较大的C意味着误判的更大惩罚,这是唯一的参数可以调整算法。利用拉格朗日乘子法求解线性约束下的公式(1)中的二次规划问题,其对偶问题是:

(2)

其中,e是单位向量, Cgt;0 是上界, Q 是一个半正定矩阵,

B.入侵检测模型

入侵检测可以看作是一个多类问题,如图2所示的检测模型。首先收集网络数据,然后对采集到的数据进行预处理,提取能够反映入侵行为的特征参数作为SVM输入,最后利用训练SVM完成未知入侵。

图2 入侵检测模型

III. 基于启发式遗传算法的支持向量机模型参数选择

研究表明,不同的核函数对支持向量机性能的影响很小,而核函数参数是影响支持向量机性能的关键因素。对于高斯核函数,核函数的主要参数是核因子的宽度系数当回归模型太小时,回归模型过于复杂,容易出现过度拟合和预测能力差的问题。反之,如果太大,回归模型简单,通常是欠拟合的。因此,宽度系数的选取将直接影响回归模型的性能。惩罚函数C也会影响分类率的正确性,通常正确率会随着C的增加而单调递减,但下降率会下降。而且当C达到一个特定的值, 下降将会变稳定,几乎不再随着增加C.

同时,正确率也会随着增加惩罚因子 C降低,但并不是单调的,当C达到某个值时,正确率可能会增加,这是由于过度拟合造成的。训练时间随C的增加而

增加。

  1. 基因算法[6](GA),利用生物遗传学的观点,适者生存和随机信息交换思想,通过自然选择、交换和变异机制实现种群进化。在优化过程中,GA随机生成解空间中的多个起始点,并开始搜索。其中,在适应度函数指导下的搜索方向,是一种快速搜索复杂搜索空间全局最优解的搜索技术。适用于复杂连续参数优化。最优核宽度delta;和惩罚函数C 的问题,在优化过程中,关键问题是编码、适应度函数和遗传算子的选择。

(2)

A. 编码和范围选择

参数编码是实现遗传算法(GA)的关键,与二进制代码相比,代码具有更高的搜索效率。因此,采用实值编码策略实现支持向量机模型参数编码。结合C 和形成染色体,编码。2宽度系数反映了支持向量之间的相互激励水平,本实验搜索空间可以确定为:

(3)

惩罚函数C是折衷参数对分类精度和泛化能力的调节作用,由于C太大,经验风险和能力提升几乎不可变。一般来说C的范围是从1到1000,因为这个实验使得C的搜索空间是[ 1, 1000 ]。

B. 适应度函数

利用支持向量机进行分类,最终目的是使分类率达到最高,理想情况完全正确。GA是最大化适应度函数的优化,因此正确的分类率可以看作是适应度函数:

(4)

是正确样本数,是样本总数。

C. 遗传算子

遗传算子是优化的关键,包括选择算子、交叉算子和变异算子。为了提高算法的效率,我们采用启发式搜索策略实现参数优化。启发式遗传算法根据种群进化情况动态调整遗传算子,保持种群的多样性,克服早熟,加快搜索速度。

在前几代进化中,利用基本遗传算法,随着进化的进行,引入最佳个体保持行为,使得最优解不会被交叉和变异操作破坏,使收敛速度加快。同时,采用自适应变异概率,避免了算法的早熟,使算法具有更好的局部搜索能力。

选择算子

采用适应度法计算每个个体的适应值,并对每个个体的选择概率及其适应度值进行比例排序。适应值越大,被选中的机会越大,因此有机会继承到下一个可能性。让组大小为n,如果个体的适应度为,则选择的概率为公式(5)以下:

(5)

交叉算子

交叉算子将被设计成具有数值特征的向量的线性组合。如果两个人Sa和Sb交叉,结果后代个体为公式(6)和(7)以下:

(6)

(7)

此处是一个在 (0,1)间的任意数.

变异算子

对于后代染色体中的每个位置,变异算子随机选择一个值在概率pm,然后加入点的值。两个问题应考虑引入变异遗传算法,首先,如何保持种群的多样性,当初始变异比较大,为了防止早熟现象;其次,当算法在最优解附近,如何使变异算子减少,以确保其局部随机搜索能力和加快最优解收敛。下面的公式(8)中的自适应变异概率用来解决这两个问题。

(8)

此处: t 是进化代数; L 是染色体长度。

D. 算法步骤

所提出的入侵检测算法的步骤如下:

  1. 生成训练样本和测试样本;

b) 生成的C和初始值,构成染色,然后编码形成初始种群,对初始种群的大小20;

c) E对每个染色体进行编码,利用解码后的参数和训练样本建立SVM入侵检测模型;根据公式(4)使用测试样本集对模型进行评估,得到适应度函数;

d) 对父代进行遗传操作(选择、交叉和变异),生成下一代种群;

e) 确定是否满足遗传算法的终止条件,如果跳到步骤f),否则返回步骤c);

f) 最大个体适应度函数的参数作为最优参数,并利用该参数建立支持向量机模型;

g) 利用该模型检测未知行为。

IV. 实验与分析

A. 实验数据与预处理

使用标准数据集KDD CUP99入侵检测中对本文算法的有效性测试领域,由KDD99数据集共500万个样品,并提供训练样本和测试样本10%子集。攻击类型共有39种,攻击类型有22种:训练集,其余17种出现在测试集中。在试验中,我们随机选择训练集和测试集的10%亚群和KDD99数据集,所选样本集数据结构示于表。39种攻击类型可以分为四类,即DOS,R2L、U2R和探针。由于数据集包含大量的符号类型属性,支持向量机不能直接处理这些数据。这些属性必须首先数字化,然后用下面的公式进行标准化治疗:

(9)

介绍了各属性平均,表明了属性的标准偏差,表明了样本属性,方便训练支持向量机模型。

表1 实验中使用的数据样本集

B. 比较试验

为了验证算法的有效性,与RBF神经网络,和简单的支持向量机的入侵检测算法,其中算法的S VM核函数的参数是通过启发式遗传算法:C = 10.6和sigma; = 1.8。在实验的三个指标:误报率(F R)、正常记录了在测试集上的孔正确记录攻击记录的比例;检测率(DR),即正确检测到的攻击记录在测试集上的所有记录的比例;分类精度(CA),表明对测试样本的正确分类记录,所有记录的比例。在表中比较了三种算法的整体识别性能,表中给出了三种算法的四种入侵行为的检测结果。

表2 三种算法的整体识别效果

表3 四种整数的检测结果

正如表2, 当误报率很小时,与RBF神经网络算法和简单SVM算法相比,检测率提高了7%和4%。其分类准确率也提高了6%和3%。由于表中所示的每一类

攻击算法的检测率为三,与其他算法相比,该算法大大提高了四次攻击的检测率。有效地证明了算法的有效性。

V. 结论

本文提出了一种基于启发式遗传算法优化支持向量机核参数的入侵检测方法。其主要思想是:实数编码,动态地调整遗传算子采用启发式策略,把模型的分类精度为目标函数,实现了基于支持向量机分类模型的高斯核参数的优化,利用优化后的参数建立分类模型来检测网络入侵行为。大大提高了检测精度。

参考文献

  1. Jiao Congxin, Wang Chongjun, Chen Shifu. Application of theBayesian classifier based on complete undirected graph in intrusiondetection[J]. Computer Science, 2008,35(9):83-86.

[2] Wang Xiang, Hu Xuegang. Application of the Bayesian classifierbased on fast attributes selection in intrusion detection [J]. ComputerScience, 2008,35(4):151-153.

[3] Debar H, Becker M, Siboni D. A neural network component for anintrusiondetection system[C]Proceedings of IEEE Comput er SocietySymp. On Research in Security and Privacy. Oakland, CA: IEEEComputer Society, 1992:240-250.

[4] Liu Zaiqiang, Lin Dongdai, Feng Dengguo. A fuzzy decision treereasoning method for network forensic analysis[J]. Journal ofSoftware, 2007,18(10):2635-2644.

[5] Kim D, Nguyen H-N, Ohn S-Y,et al. Fusions of GA and SVM for anomalydetection in intrusion detection system//Advanced in NeuralNetworks. Lecture Notes in Computer Science 3498. Springer-Verlag,2005:415-420.

[6] Chen Guoliang, Wang Xifa, Zhuang Zhenquan, etc. Geneticalgorithm and its application[M]. People Post Press, 1996.

基于KNN和SVM融合的类星体光度红移估计

Bo Han1, Hong-P

全文共23955字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[15406],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。