基于多步异常值的大规模网络流量异常检测外文翻译资料

 2022-08-10 03:08

英语原文共 29 页,剩余内容已隐藏,支付完成后下载完整资料


基于多步异常值的大规模网络流量异常检测

摘 要:异常检测在诸如物理科学,医学诊断,监视检测,欺诈检测和网络异常检测等领域具有相当大的应用。有趣的是,数据采集和网络管理研究社区正在改进基于现有分数的网络流量异常检测技术,因为有足够大的范围可以提高性能。在本文中,我们提出了一种基于多步异常值的方法来检测网络范围内的流量。我们确定了相关交通信息的一个子集,并使用聚类和异常检测。为了支持基于异常的网络异常识别,我们使用了以下模块:互信息和基于通用熵的特征选择技术来选择相关的非冗余子偏移特征,基于树的聚类技术来生成参考点以使单个SAN异常值能够对进入网络的流量进行排序。我们还设计了一种快速的分布式特征提取和数据准备框架,以从原始网络范围的流量中提取特征。我们使用多个高维合成和真实数据集来评估检测率,误报率,精度,可校正F度量的方法,并找到最佳性能以与同类产品进行比较。

1 介绍

在网络范围内的流量数据中,需要不断寻找有效的算法来检测异常模式可疑现象。全网络流量异常会破坏正常的网络运行,因此异常检测在大规模的网络流量中有这很重要的作用。广域网流量庞大,高维且嘈杂,难以通过检查流量实例来提取有意义的信息以发现异常。随时间变化的流量特性是网络范围流量的重要特性。全网流量数据包含分类和数字属性[29,57],在此类数据中发现异常任务有五个子任务:(a)依赖检测,(b)类识别,(c)类验证,(d)频率检测和(e)异常或异常检测[32,36]。前四个子任务由在大型数据集中查找模式和验证模式组成。关联规则,分类和数据聚类技术在前四个子任务中使用。异常值检测集中在平均较小百分比的数据对象上,在正常分析中经常忽略或丢弃这些噪声。异常检测技术着重于发现数据中的罕见的模式,这与诸如联想分析或频率集挖掘之类的传统数据挖掘技术相反,试图找到经常出现的模式。

异常值可能表示错误的数据,这些错误的数据可能通过产生错误的结果,错误的模型以及对参数的估计而对系统造成不利影响。在建模和分析之前,可以使用异常检测来识别这种异常数据[38]。异常检测有很多重要的应用。例如,在信用卡使用情况监视或手机监视的情况下,突然改变使用模式可能表明欺诈性使用此类资产到信用卡或电话通话时间。异常值检测还可以帮助发现关键要素,例如军事监视,其中星系图像中存在一个不寻常的区域,而星系图像中的暗区可以指示暗室移动。通常,网络入侵检测技术有两种类型:基于签名的检测和基于异常的检测[18,22,45,51]。基于签名的检测旨在从已知的入侵模式中检测入侵或攻击。它无法检测到新的或未知的攻击。基于异常的检测将根据已建立的正常活动的配置文件或签名的偏差寻找攻击。报告的事件或记录超过某些阈值的事件将被报告为异常或攻击。它可以根据攻击数据从正常数据中得出的假设来检测未知的攻击。但是,基于异常的系统故障会导致较高的虚假警报率。降低基于虚假网络的入侵检测的主要挑战的基于虚假警报的百分比。基于异常值的异常检测是检测网络异常的有效方法,并且具有所需的准确性。异常检测技术[15,32,47]通常是基于距离协调性计算或两者的结合而开发的。

异常检测可以使用软计算以及统计方法。几种异常检测技术已经得到发展并应用于网络异常检测[46,49,58]。一般的异常检测技术,当针对网络入侵检测进行调整时,在高尺寸的大型数据集中表现不佳。这包括网络范围的流量和基因表达数据。因此,在此类应用程序中,某些情况下可能希望让子空间基于子空间成为更多成员,这比强迫将MTobe扩展为集群更合适。允许群集重叠也可以降低计算相似性的成本。此外,在基于分数的异常检测中,在测试期间可能无法更改各个目标值的核心值。在这种情况下,对于正常情况或异常情况,可能很难将其标记为正常或异常。为了解决此类问题,我们开发了一种基于多步离群的高效技术,可以分析网络中大量多维数据流中的异常流量检测数据。我们的方法具有多个可用的功能,其中包括:(i)选择一个可以减少异常检测期间计算成本的相关功能的子集。(ii)它可以与任何接近度度量一起工作,并且可以为任何数据集分层地确定不相交和重叠的集群。(iii)建议的重新识别可以识别带有少量错误警报的网络异常或异常情况。(iv)适用于网络范围的流量数据集时,DoS,探针和R2攻击的性能都非常好。具体来说,本文的技术贡献包括以下内容:

我们提出了MIGE-FS,互信息和基于广义熵的特征选择技术,以选择相关特征的子集,从而使检测更快,更准确。高难度的大型全网流量数据集难以处理混合类型的数据,并且需要处理有效结构中的大量数据以进行分析。例如,protocoliscategorialandbytecountis数值。另一关键问题是使用辅助功能进行合并,该功能合并了子空间以找到有意义的簇。本文提出了TCLUS,一种有效的基于树的聚类算法,该算法基于相关的子空间计算,以识别紧凑的对象以及重叠的对象。我们开发了一种异常核心功能,并可以有效地检测异常或异常。该核心功能使用TCLUS算法为每个集群生成参考点。我们在整个网络范围内的流量异常检测中应用了这种方法,并使用了多个真实网络范围的流量数据集,从而获得了出色的结果。我们从捕获的网络流量数据集中提取了两个特征,包括基本的,基于内容的,基于时间的和基于连接的特征,并捕获了整个网络的流量数据集,这些数据集是使用我们的TUIDS(Tezpur大学入侵检测系统)通过在特征分布框架上使用快速分布式特征提取框架测试了[14]而生成的。论文的其余部分安排如下:第2节讨论基于异常的技术的相关工作,并应用到网络范围的流量异常检测中,而第3节提供了问题的形成。在第4节中,我们介绍了提议的方法的基础。第5节讨论了提议的方法,分三部分进行功能选择,聚类和异常检测,而第6节介绍了使用综合和多个实际数据集对方法进行的经验评估。最后,第7节包含结论性研究和未来工作。

2 相关工作

在最近的文献中,文献[16,19,27,30,53,55]中已经发布了许多异常和异常检测技术。将这些技术大致分为以下四种类型:(a)统计,(b)基于距离,(c)基于密度和(d)软计算。统计异常值检测技术在假设随机分布的情况下建模数据实例。实例异常值取决于模型适合的模型而确定,例如Barbaraetal。[7]使用伪贝叶斯估计器来增强新颖攻击的检测。由于从正常和已知攻击实例得出的新攻击的事前概率和后验概率,该方法不需要新的攻击知识。[54]提出了一种基于突变检测的统计信号处理技术,以检测整个网络流量中的异常情况。

Knorretal提出了一种基于距离的离群值检测技术。[33]他们将至少一个用户定义的最小数据集距离定义为至少一个用户定义的最小离群点角度。[4]提出了一种方法,即产生一个被称为异常值检测解决方案集的点子集,该点集用于顶部确定新的未知对象的异常性。该解决方案集通过考虑仅一种子集落对距离的检测来允许对顶部异常值的检测。错误的解决方案是利用一种在整个系统中进行分析的方法。ADAM [6]是一种众所周知的基于IDS的在线网络,可以检测到已知的攻击。它利用无攻击训练数据建立了正常行为的轮廓,并代表了关联规则的轮廓集。它检测到与该轮廓相关的可疑连接。Sze和Hung [53]提出了一个具有大数据量的高效随机变量集。

基于密度的技术可以处理大容量数据中的异常值检测[15]。在一种这样的技术中,对每个点都计算一个局部异常值(LOF)。LOF的确定点是基于该点附近的局部密度与该点的本地密度相乘的。Koufakou和Georgiopoulos [34]描述了一种针对包含混合属性的数据集的快速,分布式异常检测策略。这种方法可以解决该数据集的稀疏性,并且该数据集的点数和属性数高度可缩放。该方法声明了一个实例,该实例在较低密度的邻域内处于正常状态,而在另一个像素密度的邻域内处于正常状态。[35]表示的基于粘着力的离群值检测技术使用决策树开发了正常数据之上的预测模型来检测异常。[59]提出了两种基于局部分布的异常检测技术,它们使用局部平均距离,局部密度和局部不对称度度量。密封算法的性能优于LOF入侵数据集。[25]介绍了已知的可观察性因子(OF)。它是根据概率解释设计的,即较低的OF值表示异常值,较高的OF值表示异常值。

由于软化技术具有泛化能力,因此可以广泛地用于入侵检测,该技术可帮助检测已知攻击,并重新识别先前描述的模式。研究人员使用较早的基于模子的技术来进行入侵检测,但是很难检测到以前没有描述过的新攻击模式[42]。因此,使用粗糙集的想法很有希望。确定性的不确定性可能一直很长(直到50岁左右)。模糊和粗糙集代表不确定性的不同方面。模糊处理在重叠集之间具有模糊性。另一方面,粗糙集在不重叠的概念下进行交易;它们确定的目标元素可能具有不同的成员价值值[50],因此,由于输入模式集的可分辨性而导致出现了粗糙度,并且在输出类和群集中产生了模糊性,因此产生了模糊性。为了模拟这种情况,应使用模糊粗糙集。

离群检测主要集中在具有少量变量和具有已知分布的需要数据的单变量和多变量数据上。这些主要限制限制了对大型真实世界数据集(通常具有多个不同字段)应用异常检测方法的能力。下面我们进行观察。

最离群的检测技术统计出其检测率几乎很低[15,17,47,58]。

大多数存在的算法在高维空间中的表现都很差,这是因为对象软性分类的特定子空间软性原始特征空间[39]。在这种情况下,子空间聚类是更好的拓扑形式。

随着数据集大小的增加,现有技术的性能会下降。

多数现有技术仅适用于数字数据集,并且只能使用几种算法从混合类型数据中检测异常。

现有的异常检测技术通常不适合实时使用。

表1给出了几种现有的异常检测技术的比较。请注意,与这些论文相比,我们考虑了7种不同的异常检测方法,如图1所示。

3问题陈述

在敌对事件发生时发现异常发生在curcurin网络上。这种异常通常是由于存在双重竞争而引起的。网络滥用是由产生sanoma鲁棒流量的原因造成的,这通常是由于突发网络流量产生的。网络闪存人群会产生大量流量,这可能会导致合法的流量异常性合法性流量。网络故障也可能会通过重复路由网络流量而产生异常流量。网络攻击中,最突出的是分布式拒绝服务(DDoS)攻击,它们通常通过在短时间间隔内创建高流量来改变整个网络的流量。网络蠕虫也会导致网络流量异常。

图1.七种不同情况的图示:N1和N2是两个正常的簇,O1是离奇的离群点,O2,不同的是,O3,等离群点,O4,边界较近的地方,O5,一组离群点,O6是另一组较高的对象,而同一对象之间的紧密度更高.

所有这些行为都会增加影响整个网络的流量异常,从而影响正常的网络活动。某些异常可能会非常迅速地破坏网络,从而严重影响正常的网络运行。通过考虑与最佳功能区域相关的特征空间,以便在识别所有可能的不符合模式(如果存在)的情况下,通过参考正常行为来分析任何应用领域中的实际流量问题。我们假设一个实例在一个或以上的不符合项(a)xiisin;Ciand| Ci | | CNi |,其中Cis是一组异常实例的Ci组或Cn是一组正常实例的基团; | Ci |表示该用户C的基数,| CNi |表示该组的基数。

4我们基于异常值的方法的基础

异常事件异常是异常事件或异常事件的一个常态,其异常点与正常事件事件点有所不同。在不同的应用领域中,这些模式常被称为异常,异常,异常,异常或异常,在各种情况下,由于异常检测,反常现象和异常值是最常见的两种情况。异常检测的重要作用是使数据异常转化为重要的信息,并且在整个应用程序域中通常具有关键和可操作的信息。例如,计算机网络中的流量异常模式可能意味着黑客入侵了计算机,而将敏感数据丢失到未经授权的目的地。网络管理员需要根据正常网络统计信息定义异常事件,以便检测网络异常。

离群值可能是由多种原因引起的,包括恶意活动。与数据中的噪声不同,离群值因其特定领域的重要性而对分析很感兴趣。在基于离群值的网络异常检测中,离群值被认为是豆类异常情况。异常检测是检测数据集中异常事件的一项重要技术。在许多数据分析任务中,异常检测是用于对数据进行初始分析的一种技术。尽管异常值可能是错误的噪声,但它们仍可能携带重要信息,尤其是在整个网络范围内。异常检测的重要性如下:(i)异常可能会导致数据异常(ii)异常值可能会使数据不一致,但是对于这种情况而言,再次发炎很重要。

当使用离群值检测方法时,需要计算每个对象的离群值以确定其离群度。离群值汇总是基于距离,密度或其他统计方法得出的值。存在用于计算该离群值的不同方法。

在给定数据集的情况下,可以通过计算数据集中每个点的异常值分数直接计算异常值。我们可以确定哪些异常值在用户提供的阈值以上,但可以直接在数据集上查找异常值。例如,如果一个数据具有大量特征,则使用所有功能软数据项无法有效地计算出较高的异常值核心值。不仅如此,由于特征之间存在不相关的功能或交互作用,因此异常值可能不会被使用。因此,通常可以获取与问题手相关的子特征。当人们直接计算异常值时,通常会考虑整个数据集或一个组。我们认为,发现异常值将变得更有效率,并且产生更好的结果,而不是将整个数据集视为一个类,则首先将数据集聚为一类。在集群中,一些集群可能比其他集群更大。对于每个集群,较小的集群,我们将其称为基于参考的配置文件。我们会根据这些基于参考的配置文件计算异常值。那些在用户指定的阈值以上具有更高异常值的数据点被标识为实际异常值或异常数据点。Tokeepour讨论的精确度,首先我们使用了这种表示法(请参见表2),并通过一些定义定义了Letus。

定义1.数据集:n个对象{x1,x2,x3 ... xn}的数据集Xisaset,其中每个对象属性由维矢量{xi,1,xi,2,xi,3 ... xi,d}表示,其中xi,jcanbeanumeric属性。

在进行任何处理

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[238518],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。