英语原文共 10 页
基于数据挖掘的通信工程优化模型的建立
摘要——随着经济技术的发展,网络通信已成为国民生活的重要工具之一,需要时刻保持稳定和安全。在数据挖掘的基础上,对通信工程优化模型进行了研究和分析。在单元聚类算法中,采用了一种改进的K均值聚类算法。对数据进行预处理,检测并去除数据中存在的异常单元,将异常单元去除并聚类后的单元网络数据,将具有相似网络特性的单元划分为一类。最后,我们对每种类型的小区进行了数据分析,得到了当前的网络运行情况,并提出了网络优化方案。关键字:数据挖掘,通信工程,优化模型,网络通信
第一章 介绍
大量先进技术的采用,带来了一系列的发展问题,如网络规模巨大、通信服务种类复杂多样、通信质量需求逐渐增加等。面对这些复杂的问题,面对日益激烈的竞争,运营商希望更有效地利用现有网络资源,降低当前运营成本,增加后续运营收入[1]。必须加强网络设备分析和日常维护,不断调整和优化网络相关参数,满足用户日益增长的需求[2]。网络优化是通过收集和分析现有网络生成的数据来实现的。并通过对结果的分析,指导网络资源的调整,使网络质量的不断提高达到最优规划要求。网络优化包括网络分析、网络配置和性能改进。分析了网络资源变化趋势,通过调整参数和采取一定的技术措施,使现有网络资源得到最大限度的利用。同时,对今后的网络维护和规划建设也提出了合理的建议[3]。
第二章 最新技术
网络优化是数据采集的首要任务,需要大量的人力物力资源对数据进行采集和组织,有时会出现一些异常数据。其次,我们需要进行数据分析,分析人员要对收集到的数据进行前期的详细分析,并做出综合判断[4]。然后提出了优化方案。网络分析师通过对网络数据的分析,给出了合理的优化方案。最后的评估是重新分析优化后的网络工作,看它是否达到了预期的目的。如果我们没有达到我们的目标,那么我们将优化网络,直到我们达到要求。这是一个连续的过程。最大工作量在数据采集阶段,最大的困难是数据分析阶段[5]。目前,网络优化主要依靠经验丰富的网络技术人员。在我国,网络覆盖非常广泛。用人力简单地收集和组织这些复杂的网络数据来制定合理的优化方案是不现实的。此外,一些技术人员通常根据单个网络数据属性进行判断。实际上,网络数据的属性(数据维度)可能是数千万甚至数亿。虽然网络运营商和设备制造商目前配备有网络分析师,但使用手动收集和分析网络数据的方法存在明显的局限性和缺陷[6]。然而,从技术发展的趋势来看,用智能网络数据分析算法代替网络技术人员进行复杂的网络数据分析是必然的趋势。在目前大量的智能算法中,大数据挖掘算法脱颖而出,随后产生了大量的数据分析软件[7]。这些智能产品将人工智能理论与实际工程经验相结合,取得了较好的效果。
第三章 方法论
3.1数据挖掘
数据挖掘是一个大概念。从不同的角度看,数据挖掘的相对定义是不同的。从商业的角度来看,数据挖掘是一种新的商业数据处理技术,它收集、提取、预处理、转换和分析商业数据库中大量高维数据服务的其他模型。决策提供数据支持结论。从技术角度看,数据挖掘是从大量不确定、不完整、模糊、嘈杂的真实数据中提取隐含信息,人们事先并不知道这些数据,但它具有信息和知识过程的潜在价值。数据挖掘是一个知识发现的过程。这个过程是从一个大型数据仓库中挖掘未知的、有效的和可用的信息,我们使用这些信息做出有效的决策。数据挖掘分为数据准备阶段、数据分析阶段和知识表达阶段。数据挖掘是一个知识发现的过程。具体步骤见表1。
表1 数据挖掘步骤
步骤 |
分解步骤 |
细节 |
确定研究问题 |
对于数据挖掘,有时结果与人们的常识不符,甚至无法得到最终的结果。因此,要探讨的问题应该是可预测的和可行的。 |
|
数据准备过程 |
数据采集 |
一方面,合理的数据采集可以节省数据采集时间,另一方面,可以减少后续数据处理不必要的工作量。 |
数据选择 |
数据选择过程是为所收集的数据选择与研究问题相关的所有数据,并为后续的数据挖掘提取适当的数据。 |
|
数据清洗 |
数据清洗称为数据预处理。这一步骤包括填写缺失的数据值和错误值的显著变化,为进一步分析做准备。 |
|
数据转化 |
我们将清理后的数据转换成一个合理的分析模型。该分析模型是在研究问题和后续开采方法的基础上建立起来的。是否建立适合挖掘算法的分析模型决定了数据挖掘的成功。 |
|
数据挖掘 |
数据挖掘是数据挖掘的数据挖掘过程。根据研究问题选择合适的数据挖掘算法是这一步的关键。 |
|
结果分析 |
分析了数据挖掘的结果,并对挖掘效果进行了解释和评价。此步骤通常使用数据可视化来显示挖掘的结果。 |
|
知识同化 |
知识的同化是利用数据挖掘的结果做出支持数据决策的过程。我们将分析知识整合到业务信息系统的组织结构中,有利于未来业务的扩展和有效决策的实施。 |
3.2异常点挖掘算法的距离
对于数据对象集d,用户可以指定距离阈值r来定义对象的合理邻域,指定一个常量pct作为参考号。对于每个对象o,我们检查o的o邻域之外的其他对象的数量。对于对象o,其r邻域之外的数据对象的数量至少为pct,然后对象o是以pct和r为参数的基于距离的离群值。这被记录为db(pct,r)。这里有两个数量pct和r,如果r的选择太小,上面的机制会产生很多异常点。如果R值太大,异常点的数量将很少或没有异常点。因此,R的测定是尤其重要。针对DB(PCT,R)的缺点,有许多改进方法,如基于K近邻的异常程度测量方法。被测对象P的异常得分定义为与相邻距离K相同,标记为dk p。算法首先计算D中各点的异常得分,然后对其进行排序,选出异常得分最大的M点作为异常点。通常,基于距离的异常检测算法通常需要人工确定异常点的数目。因此,如果数据集中的异常点数目未知,则检测效果较差。
3.3 k-均值算法原理及步骤
双K均值算法是一种经典的基于分区的聚类算法,它利用距离测度来计算两个数据对象之间的相似度,适用于高维数据。k-means算法迭代地将数据对象划分为不同的类,从而使每个类尽可能紧凑,并且独立于其他类。基本原理是:首先我们设置参数k,作为划分类的最终数目。然后,从大量数据集中随机选取k个数据对象作为初始聚类中心,根据距离度量公式计算剩余数据对象与每个聚类中心的距离,将数据对象划分为类中最近的聚类中心。这是K的头等舱。然后计算每个初始类的中心(这通常是数据对象的平均值),并以计算点为中心分配数据对象。重复上述方法,直至达到收敛准则。收敛准则一般是相邻两轮的聚类中心不再改变或误差函数值的变化小于给定阈值。
k均值算法涉及定义,公式如下:
评价函数E:是判断聚类误差值的指标。E值越小,聚类越准确。IC是一类所有的对象。ci是一类数据对象的值,k均值算法是通过对数据对象的连续迭代,计算出最终的聚类中心,得到最终的聚类结果。该算法简单、高效,收敛速度快。算法输入:数据集d,簇数k。算法输出:k特定数据集。具体步骤见表2。
表2 K-均值算法步数算法步数
数字算法步骤 |
|
第一步 |
我们随机选择数据集d中的k个数据对象作为初始聚类中心。 |
第二步 |
我们计算数据集中剩余的每个数据对象与k初始簇中心之间的距离,并将每个数据对象分类为最近的类,以k初始簇中心为中心形成类。 |
第三步 |
根据公式,我们重新计算每个类的簇中心。 |
第四步 |
重复步骤2和步骤3,直到重新计算的群集中心点与计算前的群集中心点相同。也就是说,聚类中心不再改变,算法达到收敛。 |
第五步 |
我们输出k个结果簇。 |
结果分析与讨论
4.1改进的动态分配聚类中心算法
为了同时解决K均值聚类算法的两个主要缺点,在分析相关改进算法的基础上,提出了一种结合密度和距离度量确定最优聚类数的动态分配聚类中心算法。该算法通过比较类与类之间的平均最大相似度指数(DBI),自动确定最佳簇数。它还可以动态地调整当前集群中心并动态地添加下一个集群中心。该算法将密度度量和距离度量相结合,从高密度候选点中选择距离当前更新的聚类中心最远的点,并将其作为新的聚类中心添加到当前的聚类中心集合中。这样,不同类型的集群中心可以尽可能相互排斥,从而确保类之间的低相似性。同时,从高密度候选点中选择下一个集群中心,可以保证集群中心在同一个集群中是一个相对密集的区域,保证类内的高度相似性。然而,类之间的相似性与类内的相似性是相似的,这也是集群结果的一个很好的指标。对于相同的数据集,最佳簇数是常量。该算法得到的聚类中心也是固定的,保证了算法的稳定性。
当dbi得到最小值时,说明聚类效果最好,此时k是最优的聚类数。在这里进行最终聚类的聚类中心是K-1动态分配后得到的最佳K聚类中心。它严格按照数据的特点生成,可以有效避免聚类结果的波动。同时,该机制所产生的最佳聚类中心可以避开密度较低的点,从而大大提高聚类精度。
输入:一个包含n个数据对象的数据集,邻域半径r用于确定点的密度,稠密点的数目m作为初始候选簇中心,初始dbi值和算法终止条件。输出:K簇,评价函数值E和算法运行时间。改进后的算法实现步骤如表3所示。
表3 K-均值算法步数算法步数
数字算法步骤 |
|
第一步 |
我们计算每个数据点的点密度,并将具有最高点密度的m点添加到候选集d0中。 |
第二步 |
我们从设置的D0中选择密度最高的两个点作为初始群集中心,并从D0中删除它们。 |
第三步 |
我们从设置的D0中选择距离前两个群集中心最远的点作为下一个群集中心,并从D0中删除它。 |
第四步 |
我们根据上述集群中心迭代n个数据点,计算类之间的平均相似性dbi。 |
第五步 |
如果新获得的类DBI值之间的平均相似性小于最后一个DBI值,则算法继续执行步骤6。否则,将最小DBI对应的聚类中心作为k均值算法的初始聚类中心,执行步骤7。 |
第六步 |
我们根据公式更新聚类中心,从D0中选择一个点,得到更新后的聚类中心之间的最大距离。我们将使用它作为下一个群集中心,将其从D0中删除,然后转到步骤4。 |
第七步 |
我们执行k-均值聚类。 |
4.2通信网络数据聚类分析
为了提高小区通信网络数据的聚类精度,必须对小区通信网络数据进行异常分析,去除小区网络数据中的孤立小区。通过改进的离群值检测算法对小区通信网络数据进行异常分析。本文所用的仿真数据是基于对异常数据点的去除。整个数据集包含1626个单元的网络数据。对于1626小区通信网络数据,我们不知道集群的确切数量。因此,模拟的思想是使用改进的算法在第四章中确定最佳簇数为k,然后用k作为k均值算法和最大最小距离算法对簇数参数进行聚类实验。比较了三种算法在小区通信网络数据中的仿真时间、迭代次数和评估函数值。表4显示了聚类结果。
表4 小区通信网络数据聚类结果
类别 |
包含的数据对象数 |
评价函数值 |
1 |
416 |
75,024 |
2 |
351 |
98,366 |
3 |
52 |
42,112 |
4 |
134 |
44,866 |
5 |
144 |
48,092 |
6 |
|
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。