TensorFlow深度神经网络的早期稳定特征选择外文翻译资料

 2021-12-05 06:12

英语原文共 7 页

TensorFlow深度神经网络的早期稳定特征选择

摘要 - 特征选择是机器学习模型中特征向量的各个元素按其对该模型的准确性的相对重要程度进行排序的过程。一些特征排序算法只用于单个模型类型,例如Garson和Goh的基于神经网络权重的特征排序算法。其他特征排序算法则没有明确要求,例如Br​​ieman的扰动特征排序算法。本文为Google的TensorFlow深度学习框架提供了基于神经网络权重和扰动特征排序算法的实现。此外,本文介绍了这两种特征排序算法的新型混合方法,该算法在深度神经网络的训练时期早期产生稳定的特征排序。特征等级的早期稳定可以在模型搜索和特征工程期间节省相当多的计算周期,其中必须比较特征向量的许多表示。本文通过实证证明所引入的混合权重扰动算法比已建立的算法实现更早的稳定性来演示所有三种算法。

关键词 - 特征选择,特征选择,深度神经网络

  1. 介绍

多年来,将最重要的输入变量识别并优先考虑神经网络的能力一直是研究的焦点。有效特征选择技术带来的性能优势已得到很好的建立,因为在神经网络的训练和分类之前应用这些技术时,已经发现这些技术可以提高学习速度,使学习者更具通用性,并简化数据的表示。然而,这些技术尚未在新兴深度学习技术中发挥最大潜力。

本文描述了一种基于TensorFlow的部分训练深度神经网络评估合理稳定特征集的方法的开发。本文包括该领域先前研究的概述,特征选择方法的描述,以及使用TensorFlow进行的一系列评估结果的讨论。本文的主要贡献是开发了一种新的混合特征选择和深度神经网络排序算法,该算法比已建立的算法更早稳定。本文的第二个贡献是开发TensorFlow工具包,除了新的混合特征选择算法外,还包括基于包装器,基于滤波器和嵌入式的特征选择。

  1. 背景

特征选择算法可分为四类:包装器,滤波器,嵌入式和混合。这些算法中的每一个为不同的应用提供不同的益处,并且可以使用各种算法来实现。本文重点介绍代表这些特征选择方法的算法,包括重要性函数,具体包括:输入扰动特征选择,相关系数特征选择,权重分析特征选择和混合算法。

  1. 输入扰动特征选择

基于包装器的特征选择方法使用学习算法验证特征子集的良好性,而不是使用度量来评估任何单个特征的有用性的基于过滤器的特征选择算法。当生成特征的最佳排序时,该过程结束。包装器选择方法使用搜索算法通过数据集搜索可能的特征,并且不断评估子集。通过使用学习算法进行特征选择,包装器方法比过滤方法具有更好的准确性。除了可能过度拟合学习算法之外,基于包装器的算法的主要缺点是它们需要大量的计算资源。

包装器算法,例如输入扰动特征选择算法,利用神经网络和数据集。用于该算法的数据集不必与其训练的神经网络的数据集相同。

输入扰动特征选择算法在神经网络的每个输入特征被算法扰动时计算神经网络的损失。这个想法是当一个重要的输入被扰动时,神经网络应该具有与该输入的重要性相对应的损失增加。因为输入被扰动而不是完全移除,所以没有必要为每个评估的特征训练新的神经网络。相反,该特征在所提供的数据集中受到干扰。该特征以这样的方式被扰动,即它对神经网络提供很少或没有价值,但神经网络保留该特征的输入神经元。在评估每个输入时,不会对神经网络进行任何更改。

为了成功扰动输入扰动特征选择算法的特征,必须满足两个目标。首先,输入特征必须被扰动到它现在对神经网络提供很少或没有预测能力的程度。其次,必须以这样的方式扰动输入特征,使得它不会对被扰动的特征之外的神经网络产生不利影响。这两个目标都是通过改组或扰乱要评估的列来完成的。通过对列进行混洗,将为每个预期目标显示错误的输入值。其次,混洗确保列的大多数统计度量保持不变,因为列将保持相同的分布。

  1. 相关系数特征选择

基于过滤器的特征选择算法使用度量来对每个特征进行分类。排序较低的特征被消除。在评估特征子集的适应性时考虑数据的固有特征。基于过滤器的特征选择技术不使用学习算法并且需要较少的计算资源; 然而,得到的特征子集可能不是分类算法的良好匹配。

相关系数特征选择是一种滤波算法,其计算每个神经网络的输入特征之间的相关系数的绝对值。该值可用于估计每个输入特征对神经网络或任何其他模型的重要性。相关系数越高,特征的重要性越大。包含每个输入特征的绝对值的向量通常被归一化,使得整个向量总和为1。这是通过将每个系数的绝对值除以所有这些绝对值的总和来实现的。

  1. 权重分析特征选择

嵌入式特征选择是自发的,没有额外的过滤步骤作为某些学习算法(如决策树和神经网络)的训练过程的一部分。

许多嵌入式算法已经实现,这些算法从神经网络的权重中获得特征选择。许多这些权重分析算法,尤其是Garson算法和权重对算法,需要单个隐藏层,并且与深度神经网络不兼容。因此,该工具包实现的基于权重分析的特征选择算法是Garson和连接权重算法提出的算法的简化。现有的基于权重的算法考虑输入和隐藏层之间的权重,以及隐藏层和输出层之间的相应权重。当仅存在单个隐藏层时,重要的是考虑两个层之间的权重。图1显示了当通过Garson或连接权重算法计算给定神经元的重要性时考虑哪些权重。在该图中,正在考虑输入I1的重要性。实线表示算法使用的权重,虚线对计算不重要。隐藏的神经元标记为H,输入标记为I,偏置标记为B,输出标记为O。

图1. 用于重要性计算的神经网络权重

输入和每个隐藏神经元之间的权重是该输入重要性的主要指标; 然而,Garson和连接权重算法通过将输入与隐藏权重相乘乘以相应的隐藏到输出权重来实现更高的准确性。这允许它们的重要性通过它们最终将相乘的输出权重来缩放。这两种算法都没有利用神经网络中的偏差权重。

  1. 混合特征选择方法

混合特征选择方法使用独立测量结合学习算法来评估来自原始数据集的子集的有效性[9]。在文献中有许多这种方法的例子。在文献[10]中,开发了一种基于蚁群优化和互信息(ACOMI),并应用于澳大利亚气象局预报员的混合特征选择。与蚁群优化或单独使用的互信息相比,其性能得到了改进。在文献[11]中,提出了一种基于粒子群优化方法和互信息(PSO-MI)混合的特征选择算法。与粒子群优化或单独使用的互信息相比,PSO-MI显示瞬态肌电信号数据集的准确度提高。Zhang等人通过结合Relief和最小冗余最大相关性(mRMR)来开发基因表达数据的两阶段选择算法。作者使用支持向量机(SVM)和朴素贝叶斯进行了比较mRMR-ReliefF选择算法与ReliefF,mRMR和其他特征选择方法的实验。实验表明,与单独使用的mRMR或ReliefF相比,使用mRMR-ReliefF算法进行基因选择可以改善结果。

在文献[13]中,提出了一种基于蚁群优化和模拟退火(ACO-SA)相结合的混合进化算法。在ACO和SA的帮助下选择了集群中心的初始选择,以实现全局最优。蚁群优化用于在数据点之间查找菌落。模拟退火被用作良好的局部搜索算法,用于使用累积概率找到最佳全局位置。在文献[14]中描述了一种组合cAnt-Miner2和mRMR特征选择算法的混合算法。cAnt-Miner2算法是一种处理cAnt-Miner算法引入的连续属性的扩展方法。而cAnt-Miner算法是Ant-Miner的扩展。

Ant-Miner具有连续属性,因此在规则构建过程中采用了基于熵的离散化方法。cAnt-Miner动态创建连续属性的离散间隔,不需要离散化方法进行预处理。与仅使用cAnt-Miner2相比,使用公共医学数据集的cAnt-Miner2和mRMR的组合的实验结果产生了改善的结果。与原始cAnt-Miner2算法相比,所提出的组合在准确性,简单性和计算成本方面更好。

在文献[18]中,支持向量递归特征消除方法被应用于包含mRMR过滤器的基因选择。该方法改进了几个基准数据集中良性组织中癌组织的鉴定,因为它分别与mRMR或SVM-RFE相比,解释了基因之间的冗余。文献[19]则描述了一种基于互信息(MI)和主成分分析(PCA)称为MI-PCA的度量的高光谱数据降维方法,使用互信息度量来寻找空间上最像所有的主成分 目标类。作者使用超光谱数据进行了实验,其中191个波段覆盖华盛顿特区; 结果显示,使用MI-PCA从191中选择的两个特征分别为训练和测试数据提供了98%和93%的分类精度,使用支持向量机分类器。

本文还评估了几种进化算法的能力,包括二进制粒子群优化和选择最佳特征集的不同演化。然后使用神经网络和支持向量机来应用每个进化算法,以查看哪种算法始终如一地产生最佳和最简洁的特征集。他们的实验表明,不同的进化算法通常使用较少数量的特征实现更高的预测精度。使用不同的演化,所选特征的总数减少了68%,从而大大减少了整体状态空间,这必须通过用于分类的机器学习算法来维持。

虽然已经应用了许多技术来改进特征选择,但是各个特征对神经网络执行的分析的相对重要性是本研究的焦点问题。Garson创建了一种算法,可以对输入神经元的重要性进行排序,以便通过对被评估的输入和输出之间的所有权重求和来揭示神经网络的行为。Goh使用反向传播神经网络通过检查连接权重来确定某些变量在岩土应用中的重要性。Goh的方法提供了Garson算法的额外细节和经验验证。

Olden 扩展了Goh的方法,并使用Garson算法和其他算法来更好地理解神经网络的机制。他们开发了一种随机化方法,能够获得连接权重的统计重要性以及神经网络中各个输入变量的贡献。该方法使他们能够将各种输入变量的个体和相互作用贡献解释为神经网络。更重要的是,所采用的随机化方法有助于识别对神经网络产生的预测贡献最大的变量。这允许消除对分析没有显着贡献的神经元的空连接。Olden的方法通常被称为连接权重算法。Garson,Goh和Olden提出的算法需要单个隐藏层,并且不能与深度神经网络直接兼容。

虽然所有神经网络实现都可以从输入空间中的关键特征的识别中受益,但是基于深度学习的神经网络通过使用有效的特征选择/重要性技术而获得特别的优势。在深度生成模型中,TensorFlow 被应用于各种日益复杂的数据集。如果使用包装的应用所需的培训时间减少,TensorFlow提供的潜力可以显着提高。然而,在此研究之前,没有办法从基于TensorFlow的部分训练的深度神经网络评估合理的稳定特征集。

  1. 途径

本研究提出了一种新的深度神经网络混合特征排序算法。该算法具有快速收敛到特征选择的稳定排序的优点。在评估许多功能的重要性时,这需要较少的训练迭代。此外,本研究开发了TensorFlow工具包,该工具包实现了上述特征排序算法:输入扰动特征选择,相关系数特征选择,权重分析特征选择和新的混合算法。

  1. TensorFlow工具包

为TensorFlow创建了一个工具包,它实现了每个排序算法。基于TensorFlow的功能重要性工具包是使用Numpy数值框架在Python编程语言中实现的。

该工具包将各个功能重要性算法实现为以下Python类:

  • CorrelationCoefficientRank
  • InputPerturbationRank
  • WeightRank
  • HybridRank

这些类均提供了下面的排序函数:

xy参数指定输入值和目标值。network参数指定要排序的神经网络。但并非所有排序算法都需要定义所有参数。

来自加州大学欧文机器学习库的样本数据用于评估所有四种算法的性能。使用具有隐藏层计数为200,100,50和25个神经元的神经网络。该神经网络使用ReLU 传递函数用于隐藏层,并使用线性传递函数用于输出层。使用自适应矩估计(ADAM)训练算法,学习率为0.01,小批量大小为32,以及原作者建议的所有其他训练参数。预留了25%的验证集,其余75%用于培训。训练神经网络直到验证集没有改进200次迭代。

  1. 相关系数特征选择

此工具包提供的相关系数功能重要性由以下伪代码演示:

该函数遍历所有输入特征(x)并计算每个与目标(y)之间的相关系数(c)。

这种简单的特征选择技术不需要训练模型。相关系数特征选择提供的特征选择在特征的重要性被独立考虑的意义上是完全单变量的。多变量特征分析认识到一个特征通常会影响另一个特征的重要性。对于复杂数据集,输入特征之间存在许多相互作用,相关系数特征选择的单变量性质可能是一种限制。因为相关系数特征选择完全取决于数据集,并且不考虑模型,所以对于神经网络的每个训练迭代,特征选择保持相同。在这个意义上,措施是稳定的; 然而,这种方法的单变量性质降低了复杂数据集的准确性。

  1. 权重分析特征选择

由于为本文实现的工具包旨在与TensorFlow一起使用,因此没有实现需要单个隐藏层的算法。相反,工具箱提供的权重分析算法仅使用对第一隐藏层隐藏权重的输入。工具包的权重分析算法在这个庄园中实现有两个原因。首先,Garson和连接权重算法的原始论文没有提供任何超出单个隐藏层的算法实现方向。

其次,随着许多层和连接的增加,每个隐藏权重对每个输入神经元权重的重要性度量的直接影响得到缓解。与扰动算法相比,仅使用输入权重的工具箱算法提供了

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。