基于混合基因表达编程的传感器数据关联挖掘外文翻译资料

 2022-01-18 09:01

英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料


基于混合基因表达编程的传感器数据关联挖掘

摘要:为了提高反射率估计的精度,本文研究了反射率估计模型问题。我们提出了一个包含两个核心过程的模型:降维和模型挖掘。首先,提出了基于依赖度(DRNDDD)的高光谱数据降维算法,以减少冗余的高光谱波段。DRND-DD利用粗糙集理论解决了高光谱波段的选择问题。为了提高模型的计算速度和精度,基于DRND-DD,提出了利用杂交基因表达规划(REMLNC-HGEP)对高光谱数据进行叶片氮浓度反射率估计模型挖掘(LNC)。三个数据集上实验结果表明DRND-DD算法可以获得好的结果和很短的运行时间与主成分分析(PCA)相比,奇异值分解(计算),一个降维算法的基础上,积极的地区(AR-PR)和基于识别矩阵降维算法(ARDM)和REMLNC-HGEP平均时间消耗低,矿业successratio和估计精度高的模型。结果表明,该方法优于回归方法。

关键词:反射率估算;降维;基因表达编程;模型挖掘

1核导管

基于高光谱传感器数据的模型挖掘是数据处理的一个重要分支。从高维、复杂的高光谱传感器数据中提取有用的知识对于传感器数据在广泛行业中的应用至关重要[1-10]。传统的基于高光谱传感器数据的模型挖掘方法是现场采样和实验室确定。然而,该方法在采样、测量和数据分析方面容易出错,而且耗时。在许多基于高光谱传感器数据的模型挖掘应用中,叶氮浓度的反射率估计模型挖掘是最重要的。由于液氮的变化可能影响叶片内部组织的生理特性,引起特定的反射光谱。随着特性的改变,可以通过建立反射光谱与LNC之间的模型来进行LNC的评价。许多研究集中在确定液氮或冠层氮浓度与光谱带或衍生光谱指数之间的关系[11-18]。然而,大多数回归方法[19,20]依赖于先验知识和许多主观因素。同时,这些方法对于复杂和高维的高光谱数据具有较高的时间复杂度和较低的计算效率。本文提出了一种基于高光谱数据的LNC反射率估计的混合基因表达编程算法。本文工作的主要贡献如下:(1)对于高光谱传感器数据,大部分降维方法优先于回归方法。这些方法不可避免地导致高光谱数据中部分决策信息的丢失。然而,粗糙集并没有改变原始高光谱数据的决策规则。本文提出了一种新的基于依赖度的噪声数据降维算法,用于寻找最佳的高光谱波段。(2)传统的LNC与高光谱波段之间的估计模型挖掘算法依赖于先验知识。这将导致传统的评估模型具有太多的主观性。在高光谱波段降维的基础上,应用基因表达编程方法,建立了高光谱波段与低光谱波段之间的估计模型。本文的其余部分组织如下。在第二节中,我们简要介绍了相关的工作。第三节介绍了基于依赖度的噪声数据降维算法。在第四节中,我们提出了基于混合基因表达编程的高光谱数据反射率估计模型挖掘。第五节和第六节给出了仿真结果,并在第六节中对本文进行了总结。

2相关工作

2.1 LNC模型估计

Yao等人的[12]研究表明,小麦叶片氮浓度的敏感谱带主要存在于可见光区和近红外区。发现三个光谱指标对小麦LNC的估计最优,并建立了基于这些光谱指标的回归模型。Wang等人在现有指标和相关分析的基础上构建了新的LNC估计光谱指标。在此基础上,建立了水稻和小麦LNC与新的光谱指标之间的线性回归模型。Sun等利用BP网络、LM神经网络和贝叶斯神经网络建立了水稻LNC估计的频谱模型。他认为LM神经网络在预测精度[11]方面是最好的。Zhai等人比较了偏最小二乘回归(PLSR)和支持向量机回归(SVMR)两种方法,利用可见和近红外反射光谱[17]估计不同植物叶片的LNC。他指出,SVMR方法具有较好的估计精度,具有估计LNC的潜力。Du等人利用支持向量机(SVM)回归估计了基于高光谱激光雷达的水稻叶片氮含量。结果表明,该方法可以帮助农民制定更准确的施肥策略。Kalacska等人利用对植物功能类型不敏感的模型,从高光谱数据中估算了叶片氮含量。针对氮素状态估计,Sumriddetchkajorn等人提出了一种基于单波长的水稻叶片颜色分析仪。这些方法可用于LNC的估计。然而,这些传统的回归方法依赖于先验知识和许多主观因素。此外,这些方法对复杂的高维高光谱数据具有较高的时间复杂度和较低的计算效率。

为了解决这些问题,Koza等人采用遗传规划(GP)作为数学模型,得到了良好的实验结果[24]。同时,GP也避免了传统统计方法预先选择函数模型的缺陷。然而,GP挖掘的函数模型效率较低。因此,葡萄牙生物学家费雷拉在2001年提出了一种新的算法,称为基因表达编程(gene expression programming, GEP)[25,26]。与GP相比,基于GEP的复杂函数挖掘效率提高了4-6倍。

2.2基因表达编程

本研究采用基因表达规划(GEP)算法,利用高光谱波段对不同植物的LNC进行估计。GEP是一种从数据中进行模型学习或公式发现的进化算法[27,28];它使用搜索和优化技术,通过随机生成表达式来解决特定的问题,这些表达式被编码为树结构。根据表达式的适应度,得到最优解。对于GEP,在建立LNC与高光谱波段之间的估计模型时,不需要先验知识。到目前为止,GEP在资源评估和环境建模中的广泛应用已经被报道[29-33]。

此外,Yassin等人将基因表达编程引入到沟灌入渗[34]预测模型中。比较结果表明,与传统算法相比,GEP具有明显的优势。Zorn等人在对比区域洪水估计(RFE)方法[35]的基础上,提出了一种基于基因表达规划的洪峰估计模型。Yassin等分别利用人工神经网络和基因表达程序对干旱气候下的日参考蒸散量进行估算,结果为[36]。Dey等人利用基因表达程序预测了传热特性。结果表明,该方法可以提高圆柱体的传热速度。

在所有最新的著作中,基因表达编程都是一种鼓舞人心的算法。这说明基因表达规划具有强大的函数模型挖掘功能,非常适合于建立LNC与高光谱波段之间的非线性模型。

2.3高光谱数据降维

此外,在用这些方法估计LNC时,还应考虑高光谱数据的降维。高光谱数据通常由数百甚至数千个窄带、连续谱带组成[38,39]。许多相邻波段相关性强,含有冗余信息[40-42]。因此,降低高光谱数据的维数是必要的。在建立线性回归模型之前,以往的研究中总是使用相关分析法来选择最优的高光谱波段[12,15]。采用神经网络算法[43]时,采用主成分分析(PCA)来降低高光谱数据的维数。另一种波段选择技术是逐步回归方法[44]。

虽然对于高光谱数据降维的方法有很多,但目前还没有确定估计各植物LNC的最佳波段。这些高光谱数据降维方法不可避免地会导致部分决策信息的丢失,而基于粗糙集[45]的降维方法并没有改变原始数据集的决策规则。

3含噪声数据的维数约简算法

在本节中,我们将把粗糙集引入含噪声数据的维数约简中。

3.1初步工作

高光谱数据是非常大的和高维的。由于相邻波段之间的相关性很强,许多波段是冗余的。因此,高光谱数据的分析是复杂的,需要通过选择最相关的光谱波段[46]来简化。因此,要建立LNC与高光谱波段之间的模型,首先要对高光谱数据进行分析。通常,所有作物、树木和其他植物的高光谱数据都包含数千个光谱属性。为了更好地描述高光谱传感器数据,定义了高光谱数据决策表。

定义1. 让数据表'当和分别表示高光谱数据集、高光谱带、叶片含氮量水平、高光谱带集、叶片含氮量值和信息函数。且对则数据表称为高光谱数据决策表。

为了理解基于粗糙集的高光谱数据降维算法,本文首先简要介绍了粗糙集的相关概念[45]。

定义2.让高光谱数据决策表且当且仅当 则和不可区分,用或表示。

定义3. 让高光谱数据决策表它的正区域

定义4. 让高光谱数据决策表对于相同的条件属性值,相应的决策属性值也相同。高光谱数据决策表是一致的。

定义5. 让高光谱数据决策表是一致的。则条件归因和决策归因之间的依赖度用表示。对当则条件属性是可约化的,其中表示高光谱数据集中的元素数。

3.2算法描述

为了更好地利用GEP挖掘LNC与高光谱波段之间的模型,必须对高光谱波段进行约简,以降低计算复杂度。然而,在作物监测数据采集过程中,由于人为、网络或采集设备的原因,会产生大量的高光谱噪声数据。对于有噪声的高光谱数据,属性约简必然会影响约简的精度,最终导致LNC估计模型的精度。因此,有必要对属性约简过程中的噪声数据进行查找和去除。这可以减少属性约简过程中的噪声影响。提出了一种新颖的基于依赖度的带噪声数据降维算法。在降噪之前,首先找到了基于最近距离的噪声数据检测算法。该算法可以在不需要先验知识的情况下找到噪声数据并删除噪声。首先给出了噪声数据的定义。

定义6. 距离阈值,为分数阈值,并且

为个数据。如果那么数据对象称为噪声数据。

基于最近距离((NDD-NearDis)的噪声数据检测如下。

基于算法1,我们假设高光谱数据决策表是一致的。通过计算高光谱波段与叶片含氮水平之间的依赖程度,可以减少高光谱数据的特征属性。DRND-DD的流程如下。

;

  1. if
  2. end
  3. end
  4. end
  5. end

Output:

  1. if
  2. end
  3. end
  4. end
  5. ifthen
  6. end
  7. end
  8. return

整个算法的时间消耗主要发生在计算每个高光谱波段的依赖度时,因此,该算法的时间复杂度是近似的。

4.LNC的反射率估算模型挖掘

4.1算法概述

LNC的反射率估计本质上是建立LNC与高光谱波段之间的非线性函数模型挖掘。在模型挖掘方面,LNC的反射率估计可以理解为在LNC和高光谱波段之间建立模型,并根据模型确定LNC反射率估计的过程。采用传统的回归方法对植物的生化含量进行估计。多元线性回归(MLR)已被用于估计LNC[13,47,48]。偏最小二乘回归(PLSR)和支持向量机回归(SVMR)被认为是估算植物叶片氮含量的有效方法[17,49]。Elfatih M. Abdel-Rahman等人应用随机森林回归估计LNC[17]。这些方法依赖于先验知识和若干主观因素;因此,复函数模型的建立并不容易。同时,这些方法假定LNC与高光谱波段之间的模型类型是预先知道的。针对这些问题,提出了基于DRND-DD的LNC高光谱数据反射率估计模型挖掘方法。

4.2 REMLNC-HGEP编码

GEP编码是REMLNC-HGEP的一种重要表达形式。为了解释REMLNC-HGEP的编码,相关定义如下。

定义7. 将函数设置为和端子组, 其中代表高光谱带的数量。然后,根据参考文献[26]中的规则和符号构建的基因称为LNC基因(ELNC基因)的估计。

“头”的ELNC-基因comprises元素的吸附的和,而“尾”的ELNC-基因 comprises元素的吸附。此外,长度吸附的和后的方程:

其中,表示基因头部中操作子的最大参数个数。

REMLNC-HGEP采用固定长度的线性代码表示个体,称为染色体[50]。染色体由一个或多个elnc基因组成。然而,线性代码可以精确地显示不同形状和大小的表达式树(ETs)。在解码过程中,从上到下,从左到右遍历ETs。最后给出了函数模型。下面的示例1演示了REMLNC-HGEP的编码和解码。

例1:设函数集为,终端集为,基因头长度为,其中“”、“”“”表示高光谱数据中的频带。由函数集可知,所有算子的最大自变量个数为2。由式(1)可知,基因尾巴的长度为five。随机产生的染色体如图1所示。

图1:GEP中的随机染色体

图1所示的染色体由两个基因组成。对应的ETs如图2所示。

图2:相应的资产

对子et1和子et2进行解码。解码结果由加法函数链接,并由mathematica软件[51]进行简化。最终的函数模型是

4.3 RELNC-HGEP说明

为了更好地描述RELNC-HGEP,在介绍RELNC-HGEP算法之前,给出了相关概念。

定义8.令 为基于混合GEP的LNC估计函数的最佳适配值,并且为最大保真度值;然后,称为函数挖掘成功率对LNC(FMSR-ELNC)的估计。

定义9.在RELNC

全文共29335字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[1074]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。