监测海洋环境的混合隐马尔可夫模型外文翻译资料

 2022-07-07 02:07

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


监测海洋环境的混合隐马尔可夫模型

摘要:浮游植物是水质评估的一项重要的指标。为了理解浮游植物的动态发展过程,实施了许多固定浮标和纤维板箱,产生了实质性的数据信号。收集到的数据被用作一种有效的监测系统的输入。这个系统是基于无人管理的隐马尔可夫模型(HMM)的,不仅是为了检测浮游植物的繁殖而设计的,也是用来理解他们的动态生长过程的。重复使用期望最大化方法(EM)估计HMM参数。我们计划使用谱聚类算法估计HMM参数。来自法国波洛格内的M-C站的数据库信号评估监测系统。实验结果显示,在没有先验知识的情况下,推荐的系统在检测例如浮游植物生长时期和非生长时期的环境状态很有效力。而且,发现的状况与生物解释是一致的。

关键词——隐马尔可夫模型,海水水质监测,浮游植物繁殖,谱聚类

1.引言

在海洋和河流的水质评估和管理的框架中,浮游植物作为水质短期和长期变化的指标,在水质监测中起着很重要的作用。的确,浮游植物细胞通过改变生理机能能够整合自然和人为引起扰乱。海洋战略框架指令强调预防和早期检测浮游植物大量繁殖(有害但是无毒)的重要性,也强调了理解他们物质性和突然性的营养状况的重要性。

这种监测系统的优势来源于计算机技术的发展,有效的低成本传感器的可用性和遥感产生多维信号的部署。因此,检测有着多元时间序列的复杂的系统需要数学模型和有效的工具。近来,由于在细胞分类学获得的信息,机器学习方法被用来检测有害的藻类植物的大量繁殖。这样的系统是通过遥感(支持向量机和概率神经网络)整体观测或者流式细胞仪数据集(径向基函数神经网络)局部观测发展的。

为了监测浮游植物动态过程, 高频(HF)多传感器系统实施了许多船舶仪表站,固定浮标和渡船箱。通常,由于传感器读数,通信故障以及缺乏环境信息(分类单元)等问题,收集的数据不完整。因此,无监督或半监督的机器学习方法适用于浮游植物动态监测。

本文着重介绍如何在无监督的情况下,建立一个基于M-C站的高频多传感器信号的海洋监测系统。该海洋站每20分钟测量一次物理化学参数和生物参数。信息的缺乏阻止在高频设立一个培训数据库。实际上,MAREL-Carnot站并未直接获得有关浮游植物分类组成和当地活动(如疏浚和开放水坝)的信息。该地区补充区域监测计划的解决方案太低(目标不同)。

隐马尔可夫模型(HMM)是一种适应性很强的随机信号模型,用于表示时间序列动态。HMM在语音和手写识别中的成功导致其在海洋监测中的应用。HMM方法基于由状态和符号定义的静态参数以及与状态转换和观察符号概率相关的动态参数。例如,在语音识别中,单词是由转移概率构成的音素序列(状态),其中每个音素被认为是具有一些发生概率的谱指纹(符号)。

HMM建筑不仅需要估计状态的数量,还需要估计每个状态的特性。通常,HMM参数通过带标签的数据库进行学习或用先验信息修正。在这里,我们解决使用混合HMM的浮游植物花期预测问题。这项工作的具体目标是设计一个能够从大型数据库中模拟浮游植物动态的系统,而且不需要现有的知识。为此,使用谱聚类(SC)算法来生成完全无监督的HMM以生成HMM符号和状态。

本文的结构如下。第二节描述了监控系统和三部分提出的混合HMM。第II-A节讨论通常的无监督技术来构建HMM,并且SC方法被认为是估计HMM静态参数(状态和符号)。第II-B部分详细描述了通过自调整快速K-means(STFKM)提出的算法生成HMM符号。II-C部分通过SC算法定义HMM状态生成。第III节描述了试验方案和从IFREMER MAREL-Carnot站采集的采集数据,该站记录了HF分辨率下的水体特征。首先,建立一个固定的2态HMM,以便评估由于人工标记而产生的符号和状态。因此,我们的算法与其他机器学习技术进行比较。然后,在第四节中,提出了完全无监督的N状态HMM的实验结果,并与检查生物学期望有关。

2.基于混合隐马尔可夫模型的监控系统

图1给出了所提出的监控系统架构。2005年至2008年在HF分辨率收集的数据首先进行了预处理。然后,应用聚类步骤来查找环境状态。最后一步依赖这些状态之间的时间信息来开发浮游植物动态过程模型。建立的模型用于预测新的或即将到来的浮游植物水华或特定状态(图1中的分类/警示框)。

A.隐马尔可夫模型

根据Margalef 和Reynolds等人强调的正常浮游植物演替过程的工作,我们假设浮游植物生物量受到连续观测中高度依赖的限制。 此外,它可能被看作是沿着环境状态进行概率性漫步的结果。 因此,让我们看看如何设计一个遍历式隐马尔可夫模型来表征在无监督情境下来自物理化学和生物参数的浮游植物花粉动态。

使用两个静态集合和三个计算出来的概率集合定义了一个HMM,

  1. 是具有N个不同状态数的状态集合。例如,非生产性时期:开花前,开花,后花苞和其他罕见事件,如大坝开放,工厂或农业排放。 州的数量通常由专家设定,与应用程序相关或由惩罚最大似然标准自动确定。

2)是符号集合,M是不同符号的数量。 在最简单的情况下,观察符号对应于系统输出。 环境状态不是每个状态都有一个独特的代表,两个系统输出可以属于几个状态。 因此,有必要通过矢量量化来构建符号的码本。 所以,数据空间将由这个M码元的码本V表示。

3),大小为N,定义初始概率分布,。没有关于在数据采集期间占优势的状态的信息。 先验的初始状态是等概率的。

4)的大小为,定义了转移矩阵,其中条件概率。 因此,估计我们从状态移动到状态的次数,然后A在行中归一化。

5)大小为Ntimes;M,用定义发射概率。

从没有任何标记状态的有限观察序列中,HMM符号,转换和发射矩阵[12]被迭代地调整。期望最大化(EM)方法与最小描述长度(MDL)约束的熵准则一起用作惩罚最大似然准则[13]。无论使用的标准是什么(贝叶斯信息准则及其派生的),EM性能取决于初始化步骤,并且对于大型复杂数据库可能是耗时的。为了避免HMM迭代参数估计和初始化步骤,我们选择使用SC方法从单路算法的空间信息中生成HMM状态和符号参数。

SC [14],[15]是基于来自原始数据集的Gram亲和矩阵的特征分解的多重方法。 特征向量表示一个新的特征空间,数据通过K均值算法简单聚类。 它成功地对凸和非凸分布式数据进行聚类。 SC算法已经解决了几个应用:图像分割,语音识别,信息检索等[16]。 最近,已经开发了一些算法来避免它们的调整要求:构建亲和函数并找出簇的数量。 这些步骤使用技术自动完成,尤其是[17],[18]。 参考文献[19]和[20]允许用大量数据处理应用程序。

混合HMM建筑物在图2中示意性地示出。矢量量化的步骤允许提取HMM符号。 从这些符号中,SC算法提取HMM状态。 然后从观察序列计算HMM发射和转移概率矩阵。 转换矩阵A由发生次数从一个状态转移到另一个状态来确定。 B矩阵对应于观察点既处于状态又处于符号中的次数。

当收集新数据时,它与其最近的符号相关联。 然后应用维特比算法[21],[22]估计其环境状态。

B.符号生成

MAREL-Carnot数据库自2004年11月以来每年由26个280times;19个参数组成。为了发现这个大型数据库中的基础状态,需要实例选择。 K均值算法是一种适应性很强的矢量量化方法,也是数据聚类的热门[23]。主要思想是从一组观测记录中构建矢量原型,记为保存HF信息的个数据点。对快速K均值算法[24]进行修改,以获得基于Hartigan-Wong算法[25]和Elbow准则的自调整K均值:簇K的数量递增直到解释方差的固定百分比或满足Kmax保留的原型(即符号)数量。这个被提出的算法的原理叫做STFKM,如图3所示。大型数据库的中心初始化(点数Ngt; 20 000)对于加快进程收敛非常重要。 Kmax是用户指定的最大减少点数,或者在默认情况下,是时间序列中的度量数。变量Explained是用户所需的解释差异;默认情况下,该数字设置为95%。

C.通过SC状态生成

在经过预处理的数据的STFKM过程之后,M个符号汇总整个数据库。 从这些M个符号中,通过无监督聚类来检测N个状态。 每个MAREL-Carnot物理化学参数遵循一个静态,非线性和非平稳过程(海平面除外),见第三节。 它们具有非高斯分布,并且环境状态表征未知。 因此,SC方法是避免关于数据形状的一些假设的最佳方法。 SC能够对连接的数据进行分类,但不一定是紧凑的,或聚类在凸面边界内。 实际上,SC的关键思想是将输入数据空间转换为可应用K均值聚类的新特征空间。 Ng等人最典型的方法。 [14]在图4中回顾。

SC算法输入中簇K的数量和构建Gram亲和矩阵W的方式都对分类结果有显着影响。 高斯核函数是用于构造的最广泛使用的函数

缩放参数有助于稀疏矩阵并倾向于获得具有鲁棒特征分解(即在理想情况下,前K个特征值等于1)的理想情况。 但是,的错误选择带来了错误的分类。 Zelnik和Perona(ZP)[17]或Kong等人[18]提出了一个基于邻域的每个数据的局部尺度参数,而不是选择一个统一的尺度参数。 ZP亲和度矩阵W被选择为z邻域(在点的第z个相邻位置上)

许多作者提出通过分析特征值大小(等于或最接近1)或eigengap或特征向量(参见[18],[26]和[27])来克服簇数K的选择。 为了选择用于HMM拓扑的状态数量N,使用eigengap方法:它是最简单的实现方式,并且它具有最低的复杂度。

从M个符号的SC开始,从STFKM步骤发出,我们分配观测数据由于它们的聚类中心的标签。

III 数据和固定的2态HMM验证

根据MAREL-Carnot多变量海洋信号的第二部分所述的方案构建一个HMM,以模拟Boulogne-sur-Mer周围法属海峡海岸的浮游植物动态。 数据及其曲线可在网站(http://www.ifremer.fr/ difMarelCarnot /)上获得授权请求。 首先提供这些数据,然后是实验验证方案。

没有关于环境状况的基本事实并为了评估我们的系统,我们决定根据欧盟水指令框架(EU-WFD)的监测抽样策略创建一个自动数据标签。 因此,从3月到10月的数据被标记为,对应于生产期(生物量生产能力),其他为非生产期。 此外,这个标签将允许我们的系统与其他机器学习算法进行比较。

数据表示

MAREL-Carnot站记录19个信号:每20分钟16个水特征和每12小时3个营养水平。 这些信号详见表1.收集的数据信号来自不同的传感器。 他们需要预处理来尊重传感器范围和传感器时间校准。 如果发生传感器故障,其测量值不会保留(所有pH值和测量的海平面值都将被移除)。 传感器系列适用于Boulogne-sur-Mer生态系统。 时间校准通过移动平均技术以小采样率(20分钟)获得。 重复营养参数以获得相同的时间分辨率。 从这一步开始,2005 - 2008年的信号数据库在中包含105 192个点。 只有一半数据(48 157点)没有缺失值(由于传感器默认值)。 为了减少缺失值,应用超过一周的移动平均值(花期的时间尺度),导致= 84614点的完整数据。

图5显示了该数据完成后的五个信号:盐度,浊度和营养物(硝酸盐,磷酸盐和硅酸盐); 例如,可以看到剩余的硝酸盐浓度缺失测量结果。 经过相关性分析后, = 10物理化学参数(不相关)在表1的NC列中保留并详细说明。请注意,荧光信号未被考虑,但用于验证聚类结果,因为我们没有基础事实: 它是浮游植物细胞的存在指标。

当观测数据至少包含一个缺失值(在中)时,这一点不参与符号和状态的生成。 为了避免参数范围的影响,在每个参数上实现了定心和标准偏差定标。

从2005年到2008年的数据被认为是建立HMM参数。 为了测试时间建模,2009年的数据将使用相同的预处理协议进行测试。

B.矢量量化验证

首先分析表征状态所需的符号V的数量。 从数据中选择M个符号由100个随机图纸执行。 使用1-最近邻算法(1-NN)来评估每个状态的组分混合的近似值。 1-NN首先应用于每个参数,然后应用于多维矩阵(从2005年到2008年)。 K均值算法也被用来为每个状态建立K = M个代表。

考虑两个分数:速率识别(RR)和每月重叠定义为

是主要操作符,定义在第i个月期间标记为的点数。 根据EU-WFD,预计浮游植物生产期和非生产期不会重叠。

对于单维分析,水温ETCO1是最具辨别力的参数,每个状态每个样本的识别率从75.1%(plusmn;3.5)到1000个样本的77.8%(plusmn;0.4)。 对于多维分析,表二总结了不同M值的两个评分的均值和标准差,RR和重叠。 用一个独特的随机样本来近似数据分布给出较差的识别率(68.1%),并且通常是两个期望的环境状态中重要的重叠(18.4%)。 为了减少10%左右的重叠,需要100多个随机样本。

K均值算法是适用于线性可分数据集的几何方法。 该算法需要知道符号(中心)M的期望数量。这里,每个状态有10个符号,重叠大约为10%。 为了减少5%左右的重叠,每个州需要100个样本。

所提出的STFKM自动搜索描述数据结构的符号数量,并且它正在运行。 用学习机测试STFKM选择的影响:支持向量机(SVM)。 一个SVM模型(径向基核)在2005-2008年的数据中进行了训练,并在2009年的数据中进行了10次交叉验证。 对所有训练数据,每个状态的1000个随机选择的样本(M = 2000)以及从STFKM矢量量化发出的符号进行了三次SVM训练实验。

表3总结了支持向量机和重叠分数这三项研究的训练和概括(测试)的支持向量机能力。 在一般化过程中,STFKM算法允许保持类似的识别率(92.6%)和重叠分数(7.4%)而不需要抽样支持向量机。

全文共9426字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[10055],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。