为了以更低的成本监测空气质量,利用随机森林 模型来改善传感器性能外文翻译资料

 2022-02-24 09:02

英语原文共 23 页,剩余内容已隐藏,支付完成后下载完整资料


为了以更低的成本监测空气质量,利用随机森林

模型来改善传感器性能

摘 要

低成本的传感策略有望实现更密集的空气质量监测网络,这将大大提高我们对个人空气污染暴露的理解。此外,低成本的空气质量传感器可以部署到监测有限制的地区。然而,低成本的传感器往往对环境状况和污染物的交叉敏感性敏感,而实验室的校准历来未能很好地解决这些问题,导致限制了它们的监测用途。在本研究中,我们研究了实时可负担多污染物(RAMP)的传感器包的不同校准模型,该传感器包测量了CO、NO2、O3和CO2四种污染物。我们探索了三种方法:(1)实验室单变量线性回归,(2)经验多元线性回归,(3)基于机器学习的随机森林(RF)校准模型。使用2016年8月至2017年2月的培训和测试窗口,在美国宾夕法尼亚州匹兹堡为16-19台斜坡监控器(因污染物而异)开发了校准模型。随机森林模型匹配(CO)或显著优于其他校准模型(NO2、CO2、O3),并且随着时间的推移,它们的准确性和精确度在长达16周的测试窗口中都很好。校准后平均绝对误差随机森林模型的测试数据集有38ppm的CO(14%相对误差)、10ppm的CO2(2%相对误差)3.5ppb的NO2(29%相对误差)3.4ppm的O315%相对误差)且Pearson r与参考监视器对大多数单位超过0.8。对模型性能进行了详细的探讨,包括模型变量重要性的量化、不同浓度范围内的精度以及在包括国家环境在内的一系列监测环境中性能的空气质量标准(NAAQS)和美国环保署空气传感器指南推荐的最低数据质量的个人接触测量。RF方法的一个关键优势是它考虑了污染物的交叉敏感性。这突出了开发多污染物传感器包(而不是单一污染物监测仪)的重要性;我们确定这对NO2和CO2尤其重要。评估显示,只有RF校准的传感器符合美国环保署空气传感器指南中关于个人暴露测量的最低数据质量的建议。我们还证明,随机森林模型校准的传感器可以检测1.5公里内的近公路站点和郊区站点之间的NO2浓度差异。从这项研究中,我们得出结论,将RF模型与精心控制的最先进的多污染物传感器包(如RAMP监控器)相结合,是解决低成本空气质量传感器性能低下问题的一个非常有前途的方法。

1 介绍

从历史上看,空气质量监测站的空间覆盖问题上一直受到仪器设备成本高的限制,城市地区通常依赖少数参照级监测仪来评估人口规模暴露。然而,空气污染物浓度往往表现出显著的空间变异性,这取决于当地来源和建筑环境的特点,而现有的监测网络可能无法很好地捕捉到这些信息。近年来,基于传感器的低成本空气质量监测技术的开发和应用显著增加。使用低成本的空气质量传感器监测环境空气污染,可使空气质量监测网的密度大大提高,费用显著降低。增加空气质量监测的空间密度将有助于量化和表征城市区域内的暴露梯度,并能够支持更好的流行病学模型。此外,更高分辨率的空气质量信息可以帮助监管机构进行未来的政策规划,识别需要更详细描述的热点或潜在关注领域(例如,农村地区的水力压裂),并为不符合规定的区域降低风险。此外,低成本的空气质量传感器通常具有体积小、功耗低的特点。这些特性使低成本传感器相对容易地移动到农村地区或存在有限监测的发展中地区。

低成本环境测量传感器的两个主要要求是:(1)对环境污染物浓度敏感的硬件、(2)传感器的校准,后者是本研究的重点。低成本空气质量传感器校准面临的挑战是,传感器容易与其他环境污染物交叉敏感。最常见的例子是臭氧电化学传感器,它也经历在NO2存在条件下的氧化还原反应。此外,NO也被观察到干扰NO2。 CO传感器在城市环境中对氢分子表现出一定的交叉敏感性。此外,低成本传感器可能受到气象的影响。大多数电化学传感器的结构是反应扩散受限,扩散系数受温度影响。研究表明,相对湿度(RH)超过75%时存在显著误差,这可能是由于恒电位器电子器件发生冷凝所致。最后,低成本传感器的稳定性会随着时间的推移而降低。例如,在电化学电池中,试剂是随时间消耗的,典型的使用寿命为1-2年。

反卷积交叉灵敏度和稳定性对传感器性能的影响是复杂的。实验室开发的线性校准模型对环境数据的性能较差。从第一性原理构建校准模型的尝试已经取得了一些成功,但是模型很难构建,并且它们对新环境的可移植性仍然未知。精确的校准模型对发达国家城市地区密集传感器网络的成功尤其关键,因为那里的浓度很高在全球污染物浓度谱的低端,因为低的信噪比和交叉敏感性可能会妨碍它们区分城市内场址的能力。因此,人们对更复杂的用于低成本传感器校准的算法(如机器学习)越来越感兴趣。研究表明,人工神经网络校准模型能够满足欧洲臭氧测量数据质量目标(不确定度lt; 18 ppb)。然而,要实现NO2的这些目标仍然是一项挑战。De Vito等人将神经网络标定方法应用于意大利的CO、NO2、NOx金属氧化物传感器,取得了令人鼓舞的结果;一般来说,平均相对误差约为30%。Cross等人建立了CO、NO、NO2、O3的多维多响应校准模型与参考监测器。Esposito等人对NO2传感器进行动态神经网络标定(平均绝对误差(MAE) lt; 2 ppb),表现出良好的性能;然而,O3没有观察到相同的性能。此外,这些校准只在少数传感器包上进行了测试。例如,Cross等人测试了两个传感器包,每个包在4个月的时间内,每个污染物包含一个传感器,其中35%用作培训数据。Spinelle等人在一个单独的外壳中测试了一组传感器,在5个月的时间内测试了22个单独的传感器,其中15%用作培训数据。Esposito等人报道了单个传感器封装(每个封装5个用于测量NO、NO2和O3的气体传感器)的校准性能,并在4周的数据上对模型进行了测试。

在本研究中,我们的目标是使用一种基于随机森林的机器学习算法来改进低成本传感器的校准策略,据我们所知,该算法之前还没有应用于低成本空气质量监测校准。为了确保校准模型的鲁棒性,他们开发并验证了16-19个实时可负担的多污染物(RAMP)监测仪(取决于污染物),每个监测仪包含每个物种的一个传感器(CO、CO2、NO2、SO2和O3)。此外,该研究历时6个月(2016年8月至2017年2月),跨越多个季节和广泛的气象条件。在这段期间,斜坡监测站断断续续地进行空气质素监测工作,其配置期由5.5周至16周不等(中位数:9周)。详细讨论了机器学习算法的拟合,以确定理想的校准数据集,使性能最大化和过度训练最小化。随机森林(RF)模型的性能与传统的实验室单变量线性模型、多元线性回归模型和EPA性能进行了比较指导方针。此外,还讨论了给定模型随时间的性能。

2 实验方法

2.1 测量部位

测量时间为2016年8月3日至2017年2月7日,地点为美国宾夕法尼亚州匹兹堡市奥克兰社区的卡内基梅隆大学校园。配置的室外环境测试环境位于一个小型(lt; 100辆)有限进入,露天停车场附近的校园中心。它包括一个配备参照级仪器的流动实验室(第2.3节)和邻近的草坪空间,坡道监视器安装在三脚架上(第2.2节)。工地的主要污染源是车辆在早晚高峰时段进出停车场时排放的废气。附近的校园餐厅偶尔也会发生卡车交通和餐厅排放的废气。停车场的小尺寸(lt; 100辆车)和很少的其他当地资源意味着,在一天的大部分时间里,该位置基本上是一个城市背景站点。在测量期间,现场平均(范围)环境温度和相对湿度分别为13℃(- 15至34℃)和71%(27至98%)。

作为正在进行的空气质量监测研究的一部分,RAMP监测仪还间歇性地部署在匹兹堡地区。为了证明校准的斜坡监测器的准确性,我们还展示了一个斜坡监测器的数据,它首先在卡内基梅隆大学校准,然后转移到阿勒格尼县卫生部门,测量时间为 2017年2月至5月。ACHD站点有独立的CO、NO2和O3参考监测器;因此,比较来自这两个站点的数据可以对模型性能进行独立的、真实的评估。相对于卡内基梅隆大学网站,ACHD网站的特点是流量增加,餐馆密度增加,行业增加。

2.2 实时负担得起的多污染物监测

这项研究使用了RAMP检测器,它是由卡内基梅隆大学和SenSevere合作开发的。RAMP监控器使用了Alphasense有限公司的下列商用电化学传感器:一氧化碳、二氧化氮、二氧化硫和总氧化剂。该装置还包括一个非渗透红外(NDIR)二氧化碳传感器(SST co2a),其中包含内置的T(方法:带隙)和RH(方法:电容式)测量。实验中,95个独立的污染物传感器被安装在19个独特的斜坡监测器中。而搭配期为2016年8月至2017年2月,匹兹堡的空气质量运动断断续续地部署了许多传感器,所以根据单位的不同,配置周期从30天到整个研究周期不等。此外,由于SO2和NO2基准监测器存在问题,没有为基准数据低于检测限度或基准监测器出现故障的传感器进行校准,从而使本实验中的传感器总数减少到73个。

图1 斜坡监视器和取样装置照片(a) nema级外壳内斜坡装置的前视图。(b)斜坡监视器的底部视图,传感器布局用黄色标示。(c)使用三脚架安装的搭配设置示例(未见图:三脚架旁边的supersite包含参考监视器)。

采用SenSevere公司定制的电子线路对电化学传感器的输出进行了测量,并对信号稳定性进行了优化。该电路包括驱动该设备的自定义电子器件、用于特定噪声签名的多级滤波电路和用于测量条件信号的模数转换器。RAMP监视器安装在nema级防风雨外壳中(图1a),并配备GSM卡,通过蜂窝网络将数据传输到在线服务器。RAMP监视器还将数据记录到一个安全的数字(SD)卡上,作为无线数据传输问题的故障保护。数据以15 s分辨率记录到服务器上,并向下采样到平均15分钟,这被认为是评估空气污染暴露的空间变异性的合适时间分辨率,可以减少数据集的大小,提高计算效率。监管机构通常每小时提供一次数据。传感器被动地从机组底部取样(图1b),安装有保护传感器的屏幕。对内置30安培时镍氢电池(NiMH)进行一次充电,就可以进行大约3周的气体种类、T和RH的测量。坡道监视器要么安装在钢板上以便于安装杆子,要么安装在离地面约1.5米的三脚架上(图1所示)。在这项研究中,所有的坡道监测器都是在一个一致的高度上安装的。

在其最简单的结构中,电化学传感器的功能基于电化学单元内的氧化还原反应,其中目标分析物氧化阳极和阴极按比例减少(反之亦然,取决于目标分析物)。电极间电荷的后续运动产生与分析物反应速率成正比的电流,可用于测定分析物浓度。Alphasense电化学传感器采用更复杂的结构,使用四个电极(工作电极、参考电极、计数器和辅助电极)来解释零电流变化。在不同气象条件下,由于辅助电极不暴露于目标,其本质上解释了传感器基线信号的变化。

RAMP监视器记录来自每个Alphasense传感器的两个输出信号:一个来自辅助电极,另一个来自工作电极。净传感器响应由工作电极的辅助电极信号减去工作电极的辅助电极信号确定。从理论上讲,对于目标分析物,该分析物的净传感器信号与环境分析物浓度之间应该存在线性关系,这种期望构成了由实验室校准建立的单变量线性回归模型的基础。然而,正如在介绍中所指出的,即使有辅助电极,电化学传感器也不能充分考虑温度(影响扩散速度)和相对湿度的影响(在可能发生冷凝的高湿度条件下)。这促使研究人员构建多元线性回归(MLR)模型来解释这些温度和湿度效应。虽然这些校准模型相对于单变量线性模型通常可以提高性能,但它们在响应中通常不包含任何对其他污染物的交叉敏感性或任何非线性。在这项研究中,我们试图为每个分析物建立一个校准模型,而不考虑校准模型结构的基本假设,并允许模型直接考虑RAMP监视器使用机器学习方法报告的全套数据。

2.3 参考仪表

参考测量通过一个位于地面约2.5米入口在屋顶上的流动实验室对环境空气进行连续绘制。气体污染物是通过直径为0.953厘米的氟化乙烯丙烯(FEP)管道抽取的,管道直径约为4米,带有6口不锈钢管汇,用于向气体分析仪分配流量。采用直接吸光度法对NO2、CO气体滤波相关红外分析仪(非色散红外)在405 nm处进行了测量(二氧化碳分析仪(LICOR 820), O3紫外吸收分析仪(Tele-dyne T400光度臭氧分析仪),SO2紫外荧光分析仪(Teledyne T100A紫外荧光SO2 -alyzer))。所有参考测量的时间分辨率都是1秒。

参考气体分析仪每周使用校准气体混合物进行检查和校准,O3除外,O3每年在附近的监管监控站点进行两次校准。CO和NO2分析仪在每周校准之间经历适度的基线漂移,CO大约为40 ppb NO2大约为2 ppb。因此,基准污染物浓度被标准化到附近的监管监测站点(美国宾夕法尼亚州匹兹堡市空气质量部门阿勒格尼县卫生局)。基线校正是使用基线信号在一周开始和周末之间的线性回归(去除局部源峰值)来完成的。这种回归是基于白天的

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[438942],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。