一种在大量建筑自动化数据中的知识发现框架及其在建筑物诊断中的应用外文翻译资料

 2022-07-17 02:07

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


一种在大量建筑自动化数据中的知识发现框架及其在建筑物诊断中的应用

摘要:楼宇自动化系统(BAS)在当今建筑运行中扮演着重要的角色。大量的建筑运行数据被存储在BAS中;然而,由于缺乏有用的工具来分析大量的数据,数据很少能被有效利用。数据挖掘(DM)在发现隐藏在大数据里的知识上来说是一种很有前途的技术。本文提出了一个在大量的数据库中使用DM技术以发现知识的通用框架。该框架是专门针对BAS数据的质量和复杂度低,先进DM技术的多样性以及DM技术和领域知识在建筑领域中发现的知识的整合而设计的。该框架主要由四个阶段组成,即数据挖掘,数据分区,知识发现和后期挖掘。该框架被应用于分析香港最高建筑物中的BAS数据。方差分析方法(ANOVA)被用来确定最重要的时间变量对总的能耗的关系。然后根据功耗确定典型的运行模式使用聚类分析法。由于有八种操作模式已经被确定,因此整个BAS数据被分成八个子集。考虑到大部分BAS数据是数值型的,在每个子集中采用量化关联规则挖掘(QARM)方法进行知识发现。为了提高采后挖掘阶段的效率,提出了两个指标来快速方便地识别和利用QARM发现的潜在有趣的规则。所发现的知识成功地用于了解建筑物的运行行为,识别非典型的运行条件和检测故障状况。

1.简介

现代建筑,尤其是公共和商业建筑,都配备了楼宇自动化系统(BASs)用于实时的监测和控制复杂的业务系统,包括空调,照明,垂直运输系统,安全系统等,BASs是现代信息技术,计算科学与控制理论的产物。它们本质上是一系列硬件设备(例如服务器,工作站,数字控制器和传感器)和软件(例如建筑物能量管理程序和网络通信协议)的网络。最近的一份报告显示,到2028年,欧洲建筑行业采用先进的楼宇自动化技术所节省的潜在能源值可能会达到22%[1]。考虑到建筑行业在大多数国家中最终能源消耗总量的约32%和一次能源消耗的40%[2],这样的节省成本是惊人的。BASs的功能在很大程度上决定了建筑物的运行性能。为了实现BAS的功能,实时的运行数据以较短的时间间隔(从几十秒到几分钟)被收集和存储,使得在BAS中有大量的建筑运行数据可用。BAS数据的数量在建筑生命周期中不断增加。然而,由于缺乏先进的数据分析技术和工具,BASs中的大量数据没有得到充分利用。今天的BASs只能执行相当简单的数据分析,如历史数据跟踪,移动平均和基准。在过去的十年中,由于在建筑物的先进优化和诊断方面进行了卓有成效的研究[3,4]和开发工作,所以在BAS中开发和安装了更复杂的工具。但是,这些工具只能利用BASs中的少量数据,并只关注与组件或子系统相关的问题。同时,BAS数据通常包含大量的缺失值和异常值。如果将这些数据用于数据分析,将会破坏分析过程,所得到的结果几乎不可靠。建筑自动化行业需要先进的技术和强大的工具来分析BAS中的大量运营数据,以便了解,评估和改善建筑运营绩效。

数据挖掘(DM)是一种有前途的技术,它提供了处理海量和复杂数据的新方法。麻省理工学院(MIT)认为DM是将改变世界的十大新兴技术之一[5]。DM已经成功应用于零售,电信和金融服务等各个领域[6]。DM技术大致可分为两类,即监督学习和无监督学习技术。监督式学习旨在通过学习历史数据来建立产出与投入之间的关系。相比之下,无监督学习不是由明确的挖掘目标指导的,其目的是识别潜在的和未知的数据结构或变量之间的关联。近年来,在建筑领域使用DM的兴趣在不断增加。DM技术已经在建筑领域的三个领域发现了其优势,即预测[7-9],故障检测和诊断[10-12]以及控制优化[13-15]。然而,DM在大量BAS数据中的知识发现潜力还没有得到充分的发挥。之前的研究很大程度上依赖于领域知识,主要使用监督学习技术。这些问题通常是预定义的,只有一小部分的BAS数据被使用了。例如,在制冷机耗电预测模型的开发中[16],预先选定了模型的输入,例如冷冻水的供应和返回温度以及冷凝水的供应和返回温度被首先选择,因为领域的专业知识告诉我们,这些变量是冷水机组能耗最有影响的变量,尽管使用领域专业技术和先进的DM技术,使得所开发的模型可能具有更高的准确性,但是在大量的BAS数据背后的知识发掘是有限的。

一方面,尽管DM技术为有效利用大量的BAS数据带来了巨大的机遇,但DM技术在建筑领域的应用面临着巨大的挑战。DM本身不能说明发现的知识的价值或意义,而实际应用仍需要领域的知识。DM发现的知识通常是巨大的,可能是各种形式的,如集群,关联规则,统计信息和预测模型。同时,先进的DM技术正在不断地涌现。建筑专业人员赶上DM技术的脚步并不容易。如何选择最合适的数据挖掘技术,如何选择具有实用价值的知识是两大挑战。尝试单独DM技术并逐案解释知识是不明智的。为了使整个楼宇自动化行业受益于先进的DM技术,需要一个能使DM技术在大量BAS数据中进行知识发现的通用框架。该框架还应考虑到BAS数据中包含大量的缺失值和异常值的低质量数据。本文提出了一个在大量BAS数据中使用DM技术的通用的知识发掘框架。它是专门为解决上述所有挑战而设计的。该框架主要由四个阶段组成,即数据挖掘,数据分区,知识发现和后期挖掘。预计可以基于该框架开发与现代BAS兼容的软件工具。该框架适用于分析香港最高建筑物的BAS数据。其促进建筑物诊断的价值是令人印象深刻的。

2.框架描述

所开发的框架如图1所示,主要包括四个阶段。数据探索由两部分组成,即数据预处理和可视化。数据预处理旨在提高数据质量,并根据DM技术的要求将数据转换为合适的格式。可视化帮助用户直观地获得关于数据的初步了解。数据分区旨在确定典型的建筑物运行模式,以便将大型BAS数据集分为几个子集。分别挖掘每种模式中的数据来提高知识发现的效率和可靠性非常重要。知识发现可以采用多种DM技术,如关联规则挖掘,聚类分析,序列模式挖掘,集成学习,分类和回归等来发现隐藏知识。后期挖掘旨在选择,解释和利用所发现的知识。这项研究开发了一种新的方法,从大量发现的规则中选择潜在有用的关联规则,这可以显著减少使用领域知识解释规则所需的时间。最后,选定的知识可以用于特定的任务,包括性能评估,异常检测和控制优化。本文研究了在建筑诊断中的应用。以下部分解释每个阶段的细节以及合适的DM技术和算法。

图1 基于DM技术的数据挖掘框图

2.1数据探索

数据探索阶段的两个主要任务是数据预处理和数据可视化。数据预处理是知识发现过程中的一个重要步骤,可能占DM总数的80%[17]。数据预处理涉及。数据清理旨在提高数据质量,包括BAS数据中广泛存在的缺失值,不一致和异常值,在传感器故障或信号传输错误可能导致数值缺失。移动平均,插补和基于推理的方法可以用来填补缺失的值[18]。不一致性指尺度或单位的差异,以及不同数据源中的不匹配记录。它可以使用数据融合方法或物理冗余来解决[18]。异常值是那些偏离其真值的记录,可以使用统计方法[20]以及无监督和监督方法来检测[6]。数据转换主要由数据缩放和数据类型转换组成。数据缩放旨在对数据变量进行规范化处理,使其在数据分析中就数量而言同样重要。常用的缩放方法包括最大最小归一化,Z分数归一化和小数点归一化。数据挖掘前经常需要数据类型转换。例如,常规关联规则挖掘(ARM)算法只能处理分类数据(例如,高,中和低),而大部分BAS变量是数字型。因此,在使用传统的ARM算法之前,有必要将数字型的数据转换成分类数据。这种数据类型转换的流行方法包括等频分级,等距分级和基于熵的离散化。数据缩减旨在通过减小数据维度来提高计算效率。BAS数据通常以这样一种格式存储,即每行表示在特定时刻采样的观测值,每列代表所有观测值中的变量值。采样技术,如随机采样和分层采样通常用于减少行数。列数的减少、感兴趣或有意义变量的选择主要可以通过三种方式来完成。首先是基于领域知识来选择感兴趣的变量。其次是采用数据重构的方法,如新的低维变量是原始高维变量的线性组合的主成分分析。三是采用逐步前向选择,后向消除等启发式方法,选择与问题最为相关的变量。可视化在挖掘过程的早期阶段起着至关重要的作用。它使用户能够直接了解数据。可视化方法的功能各不相同。例如,箱形图和直方图对于显示数据分布是有效的;散点图提供了一种显示相关性的方法;运行图表对于显示时间序列数据非常有用。然而,同时对高维数据进行可视化总是一个挑战。

2.2数据分区

考虑到大多数建筑物服务系统是高度动态和相互关联的,数据分区是必要的。在不同的操作条件下,变量的值和变量之间的关系可能会有很大的变化。因此,同时挖掘整个BAS数据可能会导致重大的知识损失。根据BAS数据的固有特征将BAS数据划分为若干独特模式子集,然后挖掘各个子集有助于高效地发现更有意义的知识。由于子集中数据间的距离减少,或者数据的相似性大大提高,所以发现的知识更加可靠。但是,这种数据分割主要依靠数据的内在特征,涉及较少的领域知识来利用数据挖掘技术发现底层知识。如何捕捉数据的内在特征是一个关键问题,可以采用多种方法。建议采用显著性检验和聚类分析来捕捉内在特征并划分BAS数据。

2.2.1重要性测试

显著性检验或假设检验是检验两个相互排斥假设的方法,即零假设H0和替代假设Ha的一种方法[18]。假设是为了拒绝零假设而制定的。在测试之前应该定义一个显著性水平(alpha;)。 alpha;本质上是I型错误,指的是错误地拒绝一个真正零假设的机会。典型地,根据用户期望的置信水平(即1-alpha;),将I型错误设定为10%、5%或1%。在这项研究中,由于数据量巨大,选择了一个更严格的值1%。可以使用样本数据计算零假设下的测试统计结果。然后可将测试统计量转换为决策的概率值。如果得到的概率小于预定义的alpha;,则可以拒绝零假设(H0)。否则,测试不能拒绝H0。该方法已被广泛用于识别营销,医学和社会科学行业中变量对数据行为的影响[21]

本研究采用方差分析(ANOVA)方法来研究一个或多个定性变量对量化结果的影响。H0声称定性变量对结果影响不大,而H1则相反。基本思想是将定量结果的总方差分为两部分,即每个定性值内的方差和不同定性值之间的方差。从这两部分可以得到误差的均方和效应的均方。检验统计量是效应均方差与均方误差两者的比值。检验统计量遵循F分布,并且可以得到概率值。如果概率小于alpha;,那么H0被拒绝,换句话说,定性变量可能对结果有显著影响。

2.2.2聚类分析

聚类分析将数据划分为多个聚类,目的是最大化相同聚类中的观察相似性,同时最小化聚类之间的相似性。相似性可以通过多种方法来测量。聚类结果可以通过内部验证方法或外部验证方法来评估。五种聚类算法作为候选算法,即k-均值,中心点划分(PAM),层次聚类,熵权k-均值聚类(EWKM)和模糊c-均值聚类算法,其性能分别为在这项研究中进行比较。利用Dunn指数对这些算法的参数进行了微调,Dunn指数综合了聚类间的相异性和聚类直径,对聚类结果进行了评估。较大的Dunn指数表示较好的聚类结果。

2.3知识发现

在前两个阶段准备挖掘数据的过程中,知识发现阶段覆盖了实际挖掘过程。大量的DM技术是可用的,并且新的DM技术正在不断涌现。DM技术的选择取决于所考虑的问题,数据可用性和领域专业知识的水平。所发现的知识可以是集群,决策树,关联规则等形式,适用于开发预测模型,检测和诊断异常以及制定优化策略。例如,关联规则和决策树可用于诊断。如果新的观察违反了关联规则,发生异常的可能性很高。然后,通过推导对这种违规行为贡献最大的变量,可以使用决策树来找出异常的来源。由于现在的建筑服务系统已经很好理解,所以关于它们的领域知识是非常丰富的。因此,有监督的DM技术可能不会对知识发现做出重大贡献。相比之下,无监督技术更能从大量的BAS数据中发现未知的知识。

关联规则挖掘(ARM)是一种流行的无监督DM技术,并已被应用于零售,营销和医疗保健领域[23]。与DM发现的其他形式的知识相比,使用领域知识解释关联规则更加方便,而且规则的使用更直接。ARM在建筑领域的应用也做了一些努力。关联规则成功识别建筑运行中的非典型和异常情况。但是,将ARM应用于BAS数据有两大障碍。大多数传统的ARM算法,只能处理类似“高”、“中”、“低”的分类型数据。但是,几乎所有的BAS数据,如功率、温度、湿度、流量和压力都是数字。因此,在使用传统的ARM算法之前,有必要将数字数据转换为分类数据。实际上,由于BAS变量通常表现出很大的变化关系,因此很难确定“高”、“中”和“低”类别的间隔。其次,ARM通常会产生大量的规则。选择有用的规则是非常具有挑战性和耗时的。本研究采用了新的ARM技术,即定量关联规则挖掘(QARM)来克服第一个障碍。还开发了一种新的规则选择方法,用于在后挖掘阶段快速选择潜在有用的规则。

2.3.1定量关联规则挖掘(QARM)

定量关联规则的规则格式[23-27]如下:{A isin;[a1,a2]}→{B isin; [b1,b2]},其中A和B是数字变量,a1,a2,b1,blt;

全文共18671字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[9286],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。