用于建筑能耗模式分析和预测模型精度改进的k形聚类算法外文翻译资料

 2022-08-09 04:08

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


用于建筑能耗模式分析和预测模型精度改进的k形聚类算法

摘要:聚类算法已成功应用于建筑能耗数据分析。它已被证明是一种有效的技术来识别代表性的能源消费模式,以及作为预处理步骤的其他技术。本文提出了一种基于k形算法的聚类方法,这是一种较新的时间序列数据形状识别方法。在实验中,我们根据每座建筑的小时耗电量对其进行聚类。本文的新颖之处在于采用了一种新的k形算法来检测不同等级的建筑能耗模式,并进一步利用聚类结果提高了预测模型的精度。本文以十幢涵盖三种不同类型的公共建筑作为个案研究,并进一步分析了一组每小时和每周的能耗数据。实验结果表明,该方法能够有效地检测出不同时间粒度下的建筑能耗模式,并利用聚类结果显著提高了SVR模型的预测精度。

1 介绍

建筑能效已被国际能源机构确定为能源部门长期脱碳的五大措施之一。实现建筑节能可以带来社会、环境和经济效益。它减少了建筑的碳排放,这是气候变化的一个重要因素,同时也降低了能源成本。此外,对能源效率的承诺促进了组织在现代生态经济中的积极形象。为了有效的管理和运作,分析建筑的能源行为是至关重要的,这些行为通常表现为集群模式或基于时间的概况和未来的能源消耗预测。例如,根据所检测到的能源使用模式,相同的供应策略可以应用于不同时间共享相似需求模式的建筑组,而定制策略可以应用于具有独特消费特性的建筑组。

除了能源模式分析外,准确的能源消耗预测一直被认为是制定科学的能源计划和提高能源管理效率的基础之一。通过负荷预测,可以利用不同的技术实现相应的建筑能源管理解决方案(如预冷、运行调节、蓄热等)来转移峰值负荷 [1]。

1.1 建筑能耗领域的集群化

随着智能电表的普及,产生了大量不同粒度的详细建筑能耗数据。随着数据存储和处理能力的提高,数据可以以时间序列数据的形式长期存储和保存。目前已有多种技术被应用于时间序列数据的处理,聚类被评为最流行的技术之一,因为它花费的时间更短,而且需要更少的人力监督 [18]。在过去的几十年中,时间序列数据聚类已经引起了广泛的关注 [19–23]。这不仅是因为它有用的独立方法,还因为它可以作为其他技术的预处理步骤。Aghabozorgi [31] 回顾了在不同应用中的时间序列聚类方法,得出从时间序列数据库中可以提取有价值的信息,且模式的发现可以通过聚类开发的结论。正如Antunes和Oliveira [15] 所述,时间序列数据库非常庞大,仅通过人工检查很难处理它们。因此,聚类对于简化时间序列数据非常有用,因为它将类似的时间序列分组到聚合的集群中 [16,17]。在建筑能耗领域,随着历史能耗信息的细化,可以采用数据挖掘的方法对建筑能耗数据进行分析。其中,聚类技术常用来支持建筑能耗模式分析,(例如对能源消费者进行分类) [2],异常能耗模式的故障检测 [3] 和未来能耗的预测 [4,5] 近年来已经采用了各种聚类算法。McLoughlin [6] 应用了k-means算法,k-medoid算法以及SOM算法,根据家庭一天的用电量模式,将家庭划分为不同的集群,并生成一系列表示家庭内常见用电量模式的配置文件类。Jota [7] 提出了一种综合负荷形状来识别典型日负荷曲线的方法。Hernaacute;ndez [8] 结合SOM算法和k-means算法对工业建筑能耗模式进行分析,并成功识别出不同的能耗及相关行为模式。HeLi and Wen [9] 将聚类分析集成到零能耗建筑研究中,用于建筑能源规划和运行评估。Lavin [10] 研究了美国电力公司的能源使用数据聚类,结果表明,在相似的能源使用模式之间存在准确的聚类。Alzate [11] 采用加权核主成分分析公式进行光谱聚类。结果表明,该算法能够从用电量时间序列数据中找到每个用户的可解释配置文件。Panapakidis [12] 分析了负荷剖面的计算公式,建立了负荷剖面的两种通用模型。Ramos [13] 为了研究消费者的负载分布,采用了五种不同的聚类方法。然而,大多数聚类技术的性能依赖于选择的距离度量,并且在比较两个时间序列序列时处理各种失真成为一个问题。为了解决这个问题,Paparrizos [14] 提出了k形时间序列聚类算法,该算法采用归一化互相关算法来考虑时间序列数据的形状。该研究比较了数据集的形状,并显示出在分区、层次和光谱聚类方面比其他方法的优越性。由于k形时间序列聚类是一种新型的聚类方法,在建筑能耗数据分析中鲜有应用,本研究提出了一种基于k形聚类技术的新型聚类应用,能够检测不同时间粒度下的建筑能耗模式。该算法属于分簇算法,但具有保持时间序列数据集形状的能力。在考虑尺度不变性和移位不变性的情况下,对时间序列数据进行快速的匹配,有效地计算出质心,详细分析了10座既有建筑的能耗数据。

1.2 建筑能耗预测

建筑能耗预测并不是一个新课题,近年来得到了广泛的研究 [24–26]。预测在促进有效建筑能耗管理方面的应用得以讨论 [27,46],如帮助建筑设施管理部门制定能耗目标,以便更好地理解不同工期建筑能耗的边界。建筑能耗预测的另一个重要方面是对一些仿真工具的输入参数和进度信息的贡献 [28,29]。然而,为了提供一个准确的估计未来的能源消耗目标;或确定能源的过度使用情况与目标相比;或者为了精确地装备智能传感器、执行器和控制技术以应对未来的情况,一个发展良好的能源预测模型的高精度是很重要的。支持向量机在建筑能耗预测中的应用已经持续很长时间因为它可以用于非线性时间序列建模。自Vapnik [30] 提出该方法并结合内核和优化算法以来,该方法得到了广泛的研究和估计。利用核算法将非线性数据分割成多维空间,使数据线性可分,并利用优化器算法求解优化部分。与其他常用的训练误差最小化经验风险最小化算法相比,该算法的优点在于将训练误差的上界最小化。此外,Vapnik还提出了用来解决函数拟合问题的离子支持向量回归(SVR)。nu-SVR是由Scholkopf等人开发的。[31] 使用一个附加参数来评估支持向量数和训练误差。最后,zhang等人实现的。[32] 进一步发展了加权多SVR模型,即一种方法能够预测建筑能耗,日数据的平均绝对百分比误差(MAPE)为5.843,半小时数据的平均绝对百分比误差为3.767。本研究将k形聚类技术嵌入到SVR预测技术中以提高未来能源需求预测的准确性。

2 方法

2.1 时间序列数据的不变性

与比较价值不同,时间序列数据有时会被歪曲。因此,为了更有意义地比较时间序列数据集,必须考虑许多不变性。第一种不变性称为平移不变性,它涵盖了两个时间序列数据相似但相位不同的情况,如图1所示。

图1 时间序列数据移位不变性

第二种是噪声不变性,即当数据序列数据集形状相似但复杂性不同时的情况,如图2所示。在这种情况下,仍然可以认为这两个数据集有一些相似之处。

图2 时间序列数据噪声不变性

第三种叫做比例不变性。它指的是数据集的长度在任何方向上都不相同,但在扩展或收缩一个集合时可能是相似的情况。

2.2 k形聚类方法

针对时间序列数据的特点,采用k形聚类方法建立时间序列数据聚类。与已知的k-means相似,该算法中有一个迭代过程和一个细化过程来分离每个簇,并保持时间序列数据的形状。与其他聚类方法不同的是,通过采用k形,利用互相关统计量找出每个聚类的质心,然后更新每个聚类的成员。在赋值步骤中,为了解决移位不变性,如式(1)所示,使用基于形状的距离通过计算所有时间序列数据中心来更新集群成员关系,并将每个时间序列数据聚类到具有最近质心的数据中。在式(1)中,考虑各时间序列数据的自相关的几何平均值,用其来分割系数归一化。因此,选择归一化互相关最大的位置来确定聚类质心。

时间序列的形状相似性 (1)

为了解决比例不变性,在赋值步骤中,每个时间序列数据集都被归一化为z,使得数据集的均值为0,标准差为1。

在求精步骤中,每个集群中更新的成员将导致集群中心的更新。目标是使新形心与所有其他时间序列数据的相似性最大化。

2.3 评价指标

在这些模型中,通过时间序列交叉验证技术来评估准确性。在许多研究中,均值绝对百分误差函数(MAPE)被用来作为适应度函数来评估适应度并避免过度适应度。

2.4 聚类确认

以往的研究 [33,34] 表明,没有最佳的单聚类效度指标(CVI)。因此,一些聚类算法作为验证技术被应用于验证过程中 [35]。本研究使用7个聚类效度指标对k形算法的聚类结果与另一种最常用的时间序列聚类算法动态时间扭曲(DTW)聚类进行比较。之所以选择动态时间扭曲作为比较算法,是因为动态时间扭曲是最广泛使用的比较时间序列数据集的算法,在其他指标中 [47],对时间序列数据集比对的性能最高。

7个建立良好的聚类效度指标为:轮廓指数 [38],邓恩指数 [39],与文本无关的最优性和偏置索引 [40],Davies-Bouldin指数 [41,42],改进的Davies-Bouldin指数 [37,39],Calinski-Harabasz指数 [36,43],评分函数 [44]。

3 实验

新加坡的10所公共建筑被选为案例研究建筑,涵盖了三种不同的类型和功能:传统学术建筑、实验室和玻璃幕墙多功能建筑。

为了验证10个不同建筑的能耗模式,我们使用新加坡10个机构建筑(图3)4个月的能耗数据进行聚类。每隔30分钟收集一次能耗数据。以往的研究发现,每小时的能源消耗会因建筑物的功能和占用情况而发生巨大的变化 [27]。

图3 10幢建筑物在四个月内的每小时能源消耗量(原始数据)

在本研究中,每个建筑的冷却负荷由BTU仪表记录,由于制冷机的效率未知,我们使用一个转换系数将所有的热能值转换成千瓦时(kWh)。所有的数据都经过数据清理系统来识别离群点并将缺失的数据归位。

研究的第一部分是对2015年8月至2015年11月整个学期的能耗数据进行聚类分析。选择这段时间的原因是,这是一个典型的大学校园教学时期,与假期相比,它更能代表能源消费模式的研究。

研究整个数据集变化的目的是为了显示范围,特别是一个学期的消费数据的偏差。对于逐时分析,每栋建筑从8月01日-2015年00:00至11月30日-2015年23:00的时间段共2928个数值。10座建筑的总价值为29280英镑。

首先对10栋建筑的小时消费数据进行k形聚类。

将10栋建筑4个月的日消费数据(图4)聚类为3个聚类。结果完全符合10个建筑的类型,每个集群代表一种类型的建筑:传统的学术建筑、实验室和玻璃幕墙的多功能建筑。

图4 10幢建筑物在4个月内的每日能源消耗量(原始数据)

而在建筑类型学的聚类过程中,根据不同建筑在四个月期间的宏观能耗模式,对其进行k形聚类。更具体地说,每栋建筑4个月期间的日能耗数据被认为是一个时间序列。因此,这10栋建筑分别用10个时间序列表示。然后对10座建筑物的时间序列数据进行k形聚类,将其聚类为序号(2-8)。集群的数量从2到8,对于每个簇的数目,对每个选择的聚类数计算聚类结果的MSE。图5显示了3个簇、簇中心(虚线)和相应的时间序列。

图5 在4个月内,由10幢建筑物组成的三个建筑群,每幢代表一种建筑物

表1给出了集群内每个建筑物与其集群中心之间的平均距离。从这个表中可以确定每个集群。离集群中心最近的建筑代表这个集群。因此,对于集群1、#8和#10。对于集群2,#1。对于集群3,#7。选择离集群中心最近的8、2、7栋分别作为集群1、2、3的代表建筑。

表1 每个建筑与集群中心之间的平均距离。距离越小,图案越接近星系团中心

集群

1

1

2

2

2

2

2

2

2

3

建筑

距离

8

0.025

10

0.025

1

0.148

2

0.018

3

0.047

4

0.021

5

0.037

6

0.045

9

0.079

7

0.092

然后将聚类结果作为聚类标签列表,进一步作为SVR模型的输入进行消费预测(图6)。

图6 模型结构

在此步骤中,根据每座建筑的小时消耗量对其进行k形聚类。每个建筑的4个月每小时能耗数据被划分为24时子系列。因此,每栋建筑的消费数据由122个日系列组成。对每个建筑的122个时间序列进行k-Shape聚类。

为了选择最合适的簇数,采用了基于Thorndike [45] 的弯管法。首先,选择肘部的点作为候选点。然后,对于每个候选点,计算一个“

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[238891],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。