基于遗传算法的多级关联规则挖掘方法用于建筑行业的缺陷分析外文翻译资料

 2022-03-27 07:03

英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料


基于遗传算法的多级关联规则挖掘方法用于建筑行业的缺陷分析

俞思诚,文德宇,启明利

东南大学建筑与房地产学院,南京,210096

台湾新竹市中华大学建设管理系300

摘要

在建筑行业,工作缺陷会导致建筑项目的时间和成本超支,并且会在建设和运营阶段造成项目参与者之间的争端。迄今为止,还没有一个合适的分析模型来从建筑缺陷数据库中提取有用的信息。以关联规则的形式表示的信息可以通过缺陷预测和因果分析来加强质量管理。本文提出了一种基于遗传算法(GA)的方法,该方法结合了建筑缺陷的概念层次,从2000年到2010年期间从中国建筑行业缺陷数据库中发现缺陷的多级模式。首先,建筑领域知识根据数据的稀疏性和规则的有趣性,将缺陷纳入概念层次结构中,以调整不同层次的挖掘项目。其次,基于遗传算法的方法被提出来利用遗传算法的搜索能力来产生有趣的关联规则,而没有特定的最小置信度阈值。最后,挖掘结果中的冗余规则通过后处理方法进行修剪。选择一个测试用例来证明所提出的方法在问题域内的可行性和适用性。得出的结论是,所提出的方法提供了一种有效的工具来发现隐藏在历史缺陷案例中的有用知识。所发现的知识表明缺陷和缺陷原因之间的关系,使项目经理能够制定评估和减少缺陷的策略。

copy;2014 Elsevier B.V.保留所有权利。

一.简介

在建筑行业,减少工作缺陷一直是施工和运营阶段的重要任务。产生严重的后果,如重新工作,进度延误,成本超支和争议,施工缺陷被认为是建筑项目遭受的最常见问题之一。由于许多缺陷数据是名义上的,比如它们的特性,原因和后果,所以传统的定量分析方法可能无法用于确定导致缺陷的根本原因。从以前的施工缺陷数据库中提取有用信息的适当分析工具还没有开发出来,使得目前缺陷管理的做法无效且效率低下。

在开发有效的缺陷管理模型时,确定造成缺陷的关键因素非常重要,以便施工工程师和管理人员能够通过控制因素来减少缺陷。以前的缺陷分析着重于通过统计方法识别设计,材料,工艺,环境和维护等因素。这种缺陷分析方法在挖掘有效的缺陷管理策略时遇到了两个限制:

首先,当缺陷数据集庞大且复杂时,针对这些方法中的缺陷机制​​提出假设或开发模型是耗时且主观的;其次,由于缺陷通常是由各种因素综合造成的,因此用传统方法识别隐藏模式很困难。

由于传统质量管理实践中采用的分析工具不足,通常忽略了上述缺陷因素之间的隐藏关系。根据中国目前的建设实践,工作缺陷是由各个学科的检查员记录和纠正或修复的。由于大量的质量检验数据和建设项目组织的分散的贸易结构,很少进行跨学科的施工缺陷分析。

有必要开发一种从大量缺陷数据中自动提取关联规则的方法。提取的缺陷规则可以用来根据已识别的缺陷预测未知缺陷,并通过预先采取预防措施来确保可能出现缺陷的组件的质量。因此,可以改善建设项目的质量管理。

通过以前的研究,关联规则挖掘已经被应用于发现大型数据库中的有用模式。然而,在建筑行业成功实施应用之前,还有一些挑战需要克服:

bull;在传统数据挖掘中,收集大量交易数据。相反,建筑行业的缺陷数据稀少,难以提取关联规则,因为一个实例中的项目集与数据库中的整个项目集相比太小,并且这些案例难以获得。

bull;以前的作品通常集中在单一概念层面的挖掘规则。很难在原始概念层面找到许多强关联规则。而且,当规则中的项目更具体时,提取的规则传达的信息较少。

bull;在传统的挖掘方法中,挖掘结果的规则数量和有用性随着支持和置信的阈值而变化,这两者都是由用户定义的。如果阈值设置得太高,一些有用的模式将被修剪。相反,太低的值将导致挖掘结果充满无用模式。

bull;在传统方法中,许多发现的关联规则是延续性的,因为它们只捕捉数据的不规则性和特征。这些规则妨碍了对领域规则的解释。不幸的是,提取的规则数量使得决策者无法手动修剪冗余规则。

为解决上述问题,本文提出了一种解决方案,将概念层次和GA与传统的Apriori算法结合。该算法适用于包含缺陷导向纠纷数据的缺陷数据库,以识别隐藏的缺陷模式。这些规则使项目经理了解缺陷原因并制定质量改进计划。本文的其余部分安排如下:第2部分对文献中的相关着作进行了回顾;在第3节中,研究了规则挖掘系统的体系结构,详细描述了所提出的基于遗传算法的多层次关联规则挖掘方法的模型和实现过程;在第4节中,将展示一个案例研究来说明所提出方法在建筑行业的有用性和适用性;在第5节中,对模型开发中的假设和限制以及案例研究的结果进行了讨论和讨论;第6节结束

研究的结果并提出未来的研究方向。

2.相关工作回顾

2.1.施工缺陷

由于室外场地和工作的独特性,建筑工程中的缺陷几乎是不可避免的。根据Watt,缺陷被定义为“建筑物的功能,性能,统计或用户要求中的失败或缺点,并且可能表现为 - 在结构,结构,服务或其他设施受影响的建筑物“。先前对缺陷的研究可分为三类:(1)缺陷分类; (2)找出缺陷的原因;和(3)重用历史缺陷信息。简要回顾以下三个类别的作品。

用不同的属性描述,缺陷可以通过属性值进行分类,这构成了缺陷的分类系统。缺陷分类为分析住房缺陷提供了基础。 Georgiou等人将缺陷划分为以下三类:(1)技术缺陷 - 由于工作人员工作不佳或元件材料有缺陷; (2)与元素外观有关的美学缺陷;和(3)功能缺陷 - 使建筑物无法使用。 Sommerville和McCosh 通过在该部门添加遗漏来代表建筑物某些部分的缺陷来进一步推进这项研究。 Macarulla等人提出了一个缺陷的两级分类系统,其中包括主要级别和一般词汇,第二级别包含具体概念以涵盖项目的整个生命周期。用于分类缺陷的其他标准包括其中的元素发现缺陷,元素材料和缺陷发生阶段。

除了分类以外,还分析了建筑缺陷的原因,以制定缺陷预防策略。 Josephson和Hammarlund从七个建筑项目中收集了2879个缺陷,并计算了每个项目中缺陷来源和缺陷原因的分布情况,以及不同参与者缺陷原因的数量。 Chong和Low 分析了79座建筑的缺陷记录,以确定10个元素中缺陷原因的百分比,并总结了每个元素中缺陷的主要原因。 Sassu和Falco 详细描述了一些缺陷,如地下室渗水,斜屋顶渗漏和屋顶水损害,并且还显示了每个缺陷的原因分布。 Forcada等人进行了应急和相关分析,以测试缺陷和来源之间以及缺陷和来源之间的关联。虽然这种统计学方法为评估缺陷和提高质量提供了可靠和有用的信息,但忽略了缺陷因素与综合因素之间的关系。意识到统计方法的弱点,Aljassmi和Han采用了故障树来计算导致缺陷的复杂原因的结构并量化缺陷原因在频率和幅度方面的影响。然后他们将故障树扩展到项目病原体网络,以有效地产生施工缺陷。 Love等人。使用系统动力学建模来模拟与返工有关的因素之间的影响。 Love等人。通过发布调查问卷来揭示预测返工的路径系数,从而形成返工原因的结构模型。 Palaneeswaran等人。提出了人工神经网络(ANN)来描绘返工的原因和影响。

一个由问题和解决方案组成的历史缺陷案例描述 - tions为缺陷分析提供全面有效的知识。将要存储在数据库中的历史缺陷案例编译成信息重用的重要预处理步骤。这种方法已被广泛应用于不同的领域,包括化学事故分析,安全管理和事故判决。通过定义缺陷数据中各种知识领域之间的关系,可以开发缺陷特定领域本体,该缺陷特定领域本体与分类良好的缺陷数据收集系统相结合,以有效利用缺陷信息。 Park等人提出了缺陷领域本体来搜索和检索项目缺陷信息。他们的缺陷领域本体与全面的缺陷数据模板相关联。它可以帮助用户识别并轻松访问最相关和重要的缺陷信息。对于管理人员来说,缺陷领域本身可以作为一个基础来准备一个主动的和项目特定的缺陷管理计划。类似于Park,Lee等。使用关系数据库来存储与产品质量和缺陷有关的数据。这些方案与数据挖掘技术相结合,为建筑行业的有用缺陷管理策略提供了有前景的解决方案。

2.2关联规则挖掘算法

数据挖掘是一种技术,用于从现有数据集中提取知识并将其转化为人类可理解的结构。作为数据挖掘的特殊技术,我们采用关联规则挖掘来发现大型数据库中变量之间的关系。关联规则是“X→Y”形式的含义,其中X和Y是项目集合,并且它们的交集是空的。 X和Y分别代表“If”部分和“Then”部分。例如,从施工缺陷数据库中提取的关联规则指示X中是否存在缺陷,那么Y中的缺陷也会发生。

Apriori算法是关联规则最常用的方法之一。 Apriori算法将规则挖掘过程分为两步:首先,扫描数据库以找到支持值高于预定义最小值的所有项目集;其次,如果满足预定义的最小置信度,则会生成一条规则。

支持和置信度是规则有趣性的两个度量,并分别反映了已发现规则的有用性和确定性。由于其巨大的成功和广泛的使用,许多算法已被提出来改善Apriori的性能。然而,无论是在传统的Apriori算法还是随后的改进中,数据稀疏性和设置最小值的要求都是影响挖掘性能的两个缺点。

当项目集非常大时,由于对每个项目的平均支持很小,因此很难找到关联规则。为了解决数据稀疏问题,Han和Fu设计了一个概念层次结构,将原始层次的概念推广到多个层次。每个原始项目都被替换为表示概念层次结构中的位置的编码字符串。他们的工作表明,在更高层次上,项目的支持变得更大,规则的数量也增加。 Leung等人修改Han#39;s是一个层次结构,它包含用户项目和项目项目关系的偏好模型,以解决推荐系统中的数据稀疏问题。由于概念层次与领域知识相结合,人类专家可以参与设计与施工缺陷相关的概念层次,从而实现多层规则挖掘。

在每个步骤中需要设置的两个阈值分别是最小支持度和最小置信度。 Han等人指出,规则挖掘中设定最小支持度阈值是非常微妙的。同时,设置适当的置信度值也是一个试验问题。如果阈值设置得太高,则只会生成少量规则;如果设置得太低,则会产生太多(大部分是冗余的)规则。为了解决这个问题,Yan et al和Qodmanan等。提出了基于遗传算法的方法来提取关联规则,但没有指定支持和置信度的值。然而,遗传算法的搜索空间非常大,在上述两篇作品中都会产生许多不存在数据集规则的无效染色体。这样的问题显着降低了开采效率。

为了克服冗余规则的问题,已经进行了一些成功的研究工作,包括Aggarwal和Yu [46],Ashra fi,Mansingh和Bing等人,Aggarwal和Yu使用大项目集的最大祖先和一个边界项集来生成没有冗余的规则。 Ashra fi et al。表明Aggarwal和Yu的用于识别冗余的定理在所有情况下都不是真的。 Mansingh等人开发了一个领域本体来模拟已知规则,并通过比较这两个类别中的规则发现了意想不到的规则。但是,曼辛格的方法不会修剪无效的规则。刘等人提出了一种使用卡方检验去除不重要规则的算法。

2.3。关联规则挖掘的应用

文献发表的许多研究都采用关联规则挖掘的方式主动从数据库中找到有用的知识。所发现的关联规则知识可以应用于信息管理,决策制定,过程控制和许多其他应用程序。 Lee等人开发了服装行业缺陷关系数据库,并提取缺陷模式,如“缺陷A→缺陷B”,作为缺陷预测的参考。 Cheng等人通过关联规则挖掘推断职业事故因素之间的因果关系。他们的研究发现,如果一组特定的危险同时发生,那么就会发生一定的事故。关联规则挖掘也被应用于其他情况下,如分析产品的制造过程,从风险感知和风险倾向方面收集工作人员,并从语义网络数据中发现规则。

2.4。文献综述

总之,近年来施工缺陷越来越受到重视。以前的研究主要集中在缺陷分类和缺陷原因分布的统计分析上。但是,统计工具缺乏自我学习的能力自动数据探索。因此,他们对施工人员的好处可能会受到限制。在当前的研究中,提出了一种基于遗传算法的多级Apriori算法来提取构造缺陷数据库中的隐藏模式。所提出的基于遗传算法的多级关联规则挖掘方法的模型和实现过程将在下一节详细描述。

3.基于GA(MAAGA)的提出的三层Apriori算法

3.1.概念模型

在本节中,我们介绍一种规则挖掘方法,即基于GA的多层Apriori算法(MAAGA),它将概念层次和GA与Apriori算法相结合,从建筑缺陷数据库中提取关联规则。然后,处理这些规则以删除不重要的规则。如图1所示,该模型中有两个主要组件,即数据库模块和规则挖掘模块。在数据库模块中,建立数据表来描述建筑缺陷和概念之间关系的概念。关于记录在数据表元组中的缺陷的信息被带到规则挖掘模块,以根据规则识别缺陷的模式。在本节中将解释在Rule Mining模块中挖掘多级关联规则的三个阶段并将其集成到MAAGA中。数据库的设计将在第4节中介绍。

3.2.多级频繁项集的证明

提议的MAAGA的第一阶段是确定数据库中的频繁项目集。令I = {N1,N2,...,Nm}为数据库中的一组项目,T = {t1,t2,...,tn}为一组交易,其中每个交易代表一组项目。 k项目集X是包含k个项目的一组项目。 X中的每一项都属于I.X表示为sup(X)的支持是包含X的事务数。如果X满足sup(X)ge;minsup,其中minsup是用户定义的阈值,则X是一个频繁的k-itemset。找出T中的所有频繁项目集是规则挖掘的第一步。

3.2.1.概念层次和编码

作为频繁项目集挖掘的扩展,多级频繁项目集挖掘在T上运行,并在T中运行项目的概念层次结构I.例如,表D(ID,Att1,Att2,Att3)包含I中每个项目的描述,其中Att1,Att2和Att3表示属性,ID是项目的标识号。表1显示了表D的一个例子。概念层次按部分顺序组织不同的概念。图2展示了从表D开发的树中的概念层次结构。树中的每个层都定义在数据表的属性域中。最低级别的节点对应于数据表中的ID值。概念层次将最低级别的项目推广到高级别项目以增加支持价值。

为了找到多级频繁项目集,Han和Fu根据概念树的位置对概念进行了编码。例如,节点N2编码为#39;112#39;,其

全文共15716字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[15107],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。