多层次关联规则下的模糊多层次关联规则最小支持外文翻译资料

 2022-08-31 05:08

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


2006届IEEE国际会议

系统,人与控制论

十月8-11日,2006,台北,台湾

多层次关联规则下的模糊多层次关联规则最小支持

Yeong-Chyi Lee, Tzung-Pei Hong, and Tien-Chin Wang

从事务数据库中查找关联规则数据挖掘中最常见的。在实际应用中,不同项目可以有不同的支持标准来判断它们的重要性,分类之间的关系和数据可能是定量的值。因此,本文提出了一种模糊多层次挖掘算法是具有多个量化交易的知识项目最小支持。项目可能有由不同的最低支持组成的最大项目集的最小分类采用支持约束,从而形成大项目集。在约束条件下,向下闭包的特征就是保存,而这样原来的Apriori算法可以很容易地扩展到模糊大项目集。该算法采用自上而下逐步深化的方式得出大项目集。它也可以发现跨层次模糊关联最大最小规则集的分类支持下约束。还给出了一个例子来证明提出的挖掘算法可以得到多层次的多项目支持下的关联规则有效途径。

  1. 引言

在数据挖掘技术中,发现关联在交易数据库中最常见的规则是[ 1 ][ 2 ] [ 3 ] [ 7 ] [ 8 ]。关联规则的形式表示为从A到B组的项目,这样的当A存在一个处理过程将意味着B存在相同的过程。它最初应用于市场篮分析购买物品的关系。管理者将采空区关于倾向于购买的物品的知识作为一个很好的参考依据规划店铺布局和市场政策进行决策。在现实世界中的应用程序的交易数据通常包括定量的价值,所以设计一个复杂的数据挖掘算法能处理定量数据对这一研究领域提出了一个挑战,工人在[ 3 ] [ 8 ]。最近,模糊集理论已被越来越多的应用在智能系统中,因为它的简单性和人类推理的相似性,在实际应用中,不同的项目判断其重要性的标准可能会有不同。例如,对较便宜的项目的支持可能会高于那些更昂贵的。刘等[ 6 ]提出了一种非均匀最小支持关联规则挖掘的价值观。他们的方法允许用户指定不同的最小支持不同的项目。王等。[ 9 ]提出了另一种挖掘方法,将项目分为不相交的集合称为箱,在同一个箱子里的物品被认为是不可区分的最低支持规范。我们还提出了一个简单而有效的基于Apriori算法最大约束下的大项目集生成多重最小支持[ 4 ] [ 5 ]。

此外,项目之间的分类关系往往出现在实际应用中。例如,小麦面包和白面包是2种面包。因此面包更高概念层次比小麦面包或白面包。这个决策者在某些应用中所需要的信息没有必要详细的原始概念层次,但在一个更高的。例如,关联规则“面包bull;牛奶”比“麦面包-果汁牛奶”可能对决策者更有帮助。发现协会不同级别的规则可以提供更多的信息比在一个单一的水平[ 2 ] [ 7 ]。

因此,本文从交易的隐性知识存储为定量价值观提出了一种模糊多层次挖掘用于提取项目的多个支持的算法。该算法采用自顶向下寻找大项目集的逐步深化方法。它集成了模糊集概念,数据挖掘技术和

多层次分类法中的模糊关联规则给定的事务数据集的观点。每一个原始项目都是预定义的支持阈值,以及它所包含的最小支持在一个更高层次的项目和项目集是由最大的支持阈值的项目。挖掘规则用语言来表达对人类来说更好理解。

二、关联挖掘算法研究综述

在这一部分中,有关挖掘的相关研究在多层次关联规则与关联规则挖掘在本节中有多个最小支持。

A.挖掘多层次关联规则

在数据挖掘方面的研究主要集中在寻找单一概念层次的关联规则。挖掘协会多概念层次规则导致更普遍的和重要的知识数据被发现。有关项目的分类通常是预定现实世界的应用程序,可以表示为层次结构树。树上的终端节点代表实际项目在交易中出现;内部节点代表类或从低层节点形成的概念。一个简单的例子在图1中给出。

图1:分类实例

韩和福[ 2 ]提出寻找方法多层次交叉关联规则。他们的方法可以找到灵活的关联规则不局限于预先安排的概念层次。节点预定义的分类法是首先使用编码序列数字和符号“*”根据他们的位置层次树。例如,内部节点“牛奶”图1为1**,内部节点“巧克力”11*、与终端节点“Dairyland”111。自上而下逐步深化搜索方法的使用和“层次交叉”关联关系的探索允许。在一定水平上的候选项集可能包含项目处于较低水平。例如,在候选2-项集2级不限,只包含对大项目在2级。相反,大项目在2级可能与大项目在1级到2级的候选2-项集的形式(如{ 1 1*,2 * * })。

B.具有多个最小值的关联规则挖掘支持

各种基于Apriori挖掘方法算法被提出,每一个具体的问题域,特定的数据类型,或提高其效率。在这些方法中,所有项目的最小支持或项集是大的,设置为一个值。但在现实应用程序,不同的项目可能有不同的标准判断它的重要性。刘等。[ 6 ]提出了一种方法非均匀最小支持关联规则挖掘价值观。他们的方法允许用户指定不同的最小支持不同的项目。最小支持一个项目的价值被定义为最低支持在项目集的项之间。然而,这项任务是,不总是适合应用要求。对于例如,假定项目的最小支持是和分别设置为20%和40%。如上所述,项目的最小支持意味着发生该项目的频率必须大于或等于它的概念在未来挖掘步骤的发生的可能。如果支持的项目不大于或等于支持阈值,这是不需要考虑的。当最小支持一个项目的价值在它的项目中被定义为最低支持,这时集可能很大,但项目包括的值可能是很小的。在这种情况下,它就该被怀疑是否是值得考虑。举例说明以上,如果项目的支持是30%,小于其最低支持40% ,不应考虑B。因此,在某种意义上是合理的一个有趣的项目集的发生频率必须大于最小支持的最大值包含在它的项目。

王等[ 9 ]概括上述思想并规定一个项目的最小支持度阈值是什么。他们提出了一个面向装箱,非均匀的支持约束。项目被分为不相交集称为箱,和物品在同一个箱子被视为对一个规范的不可区分的最小支持。虽然他们的方法是灵活的

由于挖掘算法的一般性,它将最小支持分配给项集是一个复杂的过程。虽然王等人的方法可以解决这类时间复杂度高的问题。但是,他们的做法不考虑项目与数量的价值和组织多层次。在我们以前的工作[ 4 ] [ 5 ],一个简单的算法的基础上提出了寻找频繁项集的Apriori算法在最大约束下的关联规则中的多个最小支持。下面,我们将提出一个有效的基于模糊集和汉挖掘方法的算法多层次项目按等级生成模糊大项目集。

三、算法

建议使用的挖掘算法集成了模糊集,数据挖掘和多层次分类方法寻找模糊一个给定的事务数据集的关联规则的概念。用模糊语言来表示知识,人类更容易理解。在提出的算法中,项目可以有不同的最低支持和分类关系,以及最大—最小分类采用支持约束发现大项目集。每一个原始项目都是预定义支持阈值(最小支持)。这个一项集的最小支持度设定的最大值套装中包含的最小的项目支持,在一个较高的生物分类项目的最小支持概念被设置为最小的最小支持属于它的物品。在约束下的特征向下封闭保存时,使得原有的Apriori算法可以很容易地扩展并找到模糊大项目集。

提出的模糊挖掘算法首先对项目进行编码(节点)在一个给定的分类中,用韩和符的方法[ 2 ]。然后,过滤掉不起眼的项集的两个阶段。在第一阶段,如果一个项目组的发生计数小于既定的支持阈值,那么将被删除。在第二阶段,检查一个模糊区域,以确定它是否是大。在这个阶段中,一组成员函数被用来将定量交易转化为模糊值。然后找到所有的大项目集给定的交易,通过比较模糊数的每个其支持度阈值的候选项集。此外,一些修剪策略是用来减少候选项集的数量。输入:一个量化交易数据的机构原始项目的预定义分类分配了自己的最小支持,一组隶属函数,和最小的信心价值A。输出:一组模糊多层次关联规则在最大约束下的多个最小支持。

步骤1:使用一系列的预定义的分类编码数字和符号“*”,与一号代表某项目的分支号码等级1。

步骤2:将项目名称翻译成交易数据根据编码方案。

步骤3:设置= 1,在那里k是用来存储的水平号码正在处理。

步骤4:将每一个第一个数字相同的项目组分类,并删除相同的项目组。

步骤5:计算在所有交易中的每一个计数(发生数)集团。检查各小组的 其计数是否大于或等于支持度阈值。计数小于各自的支持阈值时删除该组。

步骤6:每个剩余组变换定量价值诉。在每笔交易的基准二进模糊集F1代表:

使用给定的隶属函数,在当I= 1到N,h是模糊区的数目,表示一模糊区域的I时,1 lt; lt; h和是的区域模糊隶属度值。

步骤7:收集模糊区域(语言术语)隶属值大于零,以形成候选集;计算标量势计数在交易中的每一个模糊区域数据:

步骤8:检查是否有价值的对策,各地区在是否大于或等于阈值的,这是最小的最小支持原始物品从中。如果是“满足门槛,放进大的1 -项集()为水平K,

步骤9:如果k达到了分类的层次数目,去步骤16找出关联规则;否则,如果为空,设置K = k 1到4步;否则,做下一步。

步骤10:生成候选集从,hellip;寻找“层次交叉”大项目集。产生候选集必须满足以下条件:(1)在调节各2项集必须包含至少一个项目。(2)在2-两地区可能没有同一项目名称。(3)在2-两项目名称不得参与分类中的层次关系。(4)这两个大的I项集的支持值包括的候选2-必须大于或等于最小支持的最大值大1项集。

步骤11:为每个新生做以下步骤候选2项集的区域(Si,S2)在:

(一)计算每个事务中的模糊值作为,当是区域价值所在。承担最低运算符用于求交,然后算标量势的所有交易数据:

(b)计算标量势的所有交易数据:

(c)如果大于或等于最大项目中包含的最小支持,把s的值投入

步骤12:设置为r=2,用r来表示存储在当前大项目集的区域。

步骤13:如果是null,然设置K = k 1到4步;否则,做下一步。

步骤14:从在方式产生候选集类似于Apriori算法[ 1 ]。该算法首先连接路与路,假设1个区域中的2项集是相同的另一个是不同的。有区别的Apriori算法在所有大的支持包括候选人r-itemsets(rl-l)-项集我必须大于或等于最大值这些大r-itemsets支持度阈值。储存的所有项集的所有sub-r-itemsets。

步骤15:为每个更新的数据做以下步骤(R 1)-项集的区域(,,hellip;,)在中。

(一)计算每个事务中的模糊值作为,在那里F是区域隶属度值在地。承担最小算子用于求交:

(b)计算标量势的所有交易数据:

(c)如果大于或等于最小支持,则将数输入中。

步骤16:设置r=r 1并返回步骤13.

步骤17:宽模糊关联(一)所有可能的规则如下:

(b)计算规则如下:

步骤18:输出的规则与信心值大于或等于预定义的置信值A。

请注意,因为项目的层次关系候选2-已在步骤10检查其候选人所以3-itemsets不需要再检查它。根据[ 7 ]中的一个引理处理所有的大项目集,从而排除项目的层次关系。

  1. 举例

在这一节中,给出了一个简单的例子来演示所提出的模糊挖掘算法,生成了一组从一个给定的模糊分类关联规则量化交易数据集的最大频繁项集下最小分类支持约束的多个最小支持。假设定量交易数据集包括表1所示的十项交易。每笔交易包括交易标识和一些采购项目。每项都代表一个元组(项目名称,项目金额)。假设预定义的分类是图1。还承担预定的最小值项目支持值在表2中给出的最小置信度值为0.8。假设对于所有的项目模糊隶属函数是相同的,如图3所示。请注意提出的算法也可以处理项目的不同隶属函数。在这个例子中,量是代表的三个模糊区域:低,中,高。因此,三个模糊的隶属度值是为每个根据预定的功能组。每个项目名称都是第一个使用预定义的编码分类。结果如表3所示。所有项目该交易是第一个分组在一级和他们的添加相应量。每个小组的计数然后检查它自己的支持阈值,这就是最小支持原始项目。

表1:十个交易用FN的例子

ID

分组

T1

(林德小麦面包,2);(林顿红茶饮料,4);(老米尔斯白面包,9)

T2

(林顿红茶饮料,1);(老米尔斯白面包,9);(雀巢绿茶饮料,5);(老米尔斯白面包,5);

(雀巢红茶饮料,2)

T3

(林德小麦面包,2);(林德小麦面包,4);(77柠檬饼干,5);(雀巢红茶饮料,3)

T4

(现代巧克力饼干,3);(老米尔斯白面包,9);(林德小麦面包,2);(巧克力牛奶,3);(林顿红茶饮料,7);

(雀巢红茶饮料,1)

T5

(雀巢红茶饮料,3);(77柠檬饼干,6)

T6

(77柠檬饼干,1);(林德白面包,2)

T7

(老米尔斯小麦面包,6);(现代巧克力饼干,5)

T8

(巧克力牛奶,7);(纯牛奶,3)

T9lt;

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[147768],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。