摘要：挖掘频繁序列是序列数据库前的关键阶段。目前，主要有两种挖掘频繁序列的方式，即序列内挖掘和序列间挖掘。间序列挖掘比序列内挖掘更有吸引力，因为它研究序列之间的交易关系。然而，挖掘一切可能的频繁间序列需要很长的时间，需要大量的内存。挖掘频繁封闭间序列是有效的，因为这样的序列是结构紧凑，而且只保持必要的信息。 CISP-矿工提出了挖掘闭频繁序列间的模式，但它消耗了大量的内存自从很多闭合模式被挖掘。本文提出名为ClosedISP的挖掘闭频繁模式间序列的算法。该算法采用了检查方案以便及早消除和检查没有持续候选人的闭合模式。封闭式ISP使用结合交易信息的压缩数据的动态位向量。

此外，ClosedISP采用前缀树和一个深度优先搜索，以减少搜索空间和有效地生成的非冗余序列规则。通过比较进行实验的算法与CISP挖掘证明所提出的算法在运行时间和内存使用方面的有效性。

关键字：动态位向量·闭间序列模式·垂直数据格式

1 介绍

自从AprioriAll算法提出，序列模式挖掘已经已经成为一个研究^[1]。数据挖掘有许多应用，包括客户的购买行为分析，网络接入模式分析，科学实验，疾病治疗，预防自然灾害，与蛋白质合成分析^[8]。

许多研究者已经修改AprioriAll用于挖掘频繁序列模式。从单个事务挖掘频繁序列被称为序列内挖掘。序列内挖掘独立地对待序列，因此，在单个序列中所有的模式是有限的。在实践中，在不同时间发生许多交易的序列是有意义的，因为事件可能会影响后续的事件。序列内挖掘已经延伸到交易间挖掘。虽然事务间的挖掘可以发生在几个交易项集，但是事务中的项目之间的顺序关系不考虑，即项目被视为一个无序的。相比之下，目前的论文研究大量交易和它们之间的关系。例如，认为一家电脑设备公司有如下模式：“如果顾客比台式机买更多的笔记本电脑，和有线网络设备相比无线网络设备在两个月内将会有更高的需求无线网络设备更高的需要。这种模式是一个序列间模式，因为它在不同的时间出现两笔交易。这种模式对管理者有用。序列间挖掘算法的好处是，它们可以同时用于序列间和序列内挖掘。王和李推荐在一些序列数据库中的交易挖掘频繁序列间模式采用EISP-Miner ^[19]算法。该EISP-Miner算法认为一些序列数据库中的交易组成的项集是序列集。然而，它需要消耗大量的内存用于在树上存储事务标识符，它需要大量的时间在创建新的模式时，发现长期模式。为了克服这些问题，许多研究已经证明，闭频繁序列间模式比一般频繁间序列模式更高效是由于前者的模式类型数目更小。近日，CISP-Miner ^[20]提出了挖掘闭序列间的模式。该算法采用一些技巧用于早期检查和修剪候选人。然而，CISP-Miner的时间和内存使用情况没有得到充分的优化，因为它使用一个哈希表剪枝，存储和检查闭合模式。

本文章提出的ClosedISP算法，它使用一个垂直的数据格式和数据压缩，并划分搜索空间以减少挖掘闭频繁序列模式所需的存储空间和执行时间。本文的其余部分安排如下。第2节给出了问题的定义。第3节总结了相关工作。第4和第5分别给出了算法和实验结果。未来工作的结论和建议，第6节中给出。

2 问题定义

研究一组不同的事件I = {i₁, i₂, i₃, hellip; , i_n}，其中i_j是一个事件（或项目）同时满足1 le; j le; n。这样的事件的集合被称为项集。项集中的项按字母顺序。每一个项集都被放在括号里，如(ABC)。为了简化表示，对于仅包含一个项的项集，括号被省略，例如B.A 序列中，当e_j (1 le; j le; m)是一个项集时，S = { e₁,e₂,e₃,hellip; ,e_m }是一个项集顺序表。A序列数据库相当于D = {s₁, s₂, s₃, hellip; , s_|D|},当 |D| 是D中的序数并且s_i(1 le; i le; |D|)是表单{I D, Sequence}中的一个交易,当｛I D｝是描述s_i的上下文交易的时间戳和位置的属性域。

在一个上下文间序列中的序列数据库的属性域可以通过在不同交易ID中的序列来定义。让t₁和t₂分别成为序列S₁和S₂的域的属性。如果S₁被当作一个参考点, S₁和S₂,之间的span定义为[t₂-t₁]。序列S₂在域属性t₂相对于t₁被称为扩展序列（e-seq），表示为lang;S₂rang;[t₂ – t₁]。例如，在表1中所示的序列数据库，如果第一交易被取为参考点(i.e., t₁= 0)，则第二次交易的e-seq(i.e.,t₂= 1)是lang;A(ABC)Brang;[1 – 0] = lang;A(ABC)Brang;[1]｛A（ABC）B[1- 0] = A（ABC）B｝[1]。考虑e-seq S[d]= lang; e₁,e₂,e₃,hellip; ,e_m rang;[d]，其中是项集(1 le; j le; m)并且[d]是S的span。关联[d]的被定义为扩展项集(e-iset),表示为lang;e_jrang; [d]。如果e_j= (i₁, i₂, i₃, hellip;i_n,)，其中每个是一个项（1le;kle;n）时，关联 [d]的被定义为扩展项（e-item），表示为i_k[d]。例如，扩展序列lang;A（ABC）Brang;[1]包含扩展项集lang;Arang;[1]，lang;（ABC）rang;[1]，和lang;Brang;[1]，可以分别被分解成扩展项A [1]，B [1]，C [1]。一个模式是基于一个序列数据库基础上连续的扩展序列的列表。在模式中扩展项的数量称为模式的长度。长度为k的模式被称为k-模式。在一个模式中，在第一个项目（t₁）的 ID 和最后一个项目（t_x）的ID 之间的span必须小于或等于maxSpan（t_x-t₁le;maxSpan），其中maxSpan是用户设定的最大的跨越阈值。如果maxSpan= 0，问题就变成了序列内挖掘。

例如，当maxSpan=1时，序列数据库表1中包含了四种模式：lang;A（AC）rang;[0] lang;A（ABC）Brang;[1]，lang;A（ABC）Brang;[0] lang;A（BC）rang;[1]，lang;A（BC）rang;[0] lang;Brang;[1]，和lang;Brang;[0]）。直观地说，假设表1中包含的是客户不同天（ID）购买的数据库，项目A，B，和C代表了客户购买的项目。在模式lang;A（AC）rang;[0] lang;A（ABC）Brang;[1]中可能存在模式lang;A（AC）rang;[0] lang;A（AC）Brang;[1]表明，如果顾客在第一天（span= 0）购买项目A和AC，然后在第二天（span=1）将购买项目B。因此，使用这样的模式，就可以根据所考虑的时间的数据预测客户第二天会买什么项目。

子模式（Subpattern）假设有两种模式，P =S₁[w₁]，S₂ [w₂]，hellip;，S_n[w_n]和Prsquo;= Srsquo;₁[nu;₁] Srsquo;₂ [nu;₂]，hellip;，Srsquo;_m [nu;_m]（1le;nle;m）。然后，如果存在n个数j₁，j₂，......，j_n，且满足（1）1le;j₁ lt;j₂ ...lt;j_mle;m，（2）S₁ [w₁] sube;Srsquo;_j1 [nu;_j1]，S₂ [w₂]sube;Srsquo;_j2 [nu;_j2]hellip;，S_n[w_n]sube;Srsquo;_jn [nu;_jn]，同时w₁ =nu;_j1，w₂=nu;_j2，hellip;w_n =nu;_jn，我们称P是Prsquo;的一个子模式。也可以说使Psube;P或Prsquo;是P的超级模式（superpattern）。例如，lang;Drang; [0]的lang;BACrang;[3]和lang;（AD）rang;[0]lang;（AC）Crang;［1］是lang;D（AD）rang;［0］lang;B（AC）Crang;［1］lang;B（A）CCrang;[3]的子模式。

模式支持（Support of a pattern）令P是一个模式，M是D中的一系列模式。模式P的支持，表示为sup（P），定义为P在M中所包含的数量。则模式P的支持表示为lang;Prang;：support。例如，支持是3的模式lang;A（BC）rang;[0] A [1]表示为lang;A（BC）rang;[0] A [1]：3。给予一个用户设定的最小支持阈值 minSup，当 sup（P）ge;min Sup时，模式P即为D上的频繁模式。

闭频繁序列间模式（Frequent closed inter－sequence pattern）给定一个最低支持阈值 min Sup，如果不存在Prsquo;使得Psube;P和sup（P）=sup（Prsquo;），则模式P称为闭频繁序列间模式（或频繁闭合模式）。挖掘闭频繁间序列的问题是为了找到一套用于将输入序列数据库D的完整的频繁闭合模式，并给出最小支持度阈值最小支持度minSup和最大span阈值maxSpan。

闭频繁序列间模式比一般的频繁序列间的模式更紧凑。这是因为子模式P其模式支持同Prsquo;的超级模式（superpattern ）会在不影响最小结果的情况下被Prsquo;包含相类似。例如，模式lang;ABrang; [0]：2被模式lang;A（BC）rang;[0]：2包含，是因为lang;ABrang; [0]sube;lang;A（BC）rang;[0]且suplang;ABrang; [0]）= suplang;A（BC）rang;[0]）= 2。

例1 在

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[29093]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

有效利用动态位向量挖掘闭频繁序列间模式外文翻译资料

1 介绍

2 问题定义

您可能感兴趣的文章

登录

注册

找回密码

1 介绍

2 问题定义

您可能感兴趣的文章