先找出1个集合,使得该集合是尽可能多的极小矛盾集的子集。如果该集合存在的话.然后对剩下的极小矛盾集重复上述操作直到所剩的极小矛盾集互不相交.只要在上述方法找到的1组集合和所剩的极小矛盾集中各删除1条规则,就可以
得到一致的关联规则集合∑M.预处理后得到的交集为{,一^),所剩的极小矛盾集为{口^6一d,口一c,c一]d},将规则
集修改为:
口^6一d
口一i
f一]d
第2期高永惠:数据挖掘中关联规则集的优化
41
e—fA^ nk—Z
g
g’2行4Dk—f
o
h—+7i
J一是Z÷m
仇’7挖^7
2.4扩充修改关联规则集
可以通过上述方法得到一致的关联规则集合∑M,但却删除了一些规则,从而丢失了这些被删除规则所包含的统计信
息.并且所得结果集的表达能力没有得到扩充.下面将改进上述方法,以便减少信息的丢失,同时,适当地扩充规则的表达能力.如果某规则同时属于2个或以上的极小矛盾集.就认为通过删除该规则而消除2个或以上的极小矛盾集是有效率的.
扩充修改的方法如下:设r是≥:中的极小矛盾集,x是在F中得出矛盾的前提.如果F中存在2条或2条以上的以x
为前件的关联规则,就选取该类型规则中兴趣度最小的2条规则,设其为X—Z,X—W,将它们改成X^]Ⅳ一Z,X^
1
Z—W,若修改不导致新的矛盾的话,否则通过删除规则修改f;如果存在1条以X为前件的关联规则X—Z和1条以x,
为前件的关联规则X7一w,且{x7}[{X),那么X可以写为y^x,,将X,一w改成X7^]Y—w,若修改不导致新的矛盾的话,否则通过删除规则修改r;如果只存在X,为前件的关联规则,且{x’}c(X),那么X可以写为y^x,,选取该类型规则中兴趣度最小的规则,设其为x,一Ⅳ,将x7一w改成X’^]y一Ⅳ,若修改不导致新的矛盾的话,否则通过删除规则修改J1;其他情况通过删除规则修改r.具体内容包括过程4和算法2.
过程4:扩充修改极小矛盾集.
输入:X,r(极小矛盾集),∑(其中包含极小矛盾集都是独立的)
方法:if(r中存在2条或2条以上的以X为前件的关联规则)then
{选取该类型规则中兴趣度最小的2条规则X—Z,X一W;
∑’=∑一{x.一Z,x.+W};
return;}
elseif(存在X’为前件的关联规则。且{X’)c{X})then{选取该类型规则中兴趣度最小的规则xJ—w;∑7=∑~{X7一W);
∑7=∑’U(X’A7Y+W};//{X’}c{X),则X可以写为Y^X’
call过程1(∑’,X’^]Y);call过程2;
M-Queue=过程2的输出;if(M-Queue为空)then∑=∑’;
else
∑’=∑’U{XAl
W--Z,XA]pW);
call过程1(∑7,XA7W);
call过程2;
M-Queue=过程2的输出;call过程1(∑’,X^]Z);
call过程2;
{选取极小矛盾集r中1条兴趣度最小的规则P;从∑中删除规则P;}
return;)
else
N-Queue=过程2的输出;
if(M-Queueandhi-Queue为空)then
∑;∑7;
else
{选取极小矛盾集r中1条兴趣度最小的规则P;从∑中删除规则P;
return;}
{选取极小矛盾集r中1条兴趣度最小的规则P;从∑中删除规则P;)
对于文中的例子,极小矛盾集{aAb---d,一c,c'1输入:∑(初始关联规则集)输出:∑M(一致的关联规则集)方法:call算法1;
if(算法1的输出为非空)then
{对∑中所有的极小矛盾集进行修改预处理;for(t,-Queue的各元素)各选取其中1条兴趣度对于文中的例子,算法2将规则集修改为:
口Ab—d
c—-1
d}将被修改为{a^卜d,aA]卜c,c.1
d}.
算法2:解决关联规则集∑的不一致问题并扩充规则的表达能力.
最小的规则构成集合;//交集O∑=∑--0;
for(F-Queue的各元素)call过程4;∑M=∑;}
else
ZM=∑;
return∑M;
口^1b÷cn÷£94
2
d
e—fA
g
42
吉首大学学报(自然科学版)
^’1J一愚Z,m
咒●Ok—fm+]nA
1
o
第31卷
ih—+1'/k—+l
可以看出,算法2得到的规则集比修正关联规则集得到的规则集少删除了1条规则,从而较多地保留了规则挖掘过程中获得的统计信息.
在文中给出的算法或过程中,支持集策略归结算法的时间耗费是指数级的,其他算法的时间耗费都是多项式,所以支持集策略归结算法是整个系统的性能瓶颈.但是对文中的问题,在一般情况下,可以通过删除纯文字子句较大幅度地缩小参加归结的子句集,从而有效地提高了系统的性能.
3分析和讨论
重新定义了正、负关联规则并给出了它们的兴趣度.由正、负关联规则组成的初始规则集是一个关于兴趣度大小的全序集.在得到了解决关联规则集不一致问题的方法后,通过删除一些兴趣度小的规则使得规则集一致.在此基础上做了改进,采用规则删除和规则修改相结合的方法,在保证规则集一致的情况下,扩充了规则的表达能力并减少了统计信息的丢失.
客观层面的规则评价方法不能发现和解决规则集的不一致问题.在客观层面的规则评价方法的基础上,文中的方法得到了一致的规则集.同时,修改后的规则集更加符合实际情况.由于没有删除规则,因此能减少统计信息的丢失,并且修改的结果较符合人们的思维习惯,可以说是一种人性化的方法.可以看到修改后的规则的前件中出现了负文字,这种规则是不能通过传统的关联规则挖掘方法得到的.对于主观层面的规则评价方法,可以说如果某规则符合用户的兴趣取向,那么该规则经文中方法修改后仍然符合用户的兴趣取向,并且为用户提供更多的信息.
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说公务员考试数据挖掘中关联规则集的优化(3)在线全文阅读。
相关推荐: