第二阶段,采用分类、关联规则、聚类等方法研究影响企业创新能力和创新水平的关键因素。
关联规则 ⑴R语言频繁项集
Ihs为前项,rh s为后项,support为支持度,confidence为置信度,l i f t为提升度,Lift(X->Y)=Confidence(X->Y)/Support(Y),如果该值=1,说明两个条件没有任何关联,如果<1说明A条件(或者说A事件的发生)与B事件是相斥的,一般在数据挖掘中当提升度大于3时,我们才承认挖掘出的关联规则是有价值的。
关联规则生成。
生成关联规则后,可以进行指定规则的筛选。1、按指标对规则进行排序sort(rules,by=,lift');2、搜索规则subset(rulesjhs%in%TV')#前项含“A”的规则,其中%4%是精确匹配,%pin%是部分匹配,也就是说只要item like'%A%'or item like'%B%',%3丨11%是完全匹配,也就是说itemset has'A'and itemset has'B
weka
打开数据集all_disc.arff,选择Associate选项卡。默认的关联规则发现方法是Apriori算法(可以通过单击choose按钮选择使用其他方法),单击choose后面文本框可以对参数进行设置
car T rue代表发现的关联规则的右边是类别属性;classlndex:-l代表数据表中最后一列是类别属性,若不是,则用属性的序号指定。delta:0.05代表最小支持度阈值的递减幅度。
从满足支持度等于upperBoundMinSupport开始查找,如果规则数目不足numRules,则降低支持度阈值,降低幅度由delta决定,如果找到numRules个关联规则,则停止挖掘过程,但是最低支持阈值不能低于lowerBoundMinSupport。
单击ok回到主界面,单击start按钮执行关联规则,挖掘结果如图
在寻求更好的挖掘结果过程中,可以对参数进行不断地调整。此例挖掘结果中关联规则右边的类别属性多为uninnov,这与丨s_innov=uninnov在数据集中出现更为频繁不无关系,我们可以利用数据集的子集来进行关联规则的挖掘,以得出更有价值的挖掘结果
分类
分类就是总结己有类别的对象的特点并进而进行未知类别对象的类别预测的过程。归纳、总结每类用户区别于其他类别用户的共同特点,构造一个函数或分类模型,又称为分类器(classifier),根据此函数或分类模型,预测一个对象的类别。我们称这个过程就为分类,其中历史数据被称为训练数据集(training dataset)。构造函数或分类器的过程称为学习。为了评价一个分类模型的性能,我们通常根据分类模型判断一组己知类别的对象的类别,这些己知类别的对象构成的数据集称为测试数据集(testing dataset)。
R语言
rpart(formula,data,method,parms,...)得到决策树对象,其中formula是回归方程的形式,y?xl+x2+...,innov—共有6个变量,因变量是Isjnnov,自变量是其余5个变量,所以formula可以省略为Isjnnov?.data是所要学习的数据集method根据因变量的数据类型有如下几种选择:a nova(连续型),poisson(记数型),class(离散型),exp(生存型),因为我们的因变量为是否创新,属于离散型,所以method选择class。
parms可以设置纯度的度量方法,有gini(默认)和information(信息增益)两
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库r语言商务智能方法与应用课程设计报告 附数据代码(2)在线全文阅读。
相关推荐: