论文
2010年2月
第37卷第1期JOURNAL西安电子科技大学学报(自然科学版)0FXIDIANUNIVERSITYFeb.2010V01.37No.1doi:10.3969/j.issn.1001—2400.2010.01.024
多源性数据SVM集成算法研究
常甜甜1,刘红卫1,冯
2.西北大学信息技术学院。陕西西安筠2710069)(1.西安电子科技大学理学院,陕西西安710071I
摘要:针对数据特征的多源性特点,提出基于分组特征支持向量机集成算法.该方法将特征分组,对不
同组特征采用不同的核函数映射到高维空间后用支持向量机分类,最后采用投票的方法得出决策标记,
所得到的成员分类器具有较高的差异性.与传统的集成方法相比,该方法具有较好的检测性能.
关键词:集成学习;支持向量机;多源性;医学图像
中圈分类号:TPl8文献标识码:A文章编号:1001—2400(2010)01一0136一06
Supportvectormachineensemblelearningalgorithmresearch
basedonheterogeneousdata
CHANGTian-tianl,LJUHong—weil,FENGJun2
(1.schoolofScience,XidianUniv.,Xi’an
2.Schoolof710071,China;InformationSci.andTech.,NorthwestUniv.,Xi’an
based710069,China)featuresisforAbstract:AnSVMensemblelearningalgorithmongroupedproposed
heterogeneousdata.ThefeatureisgroupedandtrainedwithdifferentSVMclassifiers。andthenthefinal
predictlabels
classificationareobtainedbythevotingmethod.Thediversitycomponentclassifierswithresultsshowthat,comparedwithhigherperformanceareobtained.Experimentaltraditional
ensemblelearning。thismethodhasthebestperformance.
KeyWords:ensemblelearning;supportvectormachine;heterogeneous;medicalimage
多源性数据在实际生活中是普遍存在的.通常数据的收集是出于不同的时期或者是不同的来源,也就是说在不同的策略下采用相同的度量,因此就采用了不同的特征描述.通常数据收集并不是以实验过程为目的,或者说不是以知识发现为目的.例如,在一个公司里面,数据分散在很多不同的部门,它们的目标以及收集数据的标准都是不同的.当数据分析需要将这些来自于不同部门的数据通过一个电子表格整合起来的时候,这个工作就变得很复杂.
事实上,先前并不知道数据是多源的.即使做过一定的考查分析,这类数据用传统的方法学习的时候仍存在一定的困难.特征空间的多源性的一种特殊情形就是类别多源性,即决策规则可以在组内部将一类明显的数据区分开来.一般来讲,在特征空间的不同区域,区分类别的相关特征可能是不同的,即不同的特征子空间对应的决策规则也可能是不同的.然而,类别多源性在很多情况下可以通过类别分解集成技术解决,即区分每一对类别的决策规则是通过相应的成员分类器来具体构建的.特征空间多源性对于大部分的学习模型是至关重要的.
集成学习或者多个分类器学习系统通常比一个单个的分类器可以产生更高的精度.集成学习是一种机器学习模式,使得多个学习器可以用于解决相同的问题.与传统的机器学习方式对比,传统的方法是从样本
收稿日期:2009—04—13.
基金项目:国家自然科学基金资助项目(60603098)I陕西省教育厅科学研究计划项目资助项目(07JK381)作者简介:常甜甜(1981一),女,西安电子科技大学博士研究生,E-mail:changtiantian@gmail.com.
论文
第1期常甜甜等:多源性数据SVM集成算法研究137中得到一个假设,而集成学习是构建一个假设的集合,并把它们结合起来的方法.
不同的集成方法的结合可能对于数据多源性的情况有作用,特别是特征空间多源性的情形[1].为了将支持向量机(SVM)应用于多源数据集,必须对每个数据类型采用不同的核函数,并且核矩阵必须采用代数方法整合.近年来,很多研究组提出多核学习(MKL)方法,将多核整合在SVM框架下o].Lanckriet等[33将该问题构架到一个半定规划问题下.这些方法在找到SVM分类最优解的同时,也找到了多源数据集中的独立的数据类型的权重.李青等[4]将集成学习方法应用于SVM,实验结果表明可以提高分类器的性能.何鸣等[53将基于PCA的SVM集成算法应用于医学诊断当中,提高了医疗检测系统的性能.Iryna
性能.
针对数据特征多源性问题,笔者采用将特征分组的方法,将不同源的数据分别采用不同的核映射,最后在集成学习的框架下采用投票的方法得出决策标记.笔者采用了公开数据库DDSM口1和ELCAP[83数据做实验,因此该算法具有实用价值.Skyrpnyk等[61分析了多源数据的特性,针对多源数据进行特征选择后集成,实验结果表明该方法也可提高分类器的
1集成学习
集成学习的方法已经用了很长时间了,因此很难去追溯集成学习是什么时候开始的.然而可以确定的是,从1990年开始集成学习主要围绕着两个方面开展工作:第1个是由Hansen和Salamon[1]在1980年提出的方法,将很多分类器结合在一起去预测目标值,这种方法具有更高的准确度.第2个就是Schapire[91于1989年在理论上证明了采用一种最流行的集成学习方法boosting,可以将一个弱学习器通过集成变成强学习器.
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说高考高中多源性数据SVM集成算法研究(1)在线全文阅读。
相关推荐: