事实上,集成学习最吸引人的地方就是它可以将一个比随机猜测好一点的弱分类器推进为一个具有很高预测精度的强分类器.成员分类器通常也被称为弱分类器,是用决策树、神经网络或者其他的机器学习方法得到的.大部分的集成方法是采用相同的学习方法得到不同的成员分类器,但是也有人采用不同学习方法得到不同的学习器.值得注意的是,虽然理论上集成学习是基于弱分类器的,但是在实际应用当中分类器不一定是弱的.从实验中发现集成好的成员分类器可以得到更好的性能.笔者将采用强分类器SVM进行集成学习研究.
2多源性数据集成算法
2.1多源性数据分组特征定义
在医学图像中,通常是从不同的源来挖掘特征.例如几何特征、纹理特征以及灰度特征等.不同的特征具有不同的概率密度函数.可以在图1中看到数据经过归一化后的不同分布,这些特征从不同的侧面充分描述了一幅医学图像.
图1特征图
论文
138西安电子科技大学学报(自然科学版)第37卷
对于不同源的特征采用相同的核映射是不合适的,笔者将不同源特征分情况向高维空间投影.由不同的特征的分组定义分组特征集成算法,如图2所示.
几何特征svMI纹理特征SVMl灰度特征SVMl全部特征SVM
集成学习投票打分
决策输出结果
图2分组特征集成定义图示
2.2基于分组特征的SVM集成算法思想
在传统的集成学习中,用bootstrap算法将数据重新采样为若干子集,然后使用成员分类器来做决策,最后采用投票策略得到最终的标记.但对于不同源数据来说,采用相同的决策方法显然就不合适了,而SVM分组特征集成学习方法可以处理多源数据问题.首先,将样本随机分成训练样本和测试样本,然后将特征根据不同的特性分为不同的组.对于不同的特征组,采用不同核的SVM来训练模型,最后采用投票法得出最终的决策标记.基于分组特征的SVM集成算法(SVM
GFE-SVM)流程见图3.EnsembleLearnningwithGroupedFeatures,缩写
.——一ll—~\训练样本全体
B。。协‘‘ap子表1Bootstrap子表2Bootstrap子表3Bootstrap子表4
I
几何特征纹理特征1灰度特征全体特征
线性SVM多项式SVM高斯SVM
l
测试样本
工
投票打分
l
决策输出
图3GFE-SVM算法tt示
2.3支持向量机常用核函数
实验中选取了3种核函数:
线性核函数
多项式核函数
高斯核函数
2.4分组特征SVM集成算法流程
步骤0
步骤1已知竹个样本集合D={z。,z。,…,毛)以及对应标记Y一{Y。,Y2’.一,Y。);将全体样本集合D分为训练样本D。r血和测试样本D。,用bootstrap对训练样本重新采样得k(x,X7)=z z7,k(z,X7)=(z z7+1)’ ,k(x,z7)一exp(一(z—z7) (z—z7)7/(2 Pi)),其中的C为惩罚因子,P,,P。为核参数.到d个bootstrap子集合{D。商Il',…,D。。.n,};
步骤2将每个D。。h.根据先验知识将其特征分成若干组得到D。嘶;
步骤3对每组D“。i;采用不同的核函数投影到高维空间进行分类;步骤4由I?A_k步骤得出若干个成员分类器,对各个成员分类器进行集成,选出最好的若干个分类器;
论文
第1期常甜甜等:多源性数据SVM集成算法研究139
步骤5用选出的成员分类器对测试样本D。。进行投票,得出最终的决策标记.
3实验分析
3.1实验数据描述
笔者选用美国DDSM乳腺钼靶X光片图像数据库‘73以及美国ELCAP和VIA研究组合作开发的ELCAP公开肺图像数据库‘83数据,具有很高的实际应用价值.对原始图像数据进行预处理nml23得到测试数据,试验当中采用约当指数来评价分类器的性能.
3.2实验结果及分析
采用5折交叉检验取平均值得到测试结果,见表1~表5.表1中,对于ELCAP数据,与成员分类器相比,传统的集成分类器的精度不是最好的分类器.笔者采用线性、多项式、高斯核函数SVM来分别训练几何特征、灰度特征、纹理特征以及全体特征。从表1可以看出来,多项式核函数SVM针对几何特征的集成学习器是性能最好的.
表1
特征组核函数肺结节薄层数据分组测试结果精度TPR
0.7640
0.7987
0.7947
0.6080
0.6320
0.6493
0.6000
0.6560
0.6707
0.7627
0.7947
0.79200.86900.86130.88530.72800.78400.72000.69330.77870.67470.80530.87470.8480FPR0.34130.26400.29600.51200.52000.42130.49330.46670.33330.28000.28530.2640YoudenIndex0.52800.59730.58930.21600.26400.29870.20000.31200.34130.52530.58930.5840几何特征LinearPolyRBF纹理特征LinearPolyRBF灰度特征LinearPolyRBF全部特征LinearPolyRBF
在表2中,将表1当中的分类器进行组合选出最好的集成分类器并整合起来,与传统的SVM分类器相比,基于分组特征的集成SVM是性能最好的分类器.其中J表示几何特征,H表示灰度特征,w表示纹理特征,A表示全体特征,L表示线性SVM,P表示多项式SVM,G表示高斯SVM.AL表示用线性SVM对全体特征的训练模型,以此类推可得.
表2肺结节薄层数据集成结果表
集成分类器集成精度TPR
O.7573O.8747
0.8320
0.8693
0.7493
0.7467
0.8613
0.8960
0.8987
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说高考高中多源性数据SVM集成算法研究(1)(2)在线全文阅读。
相关推荐: