77范文网 - 专业文章范例文档资料分享平台

多源性数据SVM集成算法研究(1)(2)

来源:网络收集 时间:2021-09-24 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:或QQ: 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

事实上,集成学习最吸引人的地方就是它可以将一个比随机猜测好一点的弱分类器推进为一个具有很高预测精度的强分类器.成员分类器通常也被称为弱分类器,是用决策树、神经网络或者其他的机器学习方法得到的.大部分的集成方法是采用相同的学习方法得到不同的成员分类器,但是也有人采用不同学习方法得到不同的学习器.值得注意的是,虽然理论上集成学习是基于弱分类器的,但是在实际应用当中分类器不一定是弱的.从实验中发现集成好的成员分类器可以得到更好的性能.笔者将采用强分类器SVM进行集成学习研究.

2多源性数据集成算法

2.1多源性数据分组特征定义

在医学图像中,通常是从不同的源来挖掘特征.例如几何特征、纹理特征以及灰度特征等.不同的特征具有不同的概率密度函数.可以在图1中看到数据经过归一化后的不同分布,这些特征从不同的侧面充分描述了一幅医学图像.

图1特征图

论文

138西安电子科技大学学报(自然科学版)第37卷

对于不同源的特征采用相同的核映射是不合适的,笔者将不同源特征分情况向高维空间投影.由不同的特征的分组定义分组特征集成算法,如图2所示.

几何特征svMI纹理特征SVMl灰度特征SVMl全部特征SVM

集成学习投票打分

决策输出结果

图2分组特征集成定义图示

2.2基于分组特征的SVM集成算法思想

在传统的集成学习中,用bootstrap算法将数据重新采样为若干子集,然后使用成员分类器来做决策,最后采用投票策略得到最终的标记.但对于不同源数据来说,采用相同的决策方法显然就不合适了,而SVM分组特征集成学习方法可以处理多源数据问题.首先,将样本随机分成训练样本和测试样本,然后将特征根据不同的特性分为不同的组.对于不同的特征组,采用不同核的SVM来训练模型,最后采用投票法得出最终的决策标记.基于分组特征的SVM集成算法(SVM

GFE-SVM)流程见图3.EnsembleLearnningwithGroupedFeatures,缩写

.——一ll—~\训练样本全体

B。。协‘‘ap子表1Bootstrap子表2Bootstrap子表3Bootstrap子表4

几何特征纹理特征1灰度特征全体特征

线性SVM多项式SVM高斯SVM

测试样本

投票打分

决策输出

图3GFE-SVM算法tt示

2.3支持向量机常用核函数

实验中选取了3种核函数:

线性核函数

多项式核函数

高斯核函数

2.4分组特征SVM集成算法流程

步骤0

步骤1已知竹个样本集合D={z。,z。,…,毛)以及对应标记Y一{Y。,Y2’.一,Y。);将全体样本集合D分为训练样本D。r血和测试样本D。,用bootstrap对训练样本重新采样得k(x,X7)=z z7,k(z,X7)=(z z7+1)’ ,k(x,z7)一exp(一(z—z7) (z—z7)7/(2 Pi)),其中的C为惩罚因子,P,,P。为核参数.到d个bootstrap子集合{D。商Il',…,D。。.n,};

步骤2将每个D。。h.根据先验知识将其特征分成若干组得到D。嘶;

步骤3对每组D“。i;采用不同的核函数投影到高维空间进行分类;步骤4由I?A_k步骤得出若干个成员分类器,对各个成员分类器进行集成,选出最好的若干个分类器;

论文

第1期常甜甜等:多源性数据SVM集成算法研究139

步骤5用选出的成员分类器对测试样本D。。进行投票,得出最终的决策标记.

3实验分析

3.1实验数据描述

笔者选用美国DDSM乳腺钼靶X光片图像数据库‘73以及美国ELCAP和VIA研究组合作开发的ELCAP公开肺图像数据库‘83数据,具有很高的实际应用价值.对原始图像数据进行预处理nml23得到测试数据,试验当中采用约当指数来评价分类器的性能.

3.2实验结果及分析

采用5折交叉检验取平均值得到测试结果,见表1~表5.表1中,对于ELCAP数据,与成员分类器相比,传统的集成分类器的精度不是最好的分类器.笔者采用线性、多项式、高斯核函数SVM来分别训练几何特征、灰度特征、纹理特征以及全体特征。从表1可以看出来,多项式核函数SVM针对几何特征的集成学习器是性能最好的.

表1

特征组核函数肺结节薄层数据分组测试结果精度TPR

0.7640

0.7987

0.7947

0.6080

0.6320

0.6493

0.6000

0.6560

0.6707

0.7627

0.7947

0.79200.86900.86130.88530.72800.78400.72000.69330.77870.67470.80530.87470.8480FPR0.34130.26400.29600.51200.52000.42130.49330.46670.33330.28000.28530.2640YoudenIndex0.52800.59730.58930.21600.26400.29870.20000.31200.34130.52530.58930.5840几何特征LinearPolyRBF纹理特征LinearPolyRBF灰度特征LinearPolyRBF全部特征LinearPolyRBF

在表2中,将表1当中的分类器进行组合选出最好的集成分类器并整合起来,与传统的SVM分类器相比,基于分组特征的集成SVM是性能最好的分类器.其中J表示几何特征,H表示灰度特征,w表示纹理特征,A表示全体特征,L表示线性SVM,P表示多项式SVM,G表示高斯SVM.AL表示用线性SVM对全体特征的训练模型,以此类推可得.

表2肺结节薄层数据集成结果表

集成分类器集成精度TPR

O.7573O.8747

0.8320

0.8693

0.7493

0.7467

0.8613

0.8960

0.8987

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说高考高中多源性数据SVM集成算法研究(1)(2)在线全文阅读。

多源性数据SVM集成算法研究(1)(2).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.77cn.com.cn/wenku/gaokaogaozhong/1250097.html(转载请注明文章来源)
Copyright © 2008-2022 免费范文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ: 邮箱:tiandhx2@hotmail.com
苏ICP备16052595号-18
× 注册会员免费下载(下载后可以自由复制和排版)
注册会员下载
全站内容免费自由复制
注册会员下载
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: