77范文网 - 专业文章范例文档资料分享平台

机器学习算法优缺点改进总结(2)

来源:网络收集 时间:2019-06-17 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:或QQ: 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。

(5)Linear Classifier(线性分类器)

①算法思想:线性分类器使用线性判别函数,实现线性判别函数分类的方法有感知器算法、LMSE分类算法和Fisher分类。

在分类问题中,因变量Y可以看做是数据的label,属于分类变量。所谓分类问题,就是能够在数据的自变量X空间内找到一些决策边界,把label不同的数据分开,如果某种方法所找出的这些决策边界在自变量X空间内是线性的,这时就说这种方法是一种线性分类器。

C1和C2是要区分的两个类别,在二维平面中它们的样本如上图所示。中间的直线就是一个分类函数,它可以将两类样本完全分开。

线性分类器在数学上被理解为线性判别函数(Linear Discriminant Functions),在几何上可以理解为决策超平面(Decision Hyperplanes)。 ②优点:算法简单

③缺点:只能处理线性问题

④改进:要处理其他非线性问题,可以向高维转化,例如用SVM方法。线性分类器是分类方法,不是具体算法。

(6)Perceptron Algorithm (感知器算法)

①算法思想:

感知机(Perceptron)是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。 ②优点:

(1)感知机学习算法是基于随机梯度下降法的对损失函数的最优化算法,有原始形式和对偶形式。算法简单且易于实现;

(2)它提出了自组织自学习的思想。对能够解决的问题有一个收敛的算法,并从数学上给出了严格的证明。 (3)当样本线性可分情况下,学习率 合适时,算法具有收敛性。 ③缺点:

(1)即感知机无法找到一个线性模型对异或问题进行划分。

(2)其实不光感知机无法处理异或问题,所有的线性分类模型都无法处理异或分类问题。 (3)收敛速度慢;当样本线性不可分情况下,算法不收敛,且无法判断样本是否线性可分。

④改进:单个感知器虽然无法解决异或问题,但却可以通过将多个感知器组合,实现复杂空间的分割。 (7)线性判别分析(LDA,Linear Discriminant Analysis) ①基础概念

(1)判别分析概念

根据已知对象的某些观测指标和所属类别来判断未知对象所属类别的统计方法。 利用已知类别的样本信息求判别函数,根据判别函数对未知样本所属类别进行判别。 (2)判别分析分类

按判别组数来分,有两组判别分析和多组判别分析

按数学模型(函数形式)来分,有线性判别分析和非线性判别分析

按判别方法来分,有Fisher判别分析、Bayes判别分析和距离判别(K-NN) 注:线性判别分析就是一般化的Fisher判别分析 (3)Fisher判别分析与Bayes判别分析优缺点比较

Fisher判别方法对总体分布没有特殊要求,但是Fisher判别法未考虑各总体出现概率的大小,不能给出后验概率以及错判造成的损失。

Bayes判别法可以给出后验概率以及错判造成的损失。但是要求即各种变量必须服从多元正态分布、各组协方差矩阵必须相等、各组变量均值均有显著性差异。 ②LDA缺点

LDA有两个突出缺点:

(1)处理高维图像时容易产生“小样本问题”, 即样本维数大大超过训练图像个数的问题;

5

(2)由此引发的边缘类主导特征空间分解的问题。 (3)LDA的其余缺点(限制): LDA至多可生成C-1维子空间。 LDA不适合对非高斯分布的样本进行降维。 LDA在样本分类信息依赖方差而不是均值时,效果不好。 LDA可能过度拟合数据。

③针对“小样本问题”的改进方法

可以利用本文设计的改进PCA 算法与LDA 算法相结合来解决小样本问题,即将结合了基于标准差和局部均值的图像增强处理算法的PCA 算法与LDA 算法相结合。具体的应用过程即为: 先采用改进的PCA 算法对样本进行降维处理,以便确保样本的类内离散度矩阵为非奇异的,利用改进的PCA 算法将原始样本图像往一个特征子空间中投影,从而使得样本的类内离散度矩阵是非奇异的。再利用LDA 算法在次特征子空间中求得最优变换。

LDA与PCA的比较

两者都是为了在对原始数据降维之后进行分类。PCA(Principal Component Analysis,主成分分析)是无监督的方式,它没有分类标签,降维之后需要采用K-Means或自组织映射网络等无监督的算法进行分类。LDA是有监督的方式,它先对训练数据进行降维,然后找出一个线性判别函数。 (8)k-NN(k-Nearest Neighbor for classifier,分类最近邻估计) ①算法思想: (1)k-NN介绍

如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。 (2)k-NN概念

k-NN算法通常以“欧氏距离(Euclidean Distance)”为其分类模型, 欧氏距离公式的定义如下: 设在n 维空间中有两个点X =(x1,x2,?,xn)和Y =(y1,y2,?,yn), 它们之间的欧氏距离定义为:

其中, n是维数, Xi和Yi分别是X和Y的第k个属性值。 ②优点

(1)简单,易于理解,易于实现,无需估计参数,无需训练

(2)适合对稀有事件进行分类(例如当流失率很低时,比如低于0.5%,构造流失预测模型)

(3)特别适合于多分类问题(multi-modal,对象具有多个类别标签),例如根据基因特征来判断其功能分类,kNN比SVM的表现要好. ③缺点

(1)计算量大,由于要逐个计算到每条记录的欧氏距离, 对于海量数据, 该算法时间效率非常低。它在对每一个查询实例(Query Instance)进行分类时, 都需要搜索整个训练集来寻找最近邻, 所以它的运算开销巨大, 时间代价高昂, 这导致了它的运行速度非常低下。

(2)可解释性较差,无法给出决策树那样的规则。

(3)当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。 该算法只计算“最近的”邻居样本,某一类的样本数量很大,那么或者这类样本并不接近目标样本,或者这类样本很靠近目标样本。无论怎样,数量并不能影响运行结果。 (4)由于所有属性均等地参与计算, 没有突出属性的重要程度, 分类结果易受单个属性的影响; ④改进

缺点1:目前常用的解决方法是事先对已知样本点进行剪辑,事先去除对分类作用不大的样本。该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。

6

缺点4:利用信息增益来衡量属性的重要程度(即属性权重系数) ,将属性划分为关键属性、次要属性及无关属性, 解决属性均等用力的问题;

缺点3,可考虑从K值设定回答 1、k值设定为多大?

k太小,分类结果易受噪声点影响;k太大,近邻中又可能包含太多的其它类别的点。(对距离加权,可以降低k值设定的影响)

k值通常是采用交叉检验来确定(以k=1为基准) 经验规则:k一般低于训练样本数的平方根

补充去年相关习题:

请阐述 kNN 近邻分类算法的基本思想,并分析它的主要优缺点。关于 k 的取值, 你有什么合理的建议(至少 1 条)。 优点

(1)简单,易于理解,易于实现,无需估计参数,无需训练

(2)适合对稀有事件进行分类(例如当流失率很低时,比如低于0.5%,构造流失预测模型) (3)特别适合于多分类问题,例如根据基因特征来判断其功能分类,kNN比SVM的表现要好 缺点

(1)懒惰算法,对测试样本分类时的计算量大,内存开销大,评分慢

(2)当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有 可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数;

(3)可解释性较差,无法给出决策树那样的规则。 k值设定

k值选择过小,得到的近邻数过少,会降低分类精度,同时也会放大噪声数据的干扰;而如果k值选择过大,并且待分类样本属于训练集中包含数据数较少的类,那么在选择k个近邻的时候,实际上并不相似的数据亦被包含进来,造成噪声增加而导致分类效果的降低。

k太小,分类结果易受噪声点影响;k太大,近邻中又可能包含太多的其它类别的点。(对距离加权,可以降低k值设定的影响) K值设定的建议

k值通常是采用交叉检验来确定(以k=1为基准) k一般低于训练样本数的平方根

(9)贝叶斯决策方法(Bayesian Decision Method) ①贝叶斯决策概念

贝叶斯决策(Bayesian Decision Theory)就是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策。 贝叶斯决策属于风险型决策,决策者虽不能控制客观因素的变化,但却掌握其变化的可能状况及各状况的分布概率,并利用期望值即未来可能出现的平均状况作为决策准则。

贝叶斯决策理论方法是统计模型决策中的一个基本方法,其基本思想是: 已知类条件概率密度参数表达式和先验概率。 利用贝叶斯公式转换成后验概率。 根据后验概率大小进行决策分类。 ②贝叶斯决策方法优缺点 优点: 贝叶斯决策能对信息的价值或是否需要采集新的信息做出科学的判断 它能对调查结果的可能性加以数量化的评价,而不是像一般的决策方法那样,对调查结果或者是完全相信,或者是

7

完全不相信 如果说任何调查结果都不可能完全准确,先验知识或主观概率也不是完全可以相信的,那么贝叶斯决策则巧妙地将这两种信息有机地结合起来了 它可以在决策过程中根据具体情况下不断地使用,使决策逐步完善和更加科学 缺点: 它需要的数据多,分析计算比较复杂,特别在解决复杂问题时,这个矛盾就更为突出 有些数据必须使用主观概率,有些人不太相信,这也妨碍了贝叶斯决策方法的推广使用 ③贝叶斯决策改进方法 将决策问题转化成收益矩阵,通过对收益矩阵的分析,得出各行动方案的期望值,按照一定的准则选出最优方案。 以各状况下最大收益值或效用值为基础,求出MaxE(x),以此作为完全确定情况下的收益值,用该值减去最优方案的期望值得出完全信息价值(EVPⅠ),根据完全信息期望值判断是否需要补充信息量。 在第2步得到肯定回答后,首先在预先后验分析中从理论上把各种可能的抽样方案及结果列举出来,计算各种抽样方案的抽样信息期望值EVSI=EVPI-R(n),其中R(n)为抽样风险,其大小是样本大小的函数。 以EVSI-C(其中C为抽样成本)作为标准选取最大值对应的抽样方案为最优抽样方案。 按照理论上得出的最优抽样方案进行抽样,然后,根据贝叶斯理论公式推导出后验概率分布的数字描述,最后,以此为依据按照贝叶斯决策准则选出最优方案。 补充朴素贝叶斯

朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。

同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时,NBC模型的分类效率比不上决策树模型。而在属性相关性较小时,NBC模型的性能最为良好。 补充朴素贝叶斯优点:

1)朴素贝叶斯算法是基于贝叶斯理论,逻辑清楚明了 2)本算法进行分类是,时间快,在内存上需要的也不大

3)本算法鲁棒性高,即使数据包含的噪声点,无关属性和缺失值的属性,分类性能不好又 太大的变化,健壮性好

补充朴素贝叶斯算法缺点:

1)朴素贝叶斯算法要求样本各属性直接是独立的,而真实的数据符合这个条件很少。 2)当样本数据少时,分类器可能会无法正确分类

Lecture 2 Feed-forward Neural Networks and BP Algorithm

(1)Multilayer Perceptron(多层感知器)

①算法思想

多层感知器(Multilayer Perceptron,缩写MLP)是一种前向结构的人工神经网络。MLP算法一般包括三层,分别是一个输入层,一个输出层和一个或多个隐藏层的神经网络组成。一个“神经元”的输出就可以是另一个“神经元”的输入。MLP可以被看作是一个有向图,由多个的节点层所组成,每一层都全连接到下一层。除了输入节点,每个神经元都有几个输入和输出神经元,每个神经元通过输入权重加上偏置计算输出值,并选择一种激活函数进行转换。一种被称为反向传播算法(BP)的监督学习方法常被用来训练MLP。MLP是感知器的推广,克服了感知器不能对线性不可分数据进行识别的弱点。

激活函数

若每个神经元的激活函数都是线性函数,那么,任意层数的MLP都可被约简成一个等价的单层感知器。实际上,MLP本身可以使用任何形式的激活函数,但为了使用反向传播算法进行有效学习,激活函数必须限制为可微函数。由于具有良好可微性,很多乙形函数,尤其是双曲正切函数(Hyperbolic tangent)及逻辑乙形函数(logistic sigmoid function),被采用为激活函数。激活函数常见的有三种,分别是恒等函数,Sigmoid函数和高斯函数。

8

②优点:

(1)高度的并行性

人工神经网络是由许多相同的简单处理单元并联组合而成,虽然每个单元的功能简单,但大量简单单元的并行活动,使其对信息的处理能力与效果惊人。 (2)高度的非线性全局作用

神经网络系统是由大量简单神经元构成的,每个神经元接受大量其他神经元的输入,通过非线性输入、输出关系,产生输出影响其它神经元。网络就是这样互相制约相互影响,实现从输入状态空间到输出状态空间非线性映射的。网络的演化遵从全局性作用原则,从输入状态演化到终态而输出。从全局观点来看,网络整体性能不是网络局部性能的简单迭加,而表现某种集体性行为;而电脑遵从串行式局域性操作原则,每一步计算与上一步计算紧密相关,并对下一步产生影响,问题是通过算法逐步进行处理的。 (3)良好的容错性与联想记忆功能

人工神经网络通过自身的网络结构能够实现对信息的记忆,而所记忆的信息是存储在神经元之间的权值中。从单个权值中看不出所储存的信息内容,因而是分布式的存储方式。这使得网络具有良好的容错性,并能进行聚类分析、特征提取、缺损模式复原等模式信息处理工作。

(4)十分强的自适应、自学习功能人工神经网络可以通过训练和学习来获得网络的权值与结构,呈现出很强的自学习能力和对环境的自适应能力。 ③缺点

(1)网络的隐含节点个数选取问题至今仍是一个 世界难题;

(2)停止阈值、学习率、动量常数需要采用”trial-and-error”法,极其耗时(动手实验); (3)学习速度慢;

(4)容易陷入局部极值,学习不够充分。 ④改进

(1)改进BP算法(见bp) (2)权值初始化

在初始化权值的时候,我们一般需要它们在0附近,要足够小(在激活函数的近似线性区域可以获得最大的梯度)。另一个特性,尤其对深度网络而言,是可以减小层与层之间的激活函数的方差和反向传导梯度的方差。这就可以让信息更好的向下和向上的传导,减少层间差异。 (3)学习率 随着时间的推移减小学习速率有时候也是一个好主意。一个简单的方法是使用这个公式:u/(1+d*t),u是初始速率(可以使用上面讲的网格搜索选择),d是减小常量,用以控制学习速率,可以设为0.001或者更小,t是迭代次数或者时间。 可以基于分类错误率自适应的选择学习率。 (4)隐藏节点数

9

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库机器学习算法优缺点改进总结(2)在线全文阅读。

机器学习算法优缺点改进总结(2).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.77cn.com.cn/wenku/zonghe/662404.html(转载请注明文章来源)
Copyright © 2008-2022 免费范文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ: 邮箱:tiandhx2@hotmail.com
苏ICP备16052595号-18
× 注册会员免费下载(下载后可以自由复制和排版)
注册会员下载
全站内容免费自由复制
注册会员下载
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: