77范文网 - 专业文章范例文档资料分享平台

多元统计分析之主成分分析

来源:网络收集 时间:2019-04-05 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:或QQ: 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

第七章 主成分分析

§7.1 什么是主成分分析及基本思想

1 什么是主成分分析

主成分概念首先由Karl parson在1901年引进,不过当时只对非随机变量来讨论的。1933年Hotelling将这个概念推广到随机向量。

在实际问题中,研究多指标(变量)问题是经常遇到的,然而在多数情况下,不同指标之间是有一定相关性。由于指标较多再加上指标之间有一定的相关性,势必增加了分析问题的复杂性。主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息。这种将多个指标化为少数互相无关的综合指标的统计方法叫做主成分分析或称主分量分析。也是数学上处理降维的一种方法,例如,某人要做一件上衣要测量很多尺寸,如身长、袖长、胸围、腰围、肩宽、肩厚等十几项指标,但某服装厂要生产一批新型服装绝不可能把尺寸的型号分得过多,而是从多种指标中综合成几个少数的综合指标,做为分类的型号,如利用主成分分析将十几项指标综合成3项指标,一项是反映长度的指标,一项是反映胖瘦的指标,一项是反映特体的指标。在商业经济中用主成分分析可将复杂的一些数据综合成几个商业指数形式,如物价指数、生活费用指数,商业活动指数等等。

主成分分析除了可以单独用来处理上面所讨论的这一类问题外,还可以与其它方法结合起来使用,例如与回归分析结合起来就是主成分回归,它可以克服回归问题中由于自变量之间的高度相关而产生的分析困难。

2 基本思想

主成分分析就是设法将原来众多具有一定相关性的指标(比如p个指标),重新组合成一组新的相互无关的综合指标来代替原来指标。通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标,但是这种线性组合,如果不加限制,则可以有很多,我们应该如何去选取呢?如果将选取的第一个线性组合即第一个综合指标记为F1,自然希望F1尽可能多的反映原来指标的信息,这里的“信息”用什么来表达?最经典的方法就是用F1的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0,称F2为第二主成分,依此类推可以构造出第三,四,??,第p个主成分。不难想像这些主成分之间不仅不相关,而且它们的方差依次递减。因此在实际工作中,就挑选前几个最大主成分,虽然这样做会损失一部分信息,但是由于它使我们抓住了主要矛盾,并从原始数据中进一步提取了某些新的信息。因而在某些实际问题的研究中得益比损失大,这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。

§7.2 主成分分析的数学模型及几何解释

1 数学模型

设有n个样品,每个样品观测p项指标(变量);X1,X2,?,Xp,得到原始数据资料阵:

?x11?x21X??????xn1?x12x22?xn2?x1p??x2p???(X,X,?,X)

12p????xnp??其中

?X1i??X?Xi??2i? i?1,?,p

?????X?ni?用数据矩阵X的p个向量(即p个指标向量)X1,?,Xp作线性组合(即综合指标向量)为: ?F1?a11X1?a21X2???ap1Xp??F2?a12X1?a22X2???ap2Xp ?? ???F?aX?aX???aX1p12p2ppp?p简写成

Fi?a1iXi?a2iX2???apiXp i?1,?,p

(注意:Xi是n维向量,所以Fi也是n维向量。) 上述方程组要求:

22a12i?a2i???api?1i?1,?,p

且系数aij由下列原则决定:

(1)Fi与Fj(i?j,i,j?1,?,p)不相关;

(2)F1是X1,?,Xp的一切线性组合(系数满足上述方程组)中方差最大的,F2与F1不相关的

X1,?,Xp一切线性组合中方差最大的,?,Xp是与F1,F2,?,Fp?1都不相关的X1,?,Xp的一切线性

组合中方差最大的。

如何求满足上述要求的方程组的系数aij呢?下一节将会看到每个方程式中的系数向量

(a1i,a2i,?,api),i?1,?,p不是别的而恰好是X的协差阵?的特征值所对应的特征向量,也就是说,数

学上可以证明使Var(F1)达到最大,这个最大值是在?的第一个特征值所对应特征向量处达到。依此类推使Var(Fp)达到最大值是在?的第p个特征值所对应特征向量处达到。

2 主成分的几何意义

从代数学观点看主成分就是p个变量X1,?,Xp的一些特殊的线性组合,而在几何上这些线性组合正是把X1,?,Xp构成的坐标系旋转产生的新坐标系,新坐标轴使之通过样品变差最大的方向(或说具有最大的样品方差)。下面以最简单的二元正态变量来说明主成分的几何意义。

设有n个样品,每个样品有p个变量记为X1,?,Xp,它们的综合变量记为F1,F2,?,Fp。当p=2时,原变量是X1,X2,设X?(X1,X2)?~N2(?,?),它们有下图的相关关系:

对于二元正态分布变量,n个点的散分大致为一个椭园,若在椭园长轴方向取坐标轴F1,在短轴方向聚F2,这相当于在平面上作一个坐标变换,即按逆时针方向旋转?角度,根据旋转轴变换公式新老坐标之间有关系:

?F1?X1cos??X2sin? ?F??Xsin??Xcos?12?2我们看到F1, F2是原变量X1和X2的线性组合,用矩阵表示是

?F1??cos??F????sin??2??sin???X1??X??U?X cos????2?显然U??U?1且是正交矩阵,即U?U?I。

从上图还容易看出二维平面上的n个点的波动(可用方差表示)大部分可以归结为在F1轴上的波动,而在F2轴上的波动是较小的。如果上图的椭圆是相当扁平的,那么我们可以只考虑F1方向上的波动,忽略F2方向的波动。这样一来,二维可以降为一维了,只取第一个综合变量F1即可。而F1是椭圆的长轴。

一般情况,p个变量组成p维空间,n个样品就是p维空间的n个点,对p元正态分布变量来说,找主成分的问题就是找p维空间中椭球体的主轴问题。

§7.3 主成分的推导及性质

在下面推导过程中,要用到线性代数中的两个定理先作一下复习:

??10???定理一 若A是p?p阶实对称阵,则一定可以找到正交阵U使U?1AU????,其中

?0?p????1,?,?p是A的特征根。

定理二 若上述矩阵A的特征根所对应的单位特征向量为u1,?,up

?u11?u21令U?(u1,?,up)??????up1?u12u22?up2?u1p??u2p??

????upp??则实对称A属于不同特征根所对应的特征向量是正交的即ui?uj?0?UU??U?U?I。

1 主成分的推导

设F?a1X1?a2X2???apXp?a?X

其中a?(a1,a2,?,ap)?,X?(X1,X2,?,Xp)?,求主成分就是寻找X的线性函数a?X使相就的方差尽可能地大即使

Var(a?X)?E(a?X?E(a?X))(a?X?E(a?x))?

?a?E(X?EX)(X?EX)?a

?a??a

达到最大值,且a?a?1。

设协差阵?的特征根为?1??2????p?0,相应的单位特征向量为u1,u2,?,up。

?u11?u21令 U?(u1,?,up)????(p?p)???up1由前面线性代数定理可知:U?U?UU??I,且

u12u22?up2?u1p??u2p??

????upp??????1??U???0??因此

p???p??10U????iuiui? ?i?1????p?pp2a??a?所以

??a?uu?a???(a?u)(a?u)????(a?u)iiiiiiiii?1i?1i?1

a??a??1而且 当a?u1时有

?(a?u)ii?1p2??1(a?U)(a?U)???1a?UU?a??1a?a??1

p?p?''2??u1?u1?????u1?uuu??uuuu??(uu)??1 ??iii1i1ii1111??i?1?i?1?因此 a?u1使Var(a?X)?a??a达到最大值,且

?X)?u1??u1??1 Var(u1同理

Var(ui?X)??i

而且

p?p???uj???a(ui?ua)(ua?uj)?0,i?j Cov(ui?X,u?jX)?ui??uj?ui????auauaa?1?a?1?上述推导表明:X1,X2,?,Xp的主成分就是以?的特征向量为系数的线性组合,它们互不相关,其方差为?的特征根。

由于?的特征根?1??2????p?0,所以有:VarF1?VarF2???VarFp?0。了解这一点也就可以明白为什么主成分的名次是按特征根取值大小的顺序排列的。

在解决实际问题时,一般不是取p个主成分,而是根据累计贡献率的大小取前k个。

定义 称第一主成分的贡献率为?1??i,由于Var(F1)??1,所以?1i?1p??i?i?1pVar(Fi)?Var(F)ii?1p。因此

第一主成分的贡献率就是第一主成分的方差在全部方差综合X1,?,XP信息的力越强。

前两个主成分的累计贡献率定义为(?1??2)??i?1pi中的比值。这个值越大,表明第一主成分

??i?1pi,前k个主成分的累计贡献率定义为

????ii?1i?1kpi。如果前k个主成分的贡献率达到85%,表明取前k个主成分包含了全部测量指标所具有

的信息,这样既减少了变量的个数又便于对实际问题的分析和研究。

值得指出的是:当协差阵?未知时,可用其估计值S(样本协差阵)来代替。 设原始资料阵为:

?x11x12?x1p??x?x?x21222p? X?????????xx?x?n2np??n1?则

1nS?(sij) 其中sij??(xai?xi)(xaj?xj)

na?1而相关系数阵:

R?(?ij) 其中?ij?显然当原始变量X1,?,Xp,标准化后,则

sijsiisjj

1X?X n实际应用时,往往指标的量纲不同,所以在计算之前先消除量纲的影响,而将原始数据标准化,这

1样一来S和R相同。因此一般求R的特征根和特征向量,并且不妨取R?X?X。因为这时的R与X?Xn1只差一个系数,显然X? X与X?X的特征根相差n倍,但它们的特征向量不变,它并不影响求主成分。

n2 主成分的主要性质

性质1 F的协差阵为对角阵A。 证明:记??(?ij)p?p, UU??Ip

S?R?显然 Var(F)?性质2

? U?U????i?1pi?1pii???i?1pi

证明:

??ii?tr(?)?tr(?UU?)

?tr(U??U)?trA?性质3 ?(Ek,Xi)???I?1Pi

uki?k?ii证明:?Var(Fk)??k,Var(Xi)??ii

?X,ei?X) Cov(Fk,Ki)?Cov(uk?D(X)ei?ei??uk?ei?(?uk) ?uk?ei?(?kuk)??kuki

其中ei?(0,?,0,1,0,?,0)?为单位向量第i个分量为1,其余为0。

所以

, i,k?1,?,p

?(Fk,Xi)?Cov(Fk,Xi)VarFkVarXi?uki?k?ii

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库多元统计分析之主成分分析在线全文阅读。

多元统计分析之主成分分析.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.77cn.com.cn/wenku/zonghe/572991.html(转载请注明文章来源)
Copyright © 2008-2022 免费范文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ: 邮箱:tiandhx2@hotmail.com
苏ICP备16052595号-18
× 注册会员免费下载(下载后可以自由复制和排版)
注册会员下载
全站内容免费自由复制
注册会员下载
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: