PLS算法
偏最小二乘回归是一种新型的多元统计数据分析方法,它与1983年由伍德和阿
巴诺等人首次提出。近十年来,它在理论、方法和应用方面都得到了迅速的发展。密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法。 偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面:
(1)偏最小二乘回归是一种多因变量对多自变量的回归建模方法。 (2)偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的问题。在普通多元线形回归的应用中,我们常受到许多限制。最典型的问题就是自变量之间的多重相关性。如果采用普通的最小二乘方法,这种变量多重相关性就会严重危害参数估计,扩大模型误差,并破坏模型的稳定性。变量多重相关问题十分复杂,长期以来在理论和方法上都未给出满意的答案,这一直困扰着从事实际系统分析的工作人员。在偏最小二乘回归中开辟了一种有效的技术途径,它利用对系统中的数据信息进行分解和筛选的方式,提取对因变量的解释性最强的综合变量,辨识系统中的信息与噪声,从而更好地克服变量多重相关性在系统建模中的不良作用。
(3)偏最小二乘回归之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。
偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析 由于偏最小二乘回归在建模的同时实现了数据结构的简化,因此,可以在二维平面图上对多维数据的特性进行观察,这使得偏最小二乘回归分析的图形功能十分强大。在一次偏最小二乘回归分析计算后,不但可以得到多因变量对多自变量的回归模型,而且可以在平面图上直接观察两组变量之间的相关关系,以及观察样本点间的相似性结构。这种高维数据多个层面的可视见性,可以使数据系统的分析内容更加丰富,同时又可以对所建立的回归模型给予许多更详细深入的实际解释。
一、 偏最小二乘回归的建模策略\\原理\\方法
1.1建模原理
1
PLS算法
设有 q个因变量{y1,...,yq}和p自变量{x1,...,xp}。为了研究因变量和自变量的统计关系,我们观测了n个样本点,由此构成了自变量与因变量的数据表X={x1,...,xp}和.Y={y1,...,yq}。偏最小二乘回归分别在X与Y中提取出成分t1 和
u1 (也就是说, t1是x1,...,xp 的线形组合, u1是y1,...,yq 的线形组合).在提取这
两个成分时,为了回归分析的需要,有下列两个要求:
(1) t1和u1应尽可能大地携带他们各自数据表中的变异信息; (2) t1与u1 的相关程度能够达到最大。
这两个要求表明,t1和u1 应尽可能好的代表数据表X和Y,同时自变量的成分
t1对因变量的成分u1 又有最强的解释能力。
在第一个成分t1和 u1被提取后,偏最小二乘回归分别实施X 对 t1的回归以及 Y对u1 的回归。如果回归方程已经达到满意的精度,则算法终止;否则,将利用 X被t1解释后的残余信息以及Y 被t1 解释后的残余信息进行第二轮的成分提取。如此往复,直到能达到一个较满意的精度为止。若最终对 X共提取了 m个成分t1,…,tm,
偏最小二乘回归将通过实施 yk对t1 的
,…,tm,
回归,然后再表达成yk关于原变量
1.2计算方法推导
x,…,x, 的回归方程,k=1,2,…,q 。
1m为了数学推导方便起见,首先将数据做标准化处理。X 经标准化处理后的数据矩阵记为E0=(E01,…,E0p)n?p,Yj经标准化处理后的数据矩阵记为
F0=(F01,…,F0q)n?p。
w1是E0的第一个轴,第一步 记t1是E0的第一个成分,它是一个单位向量,
既||w1||=1。
记u1是F0的第一个成分,u1=F0如果要t1
c。c 是F110的第一个轴,并且||c1||=1。
,
u1能分别很好的代表X与Y中的数据变异信息,根据主成分分
2
PLS算法
析原理,应该有
Var(u1)?max Var(t1)?max
另一方面,由于回归建模的需要,又要求t1对u1有很大的解释能力,有典型相关分析的思路,t1与u1的相关度应达到最大值,既
r(t1,u1)?max
因此,综合起来,在偏最小二乘回归中,我们要求t1与u1的协方差达到最大,既
Cov(t1,
u1)=Var(t1)Var(u1)r(t1u1) ?max
,
正规的数学表述应该是求解下列优化问题,既
maxE0w1,F0c1 w1,c1'?w1w1?1 s.t ????cc1'1?1因此,将在||w1||2=1和||c1||2=1的约束条件下,去求(w1值。
如果采用拉格朗日算法,记
s=w1对s分别求关于w1''EF0'0c)的最大
1E'0F0c-?11 (w1'w1-1)-?2 (c1c1-1)
',c1,?1和?2的偏导并令之为零,有
?s=E'0F0 ?w1c -2?11w1=0 (1 -2)
?s=F'0E0w12 -?2?c1c=0 (1-3)
1
?s'=-(w1w1-1)=0 (1-4) ??1?s'=-(c1c1-1)=0 (1-5) ??2
3
PLS算法
由式(1-2)~(1-5),可以推出
2?1?2?2?w'1E'0F0c1??E0w1,F0c1?
记?1?2?1?2?2?w'1E'0F0c1,所以,?1正是优化问题的目标函数值. 把式(1-2)和式(1-3)写成
E'0F0c1??1w1 (1-6) F'0E0w1??1c1 (1-7)
将式(1-7)代入式(1-6),有
2E'0F0F'0E0w1??1w1 (1-8)
同理,可得
F'0E0E'0F0c1??1c1 (1-9)
2
可见,w1是矩阵E'0F0F'0E0的特征向量,对应的特征值为?1.?1是目标函数值,它要求取最大值,所以, w1是对应于E'0F0F'0E0矩阵最大特征值的单位特征向量.而另一方面, c1是对应于矩阵F'0E0E'0F0最大特征值?1的单位特征向量. 求得轴w1和c1后,即可得到成分
t1?E0w1
u1?F0c1
22然后,分别求E0和F0对t1,u1的三个回归方程
式中,回归系数向量是
E'0t1p1? (1-13) 2||t1||4
E0?t1p'1?E1 (1-10) F0?u1q'1?F?1 (1-11) F0?t1r'1?F1 (1-12)
PLS算法
F'0u1q1? (1-14) 2||u1||F'0t1r1? (1-15) 2||t1||而E1,F?1,F1分别是三个回归方程的残差矩阵. 第
用残差矩阵E1和F1取代E0和F0,然后,求第二个轴w2和c2以及第
二个成分t2,u2,有
t2=E1w2 u2=F1c2
?2??t2,u2??w'2E'1F1c2
2w是对应于矩阵E'1F1F'1E1最大特征值?2的特征值, c2是对应于矩阵F'1E1E'1F1最大特征值的特征向量.计算回归系数
E'1t2p2? 2||t2||F'1t2r2?
||t2||2
因此,有回归方程
E1?t2p'2?E2 F1?t2r'2?F2
如此计算下去,如果X的秩是A,则会有
E0?t1p'1???tAp'A (1-16) F0?t1r'1???tAr'A?FA (1-17)
由于,t1,?,tA均可以表示成E01,?,E0p的线性组合,因此,式(1-17)还可以还原成yk?F0k关于xj*?E0k的回归方程形式,即
* 5
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说教育文库pls代码偏最小二乘在线全文阅读。
相关推荐: