一、問題的提出
在科學研究或日常生活中,常常需要判斷某一事物在同類事物中的好壞、優(yōu)劣程度及其發(fā)展規(guī)律等問題。而影響事物的特征及其發(fā)展規(guī)律的因素(指標)是多方面的,因此,在對該事物進行研究時,為了能更全面、準確地反映出它的特征及其發(fā)展規(guī)律,就不應僅從單個指標或單方面去評價它,而應考慮到與其有關的多方面的因素,即研究中需要引入更多的與該事物有關系的變量,來對其進行綜合分析和評價。多變量大樣本資料無疑能給研究人員或決策者提供很多有價值的信息,但在分析處理多變量問題,由于眾變量之間往往存在一定的相關性,使得觀測數(shù)據(jù)所反映的信息存在重疊現(xiàn)象。因此為了盡量避免信息重疊和減輕工作量,人們就往往希望能找出少數(shù)幾個互不相關的綜合變量來盡可能地反映原來數(shù)據(jù)所含有的絕大部分信息。而主成分分析和因子分析正是為解決此類問題而產(chǎn)生的多元統(tǒng)計分析方法。
近年來,這兩種方法在社會經(jīng)濟問題研究中的應用越來越多,其應用范圍也愈加廣泛。因子分析是主成分分析的推廣和發(fā)展,二者之間就勢必有著許多共同之處,而 SPSS軟件不能直接進行主成分分析,致使一些應用者在使用SPSS進行這兩種方法的分析時,常常會出現(xiàn)一些混淆性的錯誤,這難免會使人們對分析結果產(chǎn)生質疑。因此,有必要在運用SPSS分析時,將這兩種方法加以嚴格區(qū)分,并針對實際問題選擇正確的方法。
二、主成分分析與因子分析的聯(lián)系與區(qū)別
兩種方法的出發(fā)點都是變量的相關系數(shù)矩陣,在損失較少信息的前提下,把多個變量(這些變量之間要求存在較強的相關性,以保證能從原始變量中提取主成分)綜合成少數(shù)幾個綜合變量來研究總體各方面信息的多元統(tǒng)計方法,且這少數(shù)幾個綜合變量所代表的信息不能重疊,即變量間不相關。
主要區(qū)別:
1. 主成分分析是通過變量變換把注意力集中在具有較大變差的那些主成分上,而舍棄那些變差小的主成分;因子分析是因子模型把注意力集中在少數(shù)不可觀測的潛在變量(即公共因子)上,而舍棄特殊因子。
2. 主成分分析是將主成分表示為原觀測變量的線性組合,
(1)
主成分的個數(shù)i=原變量的個數(shù)p,其中j=1,2,…,p,
是相關矩陣的特征值所對應的特征向量矩陣中的元素, 是原始變量的標準化數(shù)據(jù),均值為0,方差為1。其實質是p維空間的坐標變換,不改變原始數(shù)據(jù)的結構。
而因子分析則是對原觀測變量分解成公共因子和特殊因子兩部分。因子模型如式(2),
(2)
其中i=1,2,…,p, m<p ,m是公共因子個數(shù),p是原始變量個數(shù),
是因子分析過程中的初始因子載荷矩陣中的元素,
是第j個公共因子,
是第i個原觀測變量的特殊因子。且此處的
與
的均值都為0,方差都為1。
3. 主成分的各系數(shù)
,是唯一確定的、正交的。不可以對系數(shù)矩陣進行任何的旋轉,且系數(shù)大小并不代表原變量與主成分的相關程度;而因子模型的系數(shù)矩陣是不唯一的、可以進行旋轉的,且該矩陣表明了原變量和公共因子的相關程度。
4. 主成分分析,可以通過可觀測的原變量X直接求得主成分Y,并具有可逆性;因子分析中的載荷矩陣是不可逆的,只能通過可觀測的原變量去估計不可觀測的公共因子,即公共因子得分的估計值等于因子得分系數(shù)矩陣與原觀測變量標準化后的矩陣相乘的結果。還有,主成分分析不可以像因子分析那樣進行因子旋轉處理。
5.綜合排名。主成分分析一般依據(jù)第一主成分的得分排名,若第一主成分不能完全代替原始變量,則需要繼續(xù)選擇第二個主成分、第三個等等,此時綜合得分=∑(各主成分得分×各主成分所對應的方差貢獻率),主成分得分是將原始變量的標準化值,代入主成分表達式中計算得到;而因子分析的綜合得分=∑(各因子得分×各因子所對應的方差貢獻率)÷∑各因子的方差貢獻率,因子得分是將原始變量的標準化值,代入因子得分函數(shù)中計算得到。
區(qū)別中存聯(lián)系,聯(lián)系中顯區(qū)別
由于上文提到主成分可表示為原觀測變量的線性組合,其系數(shù)為原始變量相關矩陣的特征值所對應的特征向量,且這些特征向量正交,因此,從X到Y的轉換關系是可逆的,便得到如下的關系:
(3)
下面對其只保留前m個主成分(貢獻大),舍棄剩下貢獻很小的主成分,得:
i=1,2,...p (4)
由此可見,式(4)在形式上已經(jīng)與因子模型(2)忽略特殊因子后的模型即:
(2)*
相一致,且
(j=1,2,…,m)之間相互獨立。由于模型(2)*是因子分析中未進行因子載荷旋轉時建立的模型,故如果不進行因子載荷旋轉,許多應用者將容易把此時的因子分析理解成主成分分析,這顯然是不正確的。
然而此時的主成分的系數(shù)陣即特征向量與因子載荷矩陣確實存在如下關系:
主成分分析中,主成分的方差等于原始數(shù)據(jù)相關矩陣的特征根,其標準差也即特征根的平方根
,于是可以將除以其標準差(單位化)后轉化成合適的公因子,即令
,
,則式(4)變?yōu)椋?br style="FONT-SIZE: 14px; FONT-FAMILY: 微軟雅黑; WHITE-SPACE: normal; WORD-SPACING: 0px; TEXT-TRANSFORM: none; FONT-WEIGHT: normal; COLOR: rgb(85,85,85); PADDING-BOTTOM: 0px; FONT-STYLE: normal; TEXT-ALIGN: left; PADDING-TOP: 0px; PADDING-LEFT: 0px; ORPHANS: 2; WIDOWS: 2; MARGIN: 0px; LETTER-SPACING: normal; PADDING-RIGHT: 0px; BACKGROUND-COLOR: rgb(255,255,255); TEXT-INDENT: 0px; font-variant-ligatures: normal; font-variant-caps: normal; -webkit-text-stroke-width: 0px"/>
(4)*
可得,
(5)
式(5)便是主成分系數(shù)矩陣與初始因子載荷陣之間的聯(lián)系。不能簡單地將初始因子載荷矩陣認為是主成分系數(shù)矩陣(特征向量矩陣),否則會造成偏差。
三、實證分析
通過實例來研究SPSS軟件中的因子分析和主成分分析及二者分析結果的比較。運用兩種分析方法對2005年江蘇省13個主要城市的經(jīng)濟發(fā)展綜合水平進行分析。
本文在選取指標時遵循了指標選取的基本原則,即針對性、可操作性、層次性、全面性等原則,選取了以下反映城市經(jīng)濟發(fā)展綜合水平的9項指標: GDP(X1)億元 、人均GDP (X2) 元 、城鎮(zhèn)居民人均可支配收入(X3)元、農(nóng)村居民純收入(X4) 元、第三產(chǎn)業(yè)占GDP比重(X5)%、金融機構存款余額(X6)億元、萬人中各專業(yè)技術人員數(shù)(X7)人、科技三項和文教科衛(wèi)支出(X8)億元、實際利用外資(X9) 億美元。