正文 第7章回歸分析(2 / 3)

我們說員工A的“主管衝突”在一個5分量表中是3分其實沒有很大意義。3分是多少的“主管衝突”呢?3分是不高不低的“主管衝突”嗎?其實我們是不知道的。因此,一個更有意義的表述是相對於其他的員工,員工A的“主管衝突”是多少。從這個角度來看的話,(x2-x2)就很有意義了。它表示了相對於平均的員工衝突程度(x2)來說,員工A的員工衝突是多少。經過了中心化以後,b0,b1和b2的解分別為b1=x22x1y-x1x2x2yx21x22-x1x22

b2=x21x2y-x1x2x1yx21x22-x1x22

b0=y-(b1x1+b2x2)因此,做了中心化後,計算b0,b1,b2這些回歸係數就簡單多了。如果我們把所有數據標準化(standardize),那這些回歸係數就更好理解了。不過讀者可能會問,難道我們可以隨便把數據改變(中心化、標準化)嗎?這不會影響結果嗎?答案是中心化和標準化是會影響我們的結果估計的。同時,我們對改變後的回歸係數的理解也應該相應地改變。但是我們做管理的研究,感興趣的是x到底是否影響y?對於這個“回歸係數是否顯著”的問題,中心化和標準化都不會影響我們的結論。換句話說,一個不顯著的回歸係數,不會因為中心化或是標準化變成顯著的,反之亦然(詳細推導請看附錄2)。那中心化或是標準化到底如何影響我們對回歸係數的理解呢?現在來了解一下。b1與b2是什麼意思呢?對於下麵的回歸方程來說y^=b0+b1x1+b2x2b0是當x1與x2都是0時y^的值。在我們的例子裏,就是當沒有“工資差”與完全沒有“主管衝突”時,員工的離職傾向。b1是當“主管衝突”被控製住(也就是“保持不變”)的情形下,“工資差”對“員工離職傾向”的影響。b2是當“工資差”被控製住(也就是“保持不變”)的情形下,“主管衝突”對“員工離職傾向”的影響。在附錄2的推導中,我們知道b1與b2也可以寫成相關係數的關係b1=ry1-ry2r121-r212σyσx1;b2=ry2-ry1r121-r212σyσx2[注意:在附錄2的推導中,我們假設x1,x2和y都是標準化的。故上麵的公式要乘以σy和σx才可以用在原始數據(rawscore)上。這其實就好像在簡單回歸裏,斜率等於相關係數乘以σy和σx一樣(因為相關係數是一個已經標準化的係數)。]如果x1,x2和y都是標準化的,因為σy,σx1與σx2都是1,b1,b2與變數的相關係數有關係為b1=ry1-ry2r121-r212;b2=ry2-ry1r121-r212在多元回歸裏不可以簡單地講截距和斜率,因為有b1與b2兩個不同的“斜率”(分別是x1對y的影響和x2對y的影響)。為了避免混亂,我們一般都會將b1與b2稱為“回歸係數(regressioncoefficients)”。

b1是x1對y的回歸係數;b2是x2對y的回歸係數。自然,截距b0也是一個回歸係數。在多元回歸裏,我們還是有如下的關係(yi-y)2=(y^i-y)2+(yi-y^i)2SStot=SSreg+SSres“總平方和”=“回歸的平方和”+“殘差的平方和”在多元回歸裏SSreg=b1x1y+b2x2y我把這條公式的推導放到附錄3裏,有興趣的讀者可以去看看。與一元回歸一樣,SSreg/SStot也代表了“總平方和”(概念上,也好像是y的方差)裏有多少是可以被x1和x2兩個自變量解釋的。因為我們有兩個自變量,雖然SSreg/SStot概念上很像決定係數,但是現在不能稱為“相關係數的平方”了(因為多於一個x),我們一般把它稱為“多元的R平方”(MultipleR2),或者稱為“模型的R平方”(ModelR2),符號寫作(Ry.12)2或是簡單地稱為R2。多元的R平方=模型的R平方=R2y.12=ModelR2=SSregSStot統計學者告訴我們,在二元回歸中,“模型的R平方(ModelR2)”計算方程為(詳細的推導見附錄4)R2y.12=r2y1+r2y2-2ry1ry2r121-r212我們在前麵說過,當x1和x2不是標準化時b1=ry1-ry2r121-r212σyσx1;b2=ry2-ry1r121-r212σyσx2故R2y.12=b1σx1σyry1+b2σx2σyry2當x1和x2是標準化時b1=ry1-ry2r121-r212;b2=ry2-ry1r121-r212故R2y.12=b1ry1+b2ry2R2=SSreg/SStot,這個R平方代表了“x1和x2兩個自變量加起來,可以解釋因變量y的方差的多少”。

如果Ry.12=0.50,x1和x2兩個自變量加起來,就可以解釋y的方差的25%了。讀者需要注意,x1解釋因變量y的方差,加上x2解釋因變量y的方差,不會等於R平方,而是會大於R平方。因為x1與x2是相關的。它們共同的方差是不可以用來解釋y的方差兩次的。因此,概念上來說(自然數學上不完全是這樣,真實的數學關係在上式已經表達出來了),R平方,或是x1和x2加起來可以解釋的y的方差,等於x1解釋因變量y的方差,加上x2解釋因變量y的方差,減去x1與x2共同的部分。從上麵的方程式,我們可以知道在正常的情形下,R2y.12會在r12=0時最大。根據前麵R2y.12的公式,當x1和x2兩個因變量完全不相關,也就是r12=0時R2y.12=r2y1+r2y2也就是說,多元回歸的“模型的R平方”就等於個別的自變量與y的相關係數的平方和。如果用文氏圖的方法表現這個多元回歸的關係,跟以前一樣,一個橢圓形代表一個變量。橢圓形越大,變量的方差就越大。兩個橢圓形重疊的地方(概念上,而不是精確的數學上)代表它們的相關,重疊的地方越多,兩者的相關就越大。

原來y的方差是(a+b+c+d),x1可以解釋的方差是(c+d)。因此,r2y1就是(c+d)/(a+b+c+d)。現在增加了x2,x1與x2合起來可以解釋y的方差是(b+c+d),因此,多元的R平方(Ry.12)2就是(b+c+d)/(a+b+c+d)。明顯的,d部分是x1可以解釋y的部分。但是這一部分y的方差也同時由x2予以解釋了。對於解釋y的方差來說,d部分重複了,也可以說是浪費了。但是,如果我們可以把x1與x2拉開來,同時保持x1和x2,各自與y的重疊麵積保持不變的話,那就可以實現r12=0,而R2y.12=r2y1+r2y2了。抑製變量(SuppressorVariable)讀者還記得“模型的R平方(ModelR2)”計算方程為R2y.12=r2y1+r2y2-2ry1ry2r121-r212當ry2=0時,公式會簡化變為R2y.12=r1y11-r212請注意,當ry2=0時,x1和x2同時估計y的模型R平方,竟然不是r2y1,而是r2y1除以(1-r212)。因為r12是一個相關係數,它一定小於1,故(1-r212)

0),這個與y沒有關係的變量,也可以增加整個模型的R平方。產生這樣吊詭結果的變量,就稱為“抑製變量”或是“壓抑變量(suppressorvariable)”。

一般來說,凡是一個變量與因變量沒有相關,加進回歸模型時能增加總體模型的R平方時,這個變量就稱為“抑製變量”。

我們用文氏圖來表示。

我們知道相關係數的定義是“兩個變量的協方差除以兩個變量的標準差”。

一個變量(x1)的方差(標準差)越大,其他因素不變的情形下,它解釋另外一個變量(y)的可能性就越高。如果兩個變量A與B和y的協方差都一樣,但是A變量的方差比B變量的方差少,那麼,ryA一定大於ryB。讀者應記得多元回歸的邏輯是:自變量相互被控製住時,各自解釋因變量的能力,現在x1的方差有一部分給x2控製住了,而被控製住的是估計的誤差方差。因為x1的方差相對於以前變小了,因此x1解釋y的能力就相對比以前大了。也因為如此,當x2加入模型後,原來x1解釋y的能力是R2yx1,現在雖然同樣隻有x1解釋y(因為x2沒有解釋y的能力,R2yx2=0),但是卻大於R2yx1了。原因就是這個壓抑變量x2減少了x1解釋y時的誤差方差。明白了這個道理後,我們就會知道如果要盡量解釋因變量的方差(回歸變量的主要目的),我們不一定要每一個變量都與因變量有很大的相關。有時,與因變量沒有相關的自變量,也可以幫助預測因變量的改變。

7.2.3偏相關與半偏相關係數

在第4章裏已經講過偏相關與半偏相關係數了。這裏我們從回歸的角度再講一遍,以增加讀者的認識。我們在上麵說,如果x1和x2相關,則b1=ry1-ry2r121-r212;b2=ry2-ry1r121-r212上麵的公式,與統計上講的“半偏相關係數(semipartialcorrelation)”非常相似。“半偏相關係數(semipartialcorrelation)”的定義為ry(1.2)=ry1-ry2r121-r212“半偏相關係數”的數學符號是ry(1.2)。其實從符號上已經表明了ry(1.2)是y與x1的相關。但是這個x1有一點特別。“(1.2)”這個下標的意思是“x1.x2”。

“在控製了後者的影響以後,前者跟其他變量的關係”的意思。因此,ry(1.2)的意思是“當控製了x2的影響以後,x1與y的相關”。

不過讀者要注意這個括號的意思。它明顯地表示隻有x2對x1的影響被控製住了,x2對y的影響卻沒有被控製。原來x1與y的相關應該是“(c+d)/(a+b+c+d)”的。但是當x2對x1的影響被控製以後,ry(1.2)就隻剩下“d/(a+b+d)”了。在多元回歸裏,我們希望找的是R2y.x1x2,也就是b+c+d的麵積。我們可以先計算r2yx2=c+b,再找r2y(x1.x2)=d,故R2y.x1x2=r2yx2+r2y(x1.x2)。我們也可以反過來做,先求r2yx1=c+d,再找r2y(x2.x1)=b,故R2y.x1x2=r2yx2+r2y(x1.x2)R2y.x1x2=r2yx1+r2y(x2.x1)讀者不要把“半偏相關係數(semipartialcorrelation)”與“偏相關係數(partialcorrelation)”混淆了。“偏相關係數(partialcorrelation)”的定義為ry1.2=ry1-ry2r121-r2y21-r212=R2y.12-R2y.21-R2y.2“偏相關係數”的數學符號是ry1.2。“y1.2”這個下標的意思是控製住x2的影響後,y與x1的相關。因此,在“偏相關係數”中,x2對x1的影響被控製住了,x2對y的影響也都被控製了。

7.2.4回歸分析的假設

用“最小平方法”估計回歸係數的時候,其實回歸分析這個模型是有一定的假設的。①x(自變量)在測量時是沒有誤差的。我們知道測量誤差會影響觀察的相關係數。同樣,測量誤差也會影響觀察的回歸係數。但是,一般的回歸分析都假設測量時沒有誤差。②嚴格來說,x(自變量)在回歸裏麵是假設為不變的數值的。這個假設的意思是如果做回歸分析時數據中隻有x=2,4,5這3個數值,理論上當x=3時估計出來的y^沒有意義。換句話說,隻有在我們有觀察數據的x值時,回歸分析才有意義。但是我們一般在做回歸分析時,都“寬鬆地”假設回歸係數對所有x的可能數值都有效。③回歸分析對估計的誤差有很強的假設。其中包括:

a.我們假設估計的誤差(殘差)的平均值是0。有人會說我們假設殘差的誤差是正態分布。其實回歸分析不需要這個假設(其實x1,x2和y都沒有正態分布的假設)。數學上,我們把這個假設寫成E(ε)=0。

b.我們也假設估計的誤差對不同的觀察點來講是沒有關係的。意思是一個觀察點的估計誤差與另外一個觀察點的殘差是沒有關係的。這個假設在統計上稱為沒有“自相關(autocorrelation)”。

“自相關”的假設看起來好像很荒謬,但是在管理學的研究中是常有的。例如,你的研究因變量是工作表現,你可能找一個主管同時評價3個員工的工作表現。另外一個主管也同時評價他手下的另外3個員工的表現。但是我們知道,人是有偏見的。例如,第一個主管可能很嚴謹,所有的下屬的評分都很低。另外一個主管可能很寬鬆,所有的下屬的評分都偏高。在這樣的情形下,每3個數據點就很可能有“自相關”的問題出現了。

c.回歸分析假設了對於任何一個自變量x的數值而言,對應的不同y值的方差是一樣的。這個假設在統計上稱為“同方差性(homoscedasticity,方差齊性)”。

回歸分析是假設了這些不同的y分布的方差是一樣的(也就是σε是一個常數)。如果方差是不一樣的,我們就可能要用其他的估計方法(如權殘餘量最小方差法,weightedleastsquares)了。聰明的讀者也許已經觀察到,這個“同方差性”所要求的“對於所有x的相同的y誤差方差(σ2ε)”,其實就代表整個回歸分析的估計能力,誤差方差越少,不同的x值所對應的y值就更向估計的y值(y^)靠攏。因此,其實σ2ε是模型的R平方的另外一個表達方式。σ2ε越小,模型的R平方就越大。④最後一個回歸分析的假設是“模型設定誤差(specificationerror)”。

回歸係數的準確性與我們有沒有把正確的自變量放進模型裏有很大的關係。因此理論上,回歸分析是不允許有“模型設定誤差”的。當你發現x1是預測y的一個很好的變量時,如果我們又加進了另外一個自變量x2,x1的預測能力(回歸係數)可能受到很大的影響。x1可能從非常顯著變成完全不顯著。因此,做回歸分析時,我們的模型一定要包含影響y的所有主要因素x。一般來講,我們知道回歸分析是一個“穩健性(robustness)”很高的估計方法。“穩健性”的意思是當它的假設不能成立時,在一般的情形下,隻要樣本數夠大,回歸分析的誤差是不會很大的。現在我們知道最影響回歸分析估計的是“測量誤差”和“模型設定誤差”。

若研究者發覺有可能違背了這兩個假設的話,就要當心了。7.2.5回歸分析的統計驗證以上的所有討論都假設了我們沒有“抽樣的誤差”。

但是在實際的研究中,我們不可能在總體裏做回歸分析。我們永遠都是在樣本中計算各個回歸的統計量。現在,讓我們回到原來的問題去。我們原來的問題是“工資差”與“主管衝突”到底是否“離職傾向”的影響因素?我們到一個2000人的企業裏,抽了一個153人的樣本,用問卷訪問了他們的“工資差”(x1)、“主管衝突”(x2)與“離職傾向”(y)。做了一個多元回歸分析,得到了下麵的回歸直線y^=0.35+0.13x1+0.24x2知道了“模型的R”也就是Ry.12=0.324。就是“工資差”和“主管衝突”加起來大概可以解釋“離職傾向”的方差的10.5%。第一個問題,自然就是抽樣誤差的問題。當樣本的“模型的R”是0.324,總體的“模型的R”還是有可能是0啊!我們可不可以做統計的驗證去測驗一下當樣本的“模型的R”是0.324時,總體的“模型的R=0”的機會(Ⅰ型誤差,或是α誤差)是不是小於5%呢?你大概又會問,為什麼虛擬假設要是“H0:總體中的Ry.12=0”呢?為什麼不是“H0:b1=b2=0”呢?如前所說,我們研究的第一個問題是“工資差”和“主管衝突”這兩個自變量到底是不是有用的?如果總體的“模型的R”是0,就代表我們整個離職模型理論崩潰了。若Ry.12=0,則所有的x都對估計y沒有幫助。因此,以下兩個假設其實是一樣的H0:總體中的Ry.12=0H0:總體中的b0=b1=b2=0我們說Ry.12=0,其實就是說所有的回歸係數都同時是0。現在,第一個虛擬假設是H0:Ry.12=0。那怎麼驗證呢?我們在假設驗證的一章裏已經講過,要做假設驗證統計的假設驗證,第一件事就是要知道這個統計量的“抽樣分布”。

現在我們的統計量是“模型的R”。

那“模型的R”的“抽樣分布”是怎樣的呢?要多謝統計學家,他們已經幫助我們解決了這個問題。現在我們已經知道“模型的R”的“抽樣分布”是一個F分布。F分布是由兩個卡方分布相除的商組成的,而每一個卡方分布都有一個隨之而來的自由度。因此F分布有兩個自由度(ν1和ν2),不同自由度的F分布不完全相同。“模型的R”這個F分布的“樣本分布”是由R2和(1-R2)兩個卡方分布組成的,它們的自由度分別是k與(N-k-1),k是自變量的數目。這個例子隻有兩個自變量,x1與x2,k=2。而樣本數是153,故F分布的兩個自由度就是2與150了。知道了“樣本分布”和自由度,定下了Ⅰ型錯誤水平(一般是5%),就可以查表找出在F分布中ν1和ν2是2和150時,p=0.05的臨界值。R2k1-R2N-k-1~F(k,N-k-1)為什麼上麵分子的自由度是k;而分母的自由度是N-k-1呢?這要回到我們原來的“平方和分配(partitioningofsumofsquares)”公式。上麵除數的商其實是“回歸的平方和”除以“殘差的平方和”的商。“平方和分配”的公式為(yi-y)2=(y^i-y)2+(yi-y^i)2總平方和=回歸的平方和+殘差的平方和一般來說,如果我給你n個數據,要叫你估計k個參數,自由度就是(n-k)。在回歸分析裏,我們的“總平方和”SStot是可以拆成兩部分的,就是“回歸的平方和”SSreg和“殘差的平方和”SSres。同樣的,自由度在回歸分析裏也可以拆成不同的部分。先假設你的多元回歸有k個自變量x(二元回歸的k值是2)。①首先,等式左邊的“總平方和”中,我們有N個數據(也就是N個y的觀察值)。在求“總平方和”的過程中,我們需要一個自由度來估計“平均的y”(y),故“總自由度”是(N-1)。②等式的右邊第一項,在求(y^i-y)2的過程中,因為SSreg=(y^-y)2=kj=1(bjxjy)=b1x1y+b2x2y我們唯一要猜的是k個b的數值(在二元回歸中是b1和b2)。故要估計“回歸的平方和”,我們隻需要知道b1,b2,…,bk就可以了。因此,我們就要k個自由度。③等式的右邊第二項是“殘差的平方和”。