學過了基本的統計項和統計的假設驗證後,丟丟想要開始做一項研究。但是,他發現學術期刊裏的文章,沒有驗證相關分析這麼簡單的。於是丟丟又跑去請教李教授,了解一下自己是不是還有一些關於研究的很重要的知識還沒有學到。他是一個用功上進的學生,總希望自己在研究上對學術界有點貢獻。丟丟:“李老師,我已經學會統計分析和假設檢驗了。為什麼我還是看不明白很多研究的論文呢?”李教授:“丟丟,管理科學是一門很複雜的學問。你學到的隻是起步的知識。還不足以做嚴謹的科學管理研究。”
丟丟:“那我缺了什麼呢?還要學什麼呢?”李教授:“就以你上次做的‘國民生產值’與‘居民幸福感’的關係的研究為例,單單計算生產值與幸福感的相關,就算是排除了抽樣誤差的問題,還是有很多因素沒有考慮的。因為影響‘居民幸福感’的因素會有很多,如果我們不把這些因素控製住,簡單的rxy很有可能是誤導的。”
丟丟:“老師,例如有什麼因素?”李教授:“應該控製什麼因素是一個理論的問題,也與現存文獻已有的發現很有關係。例如你假設生產值與幸福感有相關,是基於需要理論(NeedTheory)。那除了經濟上的物質需要,人類是否還有其他重要的需要呢?又如在文獻中,已經有人發現了‘城市工業化’的程度對‘居民幸福感’呈負相關的關係。那我們是否要把這個已經知道的重要變量的影響控製住呢?”丟丟:“啊!我已經學過了偏相關和半偏相關。要控製這些因素,用這兩種相關分析就可以了。”
李教授:“是啊。可是,如果你有一大堆的變量要控製,那如何應用偏相關呢?還有啊,我們做研究時,常常要比較兩個不同的變量對另外一個變量的影響。就以上麵的例子來說,如何才可以知道‘城市工業化’與‘國民生產值’哪一個更能影響‘居民幸福感’,它們各自的影響力又有多大呢?”丟丟:“那倒簡單,我計算‘城市工業化’與‘居民幸福感’的相關;再計算‘國民生產值’與‘居民幸福感’的相關。然後比較兩個相關不就可以了嗎?”李教授:“那是可以的,可是如何在計算‘國民生產值’與‘居民幸福感’的相關時,控製住‘城市工業化’的影響,甚至控製住其他的變量,如平均年齡、性別、教育水平、天氣等因素的影響呢?”丟丟:“噢,我好像沒有學過這麼複雜的分析工具啊!”李教授:“丟丟,慢慢來吧。今天我就給你介紹一個研究不同的因素如何同時影響一個變量的統計方法,也是管理科學裏用得最多的分析方法,回歸分析。”
7.1簡單回歸分析
7.1.1一個例子
管理學的研究常常是尋找一個變量與另外一個變量之間的關係。例如,我們會問一家企業,首先進入一個新興國家做生意會有“開發者”的好處嗎(開發者就是第一個進入該市場的企業)?到底新市場中的“開發者”比“跟隨者”在利潤上有多少優勢呢?或者我們會問,一位員工的工資跟市場上同行業平均工資的差距是否會影響他的離職傾向?如果會的話,影響有多大呢?主管與這位員工的衝突會影響這位員工的離職傾向嗎?到底是“工資差”的影響大,還是“主管衝突”對員工的離職傾向影響大?我們學過的相關分析是沒有因果性的。如果x與y相關,可能是x影響y,也可能是y影響x。也有可能是x不影響y,y也不影響x,隻是有另外一個變量(z)在同時影響x與y罷了。但我們要研究一個變量如何影響另外一個變量時,一般用的研究方法都是“回歸分析(regressionanalysis)”。
簡單回歸(SimpleRegression)分析與相關分析非常相似,我們甚至可以將相關分析看成是最簡單的一種回歸分析。為了簡化我們的討論,我們就用“離職傾向”(y)是否與“主管衝突”(x)有關的問題做例子。假設我們的樣本隻有4位員工。
在社會科學的研究中,大部分變量之間的關係都是直線的,而曲線的或是其他函數表示的變量關係則相對比較少。因此,除非有特別的理論根據,一般情況我們都會假設關係是直線的。直線的關係也稱為“線性關係”。
因此,我們的問題就變成“如何找一條直線來代表這兩個變量的關係”了。理論上,最理想的情況是,我們所有的數據點(每個數據點代表一位員工,由兩個變量值決定其位置)剛好都在一條直線上,因為這條直線正是我們想要找的直線。但是實際研究中,這幾乎是不可能的。我們收回來的數據有模型誤差、抽樣誤差、測量誤差、個人的誤差等,以致一定不可能畫一條直線通過所有的點。現在我們的問題就是怎樣找出一條直線,最能夠代表這4個點(4位員工)。
如果兩個變量的關係是直線,在線性代數上可以用二元一次方程表示(“二元”就是有兩個變量,就是x與y的意思。“一次”是x與y的關係沒有高階項如x2,x3等)。因此,如果“離職傾向”(y)跟“主管衝突”(x)是線性關係,y=a+bx就可以表示這兩個變量的關係了。a是這一條直線的截距(也就是直線與y軸相交的地方);b是這一條直線的斜率(也就是當x轉變時,y隨著改變的程度。
7.1.2最小平方法
幸好我們不用煩惱,統計學家已經幫我們解決了這個問題。一個最被廣泛接受而且好處很多的估計(也就是對a與b的估計)方法,稱為“最小平方法(ordinaryleastsquare,OLS或稱最小二乘法)”。
“最小平方法”是什麼呢?其實很簡單,我們就用第四個員工的主管衝突(x4)和離職傾向(y4)來解釋。原來這個員工在一個7點的李克特量表(LikertScale;1分代表“主管衝突”小,7分代表“主管衝突”大;1分代表“離職傾向”低,7分帶表“離職傾向”高)表示的主管衝突和離職傾向分別是x=6和y=2。員工主管衝突(x)離職傾向(y)估計離職傾向
(y^=a+bx)誤差平方(y-y^)2114a+b(4-a-b)2232a+3b(2-a-3b)2355a+5b(5-a-5b)2續表員工主管衝突(x)離職傾向(y)估計離職傾向(y^=a+bx)誤差平方(y-y^)2462a+6b(2-a-6b)2=總誤差平方在上表中,如果我們找到a和b,當員工主管衝突是6時(第四位員工),他的離職傾向(y)應該是a+6b(這就是我們的直線估計出來的y值)。但是該員工真實的離職傾向是2。(2-a-6b)2是我們對第四位員工的離職傾向的估計誤差。為什麼要平方呢?因為誤差可能是正的(點在線上麵),也可能是負的(點在線下麵)。為了避免不同員工的正誤差與負誤差相抵消,以致隱藏了真實的誤差,我們就取了誤差的平方。“總誤差平方”就是把所有員工的“誤差的平方”加起來。“最小平方法”的目的就是把這個“總誤差平方”降到最低。這就是為什麼它叫“最小”的“平方”法。因為估計a和b的條件是,估計的直線與各點的誤差是最小的,故中文稱為“回歸分析”。
因為所有離開直線的點都是由於誤差,“回歸”就是把所有帶有估計誤差的點,“回歸”到它們原有的直線關係上的意思(x^1,y^1)與(x^4,y^4)是估計,(x1,y1)與(x4,y4)是真正的觀察值)。不過,讀者要留意一點,我在上麵不停地用“誤差(error)”這個詞,意思是用一條直線來代表所有的點時,直線不能完全代表這些點的“差數或差額”,它沒有“錯誤”的意思。因此,在回歸分析中,“估計誤差(predictionerror)”是回歸直線不能完全代表所有的數據點的“不完全代表性”而已。所以有些統計學者喜歡把這個差額稱為“殘差(residual)”,就是殘餘下來不能被估計的差額,這樣就沒有“錯誤”的意思了。
用數學的符號來寫,“最小平方法”的公式為miniyi-y^2(min是最小“minimum”的縮寫)
回歸分析中用來解釋和預測其他變量的變量稱為“自變量(predictors,independentvariables)”;被解釋和預測的變量稱為“因變量(criterion,dependentvariable)”。
本來數據中對於相同的自變量x有很多不同的因變量y值。如果我們的數據足夠多的話,y應該對於這個x值(如x=3)來說是正態分布的(原因是大部分的社會科學的變量都受著很多因素的影響,而每個因素的影響不會很大,所以一般都是正態分布的)。這是回歸分析的一個基本假設。“回歸”分析的概念就是找出一條直線,對於每一個x來說,把所有對應的(分布在一個正態分布的)y值“回歸”到對應這個x值在一條直線的y值去。而找出這一條直線的方法,就是把總的誤差的平方減到最小(也就是“最小平方法”)。找到這一條直線以後,我們就在這條線上用x估計y值(y^)。原來雜亂無章的xy關係,現在就變成了一個簡單的線性關係。如果研究人員覺得兩個變量不是直線關係。例如,你可能問員工的經驗與員工的績效有關係嗎?會不會前幾年兩者的關係很大,過了某一個時間,再多的經驗都不會影響績效,甚至慢慢變成工齡越高績效越低呢?我們首先可以嚐試的(也是最簡單的)非線性關係就是“拋物線的二階關係”。
如果x與y的關係是先增加後減少,或是先增加後減少,x與y的代數關係就是拋物線。
拋物線關係的代數公式是二階的方程,也就是y=a+bx+cx2。這個回歸分析跟線性的回歸是大同小異的,隻是多了一個cx2項而已。7.1.3分解平方和如果我們仔細地分析回歸裏麵的所謂“誤差”或“殘差”(y-y^),其實每一個員工的離職傾向,與總體員工的離職傾向(y),都可以分解成以下的關係。(y-y)=(y^-y)+(y-y^)y-y2=y^-y2+(y-y^)2+2y^-yy-y^(y-y)2=(y^-y)2+(y-y^)2+2(y^-y)(y-y^)(y-y)2=(y^-y)2+(y-y^)2如果你覺得上麵的符號很難理解,(y-y)就是“每一位員工的離職傾向(yi)離開平均員工離職傾向(y)的差”(C點與A點的垂直距離)。這個差可以分解成兩個部分。①(y^-y)就是“每一位員工的估計離職傾向(yi)離開平均員工離職傾向(y)的差”(B點與A點的垂直距離)。②(y-y^)就是“每一位員工的離職傾向(yi)離開估計員工離職傾向(y^i)的差”(B點與C點的垂直距離)。
把這3個差數求平方(同樣是為了避免正負相消以致低估了差額),然後把所有的觀察點加起來,就得到所有點(即是所有員工)的y值變化的大小(變化除以樣本數就是方差),SStot:(y-y)2=(y^-y)2+(y-y^)2SStot=SSreg+SSres為什麼我們要把“個別員工的離職傾向”與“總體員工的離職傾向”拆開成為兩個部分(“估計離職傾向與平均離職傾向的差”和“個別員工的離職傾向與他的估計離職傾向的差”)呢?等號左邊的“差數的平方和”(y-y)2在回歸裏麵稱為“總平方和(totalsumofsquare,SStot)”。
它其實就是所有的員工的“離職傾向”離開平均離職傾向的平方和(其實這個平方和,就好比“離職傾向”的方差((y-y)2/N),隻是沒有除以數據量N而已)。這個“總平方和”可以拆成兩個部分:第一個部分(y^-y)2是“回歸直線估計出來的‘離職傾向’的平方和”。
我們稱為“回歸的平方和(regressionsumofsquare,SSreg)”。
它的意思是“如果我們現在不用原來的離職傾向,取而代之的是回歸直線的估計離職傾向。那這個新的離職傾向離開原來的平均離職傾向的平方和是多少”。
(y-y)2是原來的y的方差;(y^-y)2是把所有的點回歸到直線後,這些回歸了的y(也就是估計出來的y)的方差。這個“回歸的平方和”(y^-y)2與“總平方和”(y-y)2越接近,代表了什麼呢?它們越相近,就反映了我們的“回歸直線”越能代表我們的“原來數據”。
“總平方和”拆出來的第二個部分(y-y^)2是“員工的‘離職傾向’離開回歸直線估計出來的‘離職傾向’的平方和”。
我們稱為“殘差的平方和(residualsumofsquare,SSres)”。
“殘差的平方和”其實就是我們估計的誤差。“殘差的平方和”越大,回歸直線越不能反映數據的關係。因為SStot=SSreg+SSres上麵指出我們可以把SStot看成是y的方差的一個代表(其實它應該是y的方差×樣本數N)。y的方差是什麼呢?就是y的離散程度。如果是這樣,SSres就可以看成是利用了這條回歸直線來代表y的離散程度。這條直線不能代替y的離散程度的部分就是SSres了。如果我們把整個公式除以SStot,得1=SSregSStot+SSresSStot式中,SSreg/SStot就是這條回歸直線能代表y的方差的百分比;SSres/SStot就是這條回歸直線不能代表y的方差的百分比。“殘差的平方和”越小,表示“回歸的平方和”越接近“總平方和”,也表示我們的“回歸直線”越能代表我們的“原來數據”。
其實,細心的讀者應該已經知道,所謂的“殘差的平方和”SSres,就是我們在回歸分析裏麵用“最小平方法”要“最小化”的誤差。用一個不太正式的講法,我們可以說,經過回歸分析的最小平方法估計出y=a+bx這條回歸直線後,“員工離職傾向”的方差(其實應該是“員工離職傾向”的平方和,方差與平方和的關係是:平方和=方差×數據量N)可以拆成兩個部分:第一個部分是可以被“主管衝突”預測(或解釋)的方差(其實是回歸的平方和);另一個部分就是不能被“主管衝突”預測的誤差方差。因此(SSres/SStot)就可以看成是“員工離職傾向”的方差中能夠被“主管衝突”預測(或是解釋)的部分。這個方差比就是我們研究中用得最多的統計項——相關係數的平方。在統計上,我們將“相關係數的平方”稱為“決定係數(coefficieintofdetermination)”,故r2xy=SSregSStot因此,在y^=a+bx這個估計模型中,它的決定係數(coefficieintofdetermination,r2xy)或者一般稱為“模型的R2”,其實就代表了“用估計的y(y^)取代了原來的y以後,這個估計出來的y^代表原來的y的能力”。
對於所有的yi來講,y^代表y的能力就由SSreg/SStot(也就是SSres的大小)表現出來。而這個“代表的能力”,其實就是rxy的平方。一般自變量(x)能夠預測因變量(y)的能力,也可稱為自變量(x)能夠解釋因變量(y)的能力。用我們的例子,如果rxy=0.60,就代表“主管衝突”能夠解釋“員工離職傾向”的方差的36%(0.6的平方)。在附錄中,我們把有關的數學推導都寫出來了。數學基礎比較好的讀者可以自行推導一下。推導的結果是,當x與y都是標準化(平均數是1,標準差是0)時,用“最小平方法”OLS求解公式min(y-y^)2或min(y-a-bx)2的結果為a=0,b=rxy如果x與y不是標準化的,“最小平方法”OLS求解的結果為截距=a=y-bx;斜率=b=xyx2=rxyσyσx
也就是說,“最小平方法”OLS求得的回歸直線為a=y-bx;b=xyx2=rxyσyσx(x與y是x與y的平均值)a與b是y的回歸係數(regressioncoefficient),即y^=(y-bx)+rxyσyσxx或y^=(y-bx)+xyx2x上麵的公式,為我們解答了為什麼不是x對y的影響越大,x與y的相關就越大。因為x影響y越大,代表了回歸直線越斜,也就是斜率越大。而回歸直線的斜率,不是相關係數,即回歸直線斜率=相關係數×(y的標準差/x的標準差)。
7.2多元回歸分析
7.2.1多元回歸與一元回歸對比
以上的討論是因變量對一個自變量的回歸分析。但在現實的研究中,因變量往往受著很多自變量影響。例如,我們原來的問題就有“工資差”與“主管衝突”作為兩個影響“離職傾向”的因素,那我們的回歸通過的就不是一個平麵的橢圓形,而是一個立體的橢圓形了。當然,無論是平麵的還是立體的,橢圓形隻是我們的想象。我們想象所有的數據點在三維空間裏分布在一個接近橢圓形的空間裏。與一元回歸(隻有一個x的回歸)一樣,如果我們看見的是數據分布在一個類似球體的空間裏,就代表x1和x2根本與y沒有關係。在這種情形下,知道了x1和x2也無法讓我們知道y的大小。
與一元回歸一樣,如果我們知道了x1和x2,就可以完全知道y,那所有的數據點都會在三維空間裏排在一條直線上。而直線在三維空間裏的表示是三元一次的方程式,即y=b0+b1x1+b2x2如果一元回歸是把不同的因變量(y)值“壓縮”到一條直線上,二元回歸就是把三維空間的因變量(y)值(每一個y值都是三維空間的一點)“壓縮”到一條直線上。三元回歸就是把四維空間的點“壓縮”到一條直線上……依此類推。
7.2.2多元回歸係數的估計
與一元回歸一樣,二元回歸的數據點不可能都真的排在一條直線上的。真正的y與我們估計出來的y^(也就是A點在回歸平麵的垂直投影,B點)的差,就是我們的估計誤差。同樣,我們會用“最小平方法”找出(y-y^)2的最低值。數學推導的結果是,對於y^=b0+b1x1+b2x2的二元回歸來說,“最小平方法”的估計就是下麵3個方程的b0,b1和b2的解,即y=b0+b1x1+b2x2(1)x1y=b0x1+b1x21+b2x1x2(2)x2y=b0x2+b2x22+b1x1x2(3)一看這三個方程就知道我們要求的b0,b1和b2的解很複雜。為了簡化起見,我們嚐試首先做一點小手腳,把x1和x2的原始數據(rawdata)改變一下。讓我們把x1和x2都變成(x1-x1)和(x2-x2)。這個過程在數學上稱為“中心化(centering)”。
經過中心化以後,一個變量就變成它離開它平均數的距離了。其實“中心化”除了可以簡化上麵的方程的解以外,在研究中還有一個很重要的含義。例如,x2是員工與他的主管的“主管衝突”。