正文 第6章統計假設的檢驗(2 / 3)

6.3抽樣分布

假如我們從總體中抽取一個N=254的隨機樣本,觀察到的rxy=0.39。現在假設我們有機會從總體中再抽另外的一個“獨立”的樣本,觀察到的rxy=0.27。怎樣的樣本才稱為“獨立”於前一個樣本呢?也就是第二個樣本中的數據完全不受第一個樣本影響。例如,在第一個樣本中選上了“王亮”這位員工,抽取第二樣本時,就不可以因為第一次訪問了王亮,第二次就不再問他了。第二次的抽樣,應該與第一次完全沒有關係。在統計上,這稱為“重置抽樣(samplingwithreplacement)”。

“重置”的意思是,當一個數據點在一次被抽樣選上,並作出觀察後,這個數據點會“重新放置”到總體中,作為以後抽樣的候選數據。如果抽樣不是重置的,那第二個抽樣就不是隨機的了。利用重置抽樣的方法,理論上可以在總體中抽出無限個樣本數等於254的樣本。在這無限個樣本中,每一個樣本都可以計算它的樣本相關係數rxy。利用這無限個樣本的相關係數rxy,就可以畫出一個“樣本相關係數”的“概率密度”分布圖。這個從總體中,利用重置抽樣法抽取出來的無限個樣本的統計項所組成的概率密度分布,統計上稱為該統計項的“抽樣分布(samplingdistributionofthestatistics)”。

在這裏的例子中,我們感興趣的統計項是相關係數,故這個分布就稱為“相關係數的抽樣分布(samplingdistributionofthecorrelation)”。

不同的統計量的“抽樣分布”是完全不同的。例如,如果我們估計總體的平均年齡,由於感興趣的統計項是平均值,我們就計算每個抽出來的樣本的平均值(用上麵的例子,就是平均年齡)。這無限個樣本中的不同的平均年齡所組成的分布,就稱為“平均值的抽樣分布(samplingdistributionofthemean)”。

如果對每個抽出來的樣本計算它的方差,無限個重置樣本的不同方差所組成的分布就稱為“方差的抽樣分布(samplingdistributionofthevariance)”。

因為是一個概率分布,抽樣分布也有自己的平均值和方差(或標準差)。如果統計項是平均數,這個抽樣分布的平均值就稱為“平均值的抽樣分布的平均值”;這個抽樣分布的標準差,就稱為“平均值的抽樣分布的標準差”。

正常的情形下,我們自然希望研究統計項的抽樣分布的平均數就等於總體的參數值。這樣的話,我們多抽幾個樣本來“平均”,就能對總體的參數有個不偏不倚的估計。不然的話,就算我們能從現實中抽取無限個樣本,對總體參數的估計還是有偏差和錯誤的。如果一個統計項的抽樣分布的平均值等於總體的參數值,這個統計項就稱為一個“無偏的”統計項(unbiasedestimateoftheparameter)。但是事與願違,不是所有的統計項都是無偏的。例如,樣本的平均是一個無偏的統計項。但是,方差、標準差和協方差都是有偏差的。幸好它們的偏差都不很大,隻要我們稍微改變它們的定義,它們就會變成無偏的統計項。改變的方法就是分母不用樣本數N,而是用(N1)。這就是為什麼有些統計教科書索性把方差、標準差和協方差都作了如下的“看起來蠻古怪”的定義。s2=(xi-x)2N-1

s=(xi-x)2N-1sxy=(xi-x)(yi-y)N-1除了考慮抽樣分布的平均值(也就是中心傾向)以外,我們也談談抽樣分布的變異程度,就是它的方差和標準差。因為方差的單位與統計項的單位不同,為方便起見,用抽樣分布的標準差來談吧。一個統計項的“抽樣分布的標準差”就是無限個重置抽樣的樣本中,那些樣本統計項所組成的概率分布的標準差(standarddeviationofthesamplingdistributionofthestatistic)。如果我們感興趣的參數是總體的相關係數,那麼在無限個重置樣本中的樣本相關係數(rxy)所組成的抽樣分布的標準差,就是“相關係數的抽樣分布的標準差(standarddeviationofthesamplingdistributionofthecorrelation)”。

為了簡化這個累贅的名稱,我們將抽樣分布的標準差稱為“標準誤(standarderror)”。

用相關係數為例子,“相關係數的抽樣分布的標準差”就稱為“相關係數的標準誤(standarderrorofthecorrelation)”。

因為無偏的統計項的平均是總體的參數值,對於無偏的統計項來說,“標準誤”就代表了樣本的統計項離開總體的參數值的遠近。“標準誤”越小,樣本的統計項就越接近總體的參數值。用相關係數為例,“標準誤”越小,一般樣本中觀察到的相關係數(rxy)就越接近總體的相關係數(ρxy)。除了標準誤以外,自然抽樣分布的形狀也扮演很重要的角色。為了讓讀者明白,這裏舉一個最簡單的實例。在眾多的統計項當中,最簡單的應該就是“平均值”這個統計項。現在假設我們的“總體”是非常簡單的,它隻有10個數,就是x=1,3,2,4,2,3,1,3,2,5。這10個數的平均就是“總體中的平均數(populationmean)”,計算結果是μ=2.60[注:因為這10個數就是總體,所以它們的平均就是總體的平均數,統計上用符號μ代表]。這十個數的標準差是σ=1.2[注:同樣的,這10個數就是總體,所以它們的標準差就是“總體的標準差(populationstandarddeviation)”,統計上用符號σ代表]。現在,我們開始在這個隻有10個數的“總體”中抽樣。假設每個樣本的樣本數都是3(N=3),我們抽了6個樣本,分別是:樣本x1x2x3樣本平均數(x)樣本標準差(s)A1342.671.25B2453.671.25C4233.000.82D3253.331.25E5112.331.89F2312.000.82請讀者注意,在抽樣過程中,有兩個條件:第一,抽樣是隨機的,就是說10個數中每一個數被抽中的機會都是一樣的;第二,抽樣是重置的,就是說抽出來的數在記錄以後,會重新放置在總體中。所以雖然“總體”中隻有一個“5”,但是在同一個樣本中可能有兩個“5”出現。明白了這兩個道理,我們計算每一個樣本的平均數,這6個樣本的“樣本平均數(samplemean)”分別是2.67,3.67,3.00,3.33,2.33,2.00。計算這6個樣本的“樣本標準差(samplestandarddeviation)”,分別是1.25,1.25,0.82,1.25,1.89和0.82。大家可以想想,如果我們計算這6個“樣本的平均數”的總平均,它會是什麼呢?結果發現,6個“樣本的平均數的平均(meanofthesamplemean)”是2.83。6個“樣本的標準差的平均(meanofthesamplestandarddeviation)”是1.21。我們發現這個把很多的“樣本的平均數”來平均,與把很多的“樣本的標準差”來平均後,它們跟原來的“總體”平均數和標準差(μ=2.60;σ=1.2)很接近。如果不是隻抽取6個樣本,而是不停地抽取很多很多樣本,有沒有可能這“無限個樣本”的“樣本平均數”的平均就是總體的平均數呢?數學的推導告訴我們,答案是“是的”。

因為“平均數”這個統計項是“不偏(unbiased)”的。那麼“無限個樣本”的“樣本標準差”的平均會不會是總體的標準差呢?數學的推導告訴我們,答案是“不是的”。

因為“標準差”這個統計項是“有偏(biased)”的。隻有一個情形下,標準差才是“不偏”的。就是當標準差的定義中分母是(N-1)而不是N的時候。因此:標準差=nk=1(xk-x)2N時,標準差是“有偏”的;標準差=nk=1(xk-x)2N-1時,標準差是“無偏”的。因此,統計學家索性把標準差定義為方差除以N-1,而不是除以N了。不過,讀者大概會問,是否“無偏”又如何?幹嘛一定要無偏呢?答案很簡單,如果一個統計項是無偏的,那麼隻要我們多抽樣幾次(有時候得到的“樣本平均”大於“總體平均”;有時候得到的“樣本平均”小於“總體平均”),“平均來說”,得到的“樣本平均”應該與“總體平均”是一樣的。這樣,因為每一次隻有一個樣本,如果是不偏的,用“樣本平均”來估計“總體平均”是穩妥的。但如果有偏的,就代表就算我們用樣本來估計總體一百萬次,得到的平均估計也是錯誤的。如果不停地抽樣,每一個樣本都有一個“樣本平均數”,我們就有很多不同的樣本平均數。這些樣本平均數就會組成一個概率分布(讀者可以把它想象成為一個幾率分布,也就是抽樣中的“樣本平均數”等於不同數值的機會是多少)。這個稱為“平均數的樣本分布(samplingdistributionofthemean)”。

上麵我們談過了,平均數是不偏的,因此“平均數的樣本分布”的平均值就是“總體平均值”。

其實,除了統計項對總體參數的估計是否無偏外,我們還會考慮一個問題,就是如果不停地抽樣,不同的樣本估計出來的“樣本平均數”的標準差有多大。換句話說,我們想知道“平均數的樣本分布”的標準差是多少?這個“平均數的樣本分布的標準差”被簡化稱為“平均數的標準誤(standarderrorofthemean)”。

用上麵6個樣本作比,“平均數的標準誤”就是2.67,3.67,3.00,3.33,2.33,2.00這6個數的標準差(等於0.57)。自然真實的“平均數的標準誤”不是這6個數的標準差。它應該是在不停地抽樣下(每一次N都等於3),“無數個樣本的平均數的標準差”才對。我們管這個標準誤幹什麼呢?它是大是小又如何呢?這影響非常深遠。大家試想,如果“平均數的標準誤”很小,就代表我們每一個樣本計算出來的“樣本平均數”,離“總體的平均數”很近。那就代表用樣本平均數來估計總體平均數時,誤差不會很大。因此,統計項的標準誤越小,我們用樣本的統計項來估計總體參數的誤差就越小。因此,是否“不偏”決定了我們在無數次估計中平均是否有偏差。

標準誤的大小決定了在每一次估計中(用樣本的統計項來估計總體參數)誤差是否很大。一個統計項可以是無偏的,但是每一次估計的誤差都很大(如,有一半機會估計的誤差是+1000000,有一半機會估計的誤差是-1000000,那統計項還是無偏的)。統計學家告訴我們,如果估計的是平均數,那麼①“平均數的樣本分布”的平均值=總體的平均數。②“平均數的樣本分布”的標準差(“平均數的標準誤”)=總體的標準差/N(N是樣本數)。用我們上麵的10個數的總體來做例子,總體的標準差σ=1.2,所以平均數的標準誤=1.2/3=0.69。讀者大概會問,我們隻有一個樣本,如何能知道“總體的標準差”是什麼呢?是的,我們是不知道總體的標準差的。因此,一般會用樣本中的標準差作為對總體標準差的估計。現在,讓我們看看在管理學中使用最多的統計項:相關係數。如果總體有兩個變量x和y。我們從一個總體中抽出一個樣本,樣本數是N。在樣本中,我們計算樣本中的x和y的相關係數。這樣,我們的統計項就不是平均數了,而是相關係數。當我們不停地抽樣,在無限個樣本中,就有無限個“樣本的相關係數”。

這些樣本相關係數就會組成一個“樣本相關係數的概率分布”,這個分布我們稱為相關係數的抽樣分布(samplingdistributionofthecorrelation)。相關係數的抽樣分布不是對稱的,因此,相關係數就不是無偏的。但是,當樣本數N越來越大的時候,“相關係數的抽樣分布”就越來越接近一個正態分布(正態分布是左右對稱的)。因此,當樣本足夠大時,相關係數是無偏的。所有的“樣本相關係數”的平均就是總體相關係數。那這個“相關係數的抽樣分布”的標準差是什麼呢?“相關係數的抽樣分布的標準差”簡稱“相關係數的標準誤(standarderrorofthecorrelation)”,公式(大概)為相關係數的標準誤≈1-ρ2N-1(ρ是總體的相關係數;N是樣本數)同樣,我們根本就不知道總體的相關係數。一般就是用“樣本的相關係數”作為“總體的相關係數”的估計。抽樣分布的形狀到底是怎樣的呢?抽樣分布的形狀受很多因素影響。一般來說:①它受統計項的影響。不同的統計項的抽樣分布是不一樣的。平均數的抽樣分布是正態分布。以後我們會看見很多統計項,它們的抽樣分布是上章講到的t分布、F分布、χ2分布等。例如,回歸係數的抽樣分布是t分布;樣本的R平方的抽樣分布是F分布;結構方程建模中的擬合指數是χ2分布。②對某些統計項來說,有時抽樣分布也受總體的參數值影響。例如,當總體的相關係數小的時候,“相關係數的抽樣分布”大致上是正態的。但是當總體的相關係數(ρxy)越來越大的時候,“相關係數的抽樣分布”就越來越不依從正態分布,而是負偏的(negativelyskewed)。一個分布是負偏的意思是:它的峰值是靠近右邊的,也就是它有一條長尾巴向左邊伸出去。③抽樣分布的形狀也受樣本數的影響。樣本數越大,標準誤就越小,抽樣中的統計項就更接近總體的參數。從形態上看,抽樣分布就比較“高瘦”一點。樣本數越小,抽樣分布就比較“矮肥”一點。

6.4假設檢驗

解釋了抽樣分布,我們就可以回去談原來的假設檢驗的問題了。我們訪問了254位員工,發現這254位員工去年加薪的幅度(x)與他們現在的滿意度(y)的相關rxy=0.23。我們的問題是:在總體中,員工去年加薪的幅度(x)與他們現在的滿意度(y)的相關ρxy是否為0?這裏我們有興趣的統計項是相關係數。而且,我們的虛無假設是H0:ρxy=0,於是我們就要研究總體的相關係數為0的抽樣分布。上麵我們談過,當總體相關係數很小的時候,相關係數的抽樣分布是接近正態分布的。因此,我們在這裏就把問題簡化,把相關係數看成是無偏統計項;把它的抽樣分布看成是一個正態分布。

如果我們從一個x與y相關係數為0的總體中,抽出無限個樣本數為100的樣本時,從不同的樣本計算到的樣本相關係數(rxy)的概率分布。統計學家已經替我們推導到,這個抽樣分布的標準誤(σe)大概符合公式σe=1-ρ2xyN-1現在ρxy=0,N=100,所以σe=0.1005。在統計學中,沒有百分百的對與錯,一切都是用概率來計算的。因此,在我們還沒有進一步的推論時,要設定一下允許自己犯錯的機會。在假設驗證時,一般統計學家的建議,是為自己設兩道關卡:一道是允許自己有5%的機會犯錯;另外一道比較嚴謹,就是隻允許自己有1%的機會犯錯。在管理的研究中,我們一般都用5%這個關口。這類型的錯誤稱為“一型錯誤(TypeⅠerror)”,一般用符號α來代表。5%的犯錯機會稱為α=0.05;1%的犯錯機會稱為α=0.01。什麼叫有5%的機會允許自己犯錯呢?以下說明當中的邏輯。如果總體的相關(ρxy)真的是0,我們知道根據正態分布的理論,有95%的數據點會包含在μ±1.96σ之內(μ與σ分別是該正態分布的平均值和標準差)。現在的抽樣分布是一個平均值為0,標準差為0.1005的正態分布。因此,95%的樣本相關係數將會介於-0.197與+0.197(也就是0±1.96×0.1005)之間。也就是說,如果ρxy=0,而我們從總體中無窮地進行N=100的抽樣,當中隻有5%[注意:是左右都有2.5%,加起來就是5%]的rxy≥0.197。如果我們在某一個樣本中觀察的相關係數大於0.197,我們就會說:“總體的ρxy應該不是0吧!”而我們做這個結論,犯錯的機會隻有5%。因此,rxy=0.197就是臨界值(criticalvalue),我們稱為rc。如果我允許自己有5%的機會犯錯,當我看見樣本相關大於0.197,或是小於-0.197時,我就會推翻虛無假設(H0:ρxy=0),接受對立假設(H1:ρxy≠0),也就是總體中x與y是相關的。這個臨界值rc的意思就是:前提條件是總體中x與y的相關係數ρxy的確為0,在總體裏進行抽樣,隻會有5%的可能性獲得的樣本rxy是大於rc或小於-rc的。可以說,如果總體裏x與y的相關係數ρxy是0,我們抽出來的樣本的rxy應該隻有5%的可能大於0.197,或是小於-0.197。也可以反過來說,如果我們看見一個抽出來的樣本的相關係數大於0.197,如果總體的ρxy是0的話,這樣的情形應該小於5%。所以合理的結論是,如果樣本相關係數大於臨界值0.197,很有可能總體的相關係數不是0。這個就是“假設驗證(hypothesistesting)”的邏輯。在假設驗證時,當發現統計項的幾率小於5%時,我們的結論是ρxy≠0。凡是虛擬假設被推翻,要接受備擇假設時,我們就會說結果是“統計上顯著的”或者簡單地說結果是“顯著的(statisticallysignificant)”。