正文 第6章統計假設的檢驗(1 / 3)

學了相關係數和統計分布的知識以後,丟丟很開心,這樣就可以從一大堆看似紛繁的數據裏找出那些看不見的規律了。丟丟頓覺自己又向科學家靠近了一步。丟丟想自己嚐試一下用相關係數去發現關係,但是去找什麼變量和什麼變量的關係呢?記得兩天前他和李老師喝下午茶聊天時,李老師提到近個世紀以來工業化對人們生活和心理的影響。李老師說,工業化快速地提高了生產效率,使我們的物質生活極大豐富,地區與地區的距離縮小了,我們可以根據自己的需要挑選各種不同的產品,而信息產品和網絡也好像讓我們知道了越來越多的事情。但是工業化社會中的人們一定快樂嗎?正如《摩登時代》中卓別林演的工人那樣,我們每個人都成為了整個生產機器中一個小小的螺絲釘,而在這樣一個更大社群中的人們,似乎反而缺少了以往在小社群、小家庭中的歸屬感和價值感。工作的忙碌也讓人不再有時間坐下來安靜地聊天和思考。很多人都不開心,即使有了錢和地位以後仍是如此。李老師還說了一些其他的,但丟丟已經記不清了。丟丟想,不如就去檢驗一下這個觀點吧,是不是一個地方經濟發展速度越快,人們就越不開心呢?丟丟立刻開始行動。他從學校數據庫中找到了國內20個大中小城市的國民生產總值(GrossNationalProduct,GNP),又從互聯網上找到一份去年對於各城市居民幸福感的調查,從中找到這20個城市的得分。根據前麵學的知識,丟丟算出“國民生產值”與“居民幸福感”的相關係數是-0.30。他覺得自己有了新發現,因為這就意味著GNP越高的城市,幸福感反而越低,而且GNP可以解釋各個地區人們幸福感差異的9%(相關係數的平方,詳細理由我們會在回歸分析的一章介紹)。丟丟迫不及待地把自己的這個發現和李老師討論。丟丟:“李老師,你看,數據的確支持了你那天說的觀點。”

李老師:“丟丟,很開心你可以把我們討論的現象變成一個可以操作的研究問題,這是一個很好的開始。但是,這裏還有很多的工作要做,我們先僅就數據看一看。這個幸福感的調查數據是如何得到的,你覺得可靠嗎?”丟丟:“這個,我沒有太注意,他們隻是把每個城市的得分列出來了。”

李老師:“這就是非常重要的測量的問題了。我們過兩天再討論這個問題。現在我們就假設它是可靠的。那你是隻希望知道對這20個城市而言,GNP與幸福感的關係,還是想知道一個對於所有城市都成立的穩定的規律呢?”丟丟:“當然希望是後者,一個對所有城市都成立的穩定的規律。”

李老師:“那你不如試試選另外的20個城市,再計算一下相關係數看看呢?”丟丟:“這個……難道不一樣嗎?”丟丟按李老師的建議重新選取了另外的20個城市,又計算了一次。這一次相關係數竟然變成了0.22,兩個變量的關係從負數變成正數了。丟丟很困惑,這結論怎麼還會變呢?他想起別人批評社會科學都是主觀的學科,看來的確如此呀。這每一次結果都不一樣,到底哪個是真的呢?李老師早就知道丟丟做完第二次數據會困惑,所以準備第二天就和他談談抽樣和統計假設檢驗。

我們做研究時需要注意,當找不到證據支持我們的理論時,不一定說明理論是錯誤的。反之亦然,當我們實現自己假設的結果時,也不一定說明理論是對的。一般研究的結果,都可能存在幾種誤差。①理論的誤差,就是研究者所采用的理論不適用於當前研究問題。②測量的誤差,其中包括了隨機的誤差(信度)和係統性的誤差(效度)。③抽樣的誤差,因為我們研究的樣本不能代表總體,所以出現誤差。理論的誤差在前幾章提過了。測量的誤差將在後麵談到。我們在這章討論的是第三類的誤差——統計抽樣的誤差。讓我先舉一個例子來說明什麼稱為“統計抽樣的誤差”。

假設你想知道一家企業員工的平均年齡。你跑進了這一家企業,隨便問了50個人,其中有20個人沒有理你,剩下30人的平均年齡是32歲。你後來才知道整個企業有2000多人。請問,這樣問了30個人,得到的平均是否可以反映整個企業的平均年齡呢?這個“代表性”的存疑不單是訪問了多少人的問題,還包括如何選擇訪問對象的問題。問的人數少了,可能帶來較大的“隨機性”誤差,而你選擇的訪問對象如果比較特別,則可能帶來較大的“結構性、係統性”的誤差。“隨機性誤差”隻要問的人多一點,就可以解決。“係統性誤差”卻不是多問幾個人可以解決的。例如,如果你隻訪問一個部門裏的人,而選擇的又剛好是科研部門,這些部門員工的平均年齡就有可能相對年輕了。這個“係統性誤差”的問題,在統計上一般可以用“隨機選取對象(randomselection)”來解決。一般選擇對象時,訪問對象如果沒有一個很強的共同性,又或者這個共同性與研究的變量沒有關係,我們就將這群選擇的對象稱為“隨機的”。

顯然,選擇的對象越是隨機,係統誤差越小,結果就更有可能代表整體;選擇的對象越多,隨機誤差越小,結果也越有可能代表整體。一般管理學的研究在收集數據時,都很難知道自己的數據是否是隨機的。例如,一家企業的老總答應與我們合作研究,正常的情形下,老總就會跟人力資源部的主管說,請他與我們盡量合作,安排如何收取數據。

那最隨機的方法就是按員工編號依照隨機號碼來決定誰來參加研究。可是第一,這家企業不一定有正規的員工編號;第二,人家是做生意賺錢的企業,總不能讓研究妨礙正常工作,因此,很多隨機選出來的員工就不能參加研究。在這樣的情形下,唯有假設所選的員工是有代表性的。上麵已經談過,隻要選出來的這一群員工中,沒有一些明顯的特征影響到我們的研究結果,我們就隻有假設他們是隨機的。正因為這個原因,問卷研究中常常會在最後收集一些人口統計性數據(demographicdata,如年齡、工齡、性別、職別、部門、行業等),以作為控製變量。在分析的過程中,把這樣的變量的影響用統計的方法控製住。自然,這不代表我們收集數據的時候,就可以隨隨便便地發幾份問卷。相反,一個嚴謹的研究人員會盡可能收集一個接近隨機的樣本。在以下的討論中,我們就假設收集回來的數據對整體的研究對象而言有足夠的隨機性。可是,就算選取對象時是完全隨機的,如果你隻是“隨機地”詢問企業裏麵5個員工的年齡,也很難說明這5個員工的年齡對於整家企業來說是有代表性的。對於整體而言,隨機地選出來的研究對象的代表性,雖然不存在“係統性誤差”的問題,但是還存在“隨機性誤差”的問題。假設你選擇研究對象是隨機的,隻是排除了代表性的“係統性誤差”。

現在讓我們專注於結果代表性的“隨機性誤差”問題。

6.1樣本與總體

在統計的術語當中,你要研究的所有對象稱為“總體(population)”。

你選出來研究的對象稱為“樣本(sample)”。

“總體”的特征稱為“參數(parameter)”;“樣本”對應的特征稱為“統計量(statistic)”。

在上麵的例子中,整個企業的2000多個員工就是你的“總體”,而你所訪問的30個員工就是“樣本”了。2000個員工的平均年齡稱為“參數”,選出來的30個員工的平均年齡就是“統計量”。

樣本中數據的數目,我們稱為“樣本數(samplesize)”(N)。如果我們問了30個員工的年齡,那樣本數就是N=30了。一般的情形,總體中的參數都用希臘字母代表,如總體的平均稱為“μ”,總體的方差稱為“σ2”,總體的協方差稱為“σxy”,總體的相關係數稱為“ρxy”等。對應來說,樣本中的特征用英文字母來表示。例如,樣本的平均稱為“x”,樣本的方差稱為“s2”,樣本的協方差稱為“sxy”,樣本的相關係數稱為“rxy”,等等。不過,管理的研究人員不像統計學家在符號上這麼講究。除非是必須要明確顯出總體與樣本的對應特征,這些符號在日常的應用不是這麼嚴謹的。例如,隻要不跟總體參數對照,有時我們也會用“σ2”表示樣本方差,用“σ”來代表樣本的標準差。又如,因為打印希臘符號很不方便,我們也常常把兩個變量在總體中的相關係數稱為“Rxy”。

在研究(或是作統計分析)時,我們常常問自己:“你的樣本是不是能夠代表你想研究的總體的特征呢?”在上麵的例子中,到底32歲是不是這個企業員工的平均年齡呢?也許你剛好跑進設計時尚產品的部門,員工一般都是大學畢業不久,都很年輕。也許正好不回答你問題的10個人都是高級行政人員,一般年紀都很大。失去了這10個人,你估計的年齡就比實際平均年齡低了很多。因此,你馬上想到抽樣的隨機性問題。如果我們抽樣盡可能隨機,那麼也就代表每一個個體都有同等的可能性被抽到,於是樣本能夠代表總體的可能性就更大了。但是,上麵已經談過了,僅僅隨機抽樣這一個條件並不能保證總體特征不會有問題。下麵我們就討論一下這個問題。現在讓我用一個實際的研究問題來說明樣本和總體的關係。假設你有興趣知道員工加薪多少(x)與他們的滿意度(y)是否有相關。假設這兩個變量在總體裏的相關係數是ρxy,這個值你是不知道的;在你的樣本中x與y的相關rxy是可以計算的。現在你收集了254個員工的樣本(N=254),發現去年加薪的幅度(x)與他們現在的滿意度(y)的相關是0.23。

我們在研究中最感興趣的,往往是總體的參數(在這個例子中是ρxy)是多少,而不是樣本的統計項(在這個例子中是rxy)是多少。因此,就算樣本的相關rxy=0.23,也不代表總體的加薪幅度與滿意度是有關係的。所以這時的問題是,當我們在樣本中計算出rxy=0.23時,我們怎麼知道總體裏的ρxy是不是0呢?意思是說,有多大可能當真實的總體相關係數是0(ρxy=0),也就是“所有的”員工加薪幅度和他們的滿意度其實是沒有關係的,恰巧我收到的N=254的樣本卻觀察到rxy=0.23呢?這就是典型的假設驗證的統計問題。可能你馬上會問,為什麼要知道總體的相關是不是0呢?為什麼不問總體的相關是不是0.2或0.3或是0.23呢?這個問題可以從以下兩個方麵來看:第一,這與我們做研究的一般目的很有關係。一般來說,如果你做的是實證研究,提出的假設應該都具體到變量與變量之間的關係。例如,我們想知道加了工資,員工會不會工作表現更好一點?又如,我們想知道企業花在廣告的錢越多,是不是產品的銷售量就越多?又或者是不是在廣告上用的明星越有名,產品的銷售量就越多?所以研究的問題是“廣告上用的明星的名氣”(x)是不是可以預測“產品的銷售量”(y)?大部分這一類型的研究的問題都是“x是不是對y有影響”,也就是到底ρxy是不是0?這是我們最關心的問題。隻要ρxy≠0,我們的理論就成立了,也就是x是對y有影響的。至於影響有多大,那是另外一個問題,也是比較次要的問題。因為一個理論隻有能力預測兩個變量是否有關,而沒有能力預測他們的相關到底是多少。如果有一個理論可以精確地告訴你“員工滿意度”與員工的“工作表現”的關係應該是0.43,那我可以大膽地說這個理論一定是錯的。第二,我們一般做調查的時候用的都是李克特量表(Likerttypescale)。比如我們會問,你認識這個打廣告的明星嗎?答案可能是完全不認識、好像認識、有點認識、當然認識等。因為這個量表是沒有絕對參照的。你對“好像認識”這個形容詞,跟我的理解可能不完全一樣。也許我心中定義的“好像認識”,跟你的“有點認識”是一樣的。另外,不同研究者可能會采用4點量表或100點量表,兩種量表得到的結果是不一樣的。例如,用4點量表可能找到相關是rxy=0.25;用100點量表可能找到的相關是rxy=0.13。這表麵上看來好像是個大問題。但是,如果站在驗證理論的角度,4點量表和100點量表所帶來的結果差異不是我們關心的,我們最關心的是x對y是否有影響,也就是ρxy是不是0。消除了這個疑惑後,我們可以稍微總結一下。研究的問題是員工加薪幅度(x)與他們的滿意度(y)是否相關?現在我們從總體中“隨機”抽取一個樣本。可以計算樣本的統計項rxy,但是我們感興趣的是總體的參數ρxy是否為0。我們說樣本是“隨機”抽取的。什麼稱為“隨機(random)”呢?完全“隨機”的意思是總體裏的每一個數據點都有相同的機會被抽中。如果研究者在自己認識的企業中,問了好幾個老總,結果找到了一家願意被調查的,這不叫“隨機”,這稱為“隨便”。

用研究的術語,這稱為“方便抽樣(convenientsampling)”,不是“隨機抽樣(randomsampling)”。

在管理學研究裏一般是很難做到完全隨機的,故大部分都是“方便抽樣”。

因此,我們對樣本的要求是“沒有明顯的獨特性”,也就是沒有明顯的導致結論偏差的因素,也沒有明顯的“局部性”,如樣本中98%都是年輕的男性等。方便抽樣是沒有辦法的辦法。在一般的情形下,如果樣本數夠大,學術研究期刊是會接受的。

6.2統計上的假設

現在回到原來的問題。我們訪問了254個員工,發現這254位員工去年加薪的幅度(x)與他們現在的滿意度(y)的相關rxy=0.23。我的問題是,在總體中,員工去年加薪的幅度(x)與他們現在的滿意度(y)的相關ρxy是否為0?要回答這個問題有4個可能的思路。第一,如果總體ρxy不是0,樣本的rxy應該如何?第二,如果總體ρxy不是0,樣本的rxy不應該如何?第三,如果總體ρxy為0,樣本的rxy應該如何?第四,如果總體ρxy為0,樣本的rxy不應該如何?自然這4個邏輯思路的答案都有助於回答原來我們感興趣的問題,就是ρxy是否為0。在這4個思路中,統計學家發現回答最後一個問題比較簡單。因此,我們就采用了以下的邏輯來處理x與y在總體中的ρxy是否為0的問題。這個邏輯稱為“統計假設的驗證”,就是:如果總體中的ρxy=0,樣本的rxy“不應該”有某些特征。如果在樣本的相關係數rxy觀察到這些特征,就支持了總體中的ρxy應該不是0。相反,如果在樣本的相關觀察不到這些特征,就代表總體中的ρxy有可能是0。保險起見,雖然總體中的相關隻是“可能”為0,我們也要說,沒有足夠的證據支持總體中的相關Rxy≠0的看法。這個邏輯應用到上麵的問題時,就是總體中的加薪幅度(x)與滿意度(y)如果沒有關係的話(ρxy=0),樣本的相關(rxy)就不應該有某些特征(我們下麵會講到底是什麼特征)。我們沒有足夠的證據,支持總體中加薪幅度與滿意度有關係的說法。這整個過程在統計上稱為“假設檢驗(hypothesistesting)”。

因此,假設檢驗是一個試圖推翻自己原來假設的邏輯程序。請讀者把這裏的統計假設檢驗和第一章提到的研究假設區分開。這裏所謂“原來假設”,就是研究者預先設定的變量間的關係,如這裏我們首先假設x與y沒有關係。如果沒有證據推翻這個假設,我們就下結論說,暫時接受“沒有關係”(也就是ρxy=0)的說法。如果有足夠的證據,讓我們推翻這個“沒有關係”的原來假設,我們就放棄這原來假設,暫時接受“有關係”(也就是ρxy≠0)的說法。這個“沒有關係”的原假設稱為“虛無假設(nullhypothesis,H0)”,或者“零假設”“無效假設”等。對應於“虛無假設”的“有關係”假設,稱為“備擇假設(alternativehypothesis,H1)”或者是“對立假設。虛無假設(H0)與備擇假設(H1)一定是相反的。

放棄了“虛無假設”,就一定要接受“備擇假設”,沒有其他選擇。因此,如果虛無假設是“沒有關係”(ρxy=0),備擇假設就是“有關係”(也就是ρxy≠0)。如果虛無假設是總體平均是零(μ=0),備擇假設就是總體平均不是零(也就是μ≠0)。對應μ=0的虛無假設,備擇假設不可以是μ=1,它一定要是μ≠0。同時,讀者要謹記,假設驗證是從樣本的統計項根據數據用邏輯推論總體參數的過程。所以虛無假設和備擇假設一定是關於總體的參數,不可以是樣本的統計項,因為樣本的統計項根本不需要做假設驗證,單單用數據直接計算出來就可以了。因此,我們不可以說虛無假設是H0:x=0;也不可以說虛無假設是H0:rxy=0。兩者都是不懂得統計概念的人才會犯的錯誤。應該是H0:μ=0和H0:ρxy=0才對。讀者可能會懷疑,為什麼要先假設“沒有關係”,訂立了“虛無假設”(虛無就是“沒有”的意思),然後去看看是否要推翻這個“虛無假設”呢?為什麼不首先假設“有關係”,然後來看看我們有沒有證據去推翻這個“有關係”的假設呢?原因很簡單,因為“沒有關係”的虛無假設隻有一個,但是“有關係”的假設有千千萬萬個。如果我們研究的問題是加薪幅度與滿意度的關係,虛無假設就很簡單,就是加薪幅度與滿意度沒有關係。如果我們首先假設有關係的話,那假設的加薪幅度與滿意度的關係應該是多大呢?答案不可得知。因此,為了方便簡單,我們首先會假設兩者沒有關係。