具體如何比較,我們用一個最簡單的例子來說明。Law,Wong和Song(2003)開發情緒智力量表時,報告了下麵的“多質多法矩陣”:
特質自己評分父母評分EINEOACEINEOAC自評EI(0.78)N-0.39(0.77)E0.15-0.08(0.80)O0.30-0.120.45(0.82)A0.26-0.360.290.14(0.83)C0.55-0.460.100.270.47(0.86)父母評EI0.28-0.120.000.010.020.22(0.81)N-0.180.340.04-0.02-0.18-0.20-0.30(0.79)E0.06-0.020.370.210.02-0.020.000.08(0.83)O0.15-0.040.140.32-0.100.080.150.080.55(0.85)A0.07-0.140.01-0.020.200.140.16-0.160.280.09(0.85)C0.17-0.11-0.13-0.020.050.340.42-0.210.110.240.58(0.90)上表呈現的是多質多法檢驗(multitraitsmultimethods,MTMM)。所謂的“多質多法”是用多於一個方法(method)來測量多於一個質(trait)。所謂的質,在管理學上的意思是一個人的特性或特質。這裏他們用了兩組“質”,就是情商(EmotionalIntelligence,EI)和大五人格特質(BigFivePersonality)。所謂“大五人格特質”,是社會心理學家經過多重的分析,總結出人格可以歸納為5個基本維度:神經質/鎮靜(Neuroticism,N)、外向/內向(Extraversion,E)、開放/封閉(Opennesstoexperience,O)、易相處/難相處(Agreeableness,A)和盡責性/不盡責性(Consicientiousness,C)。這兩組的特質(情商和人格)都是用兩個方法來測量,即大學生自評和由他們的父母來評價。這兩組特質和兩個測量方法的交叉,就產生了上表的相關係數。上表可分為4個區間,左上角的長方形區間是“自評的情商”與“自評的人格”的相關,是不同的特質用同一個方法來測量,我們稱為“異質同法(HeteroTraitMonoMethod)”。
左下角的長方形區間是“自評的情商”與“他評的人格”的相關,是不同的特質用不同方法來測量,我們稱為“異質異法(HeteroTraitHeteroMethod)”。
右下角的長方形區間是“他評的情商”與“他評的人格”的相關,仍然是“同法異質(HeteroTraitMonoMethod)”。
表中圓圈處的相關(r=0.28)是相同的特質用同不同的方法來測量,我們稱為“同質異法(MonoTraitHeteroMethod)”。
最後,表中的對角線是相同的特質用相同的方法來測量,我們稱為“同法同質(MonoTraitMonoMethod)”。
這個其實就是測量的信度(reliability)。對於多質多法檢驗(MTMM)的要求結果是:①“同法同質”(信度)一定是最大的。②“同質異法”是聚合效度應該很高。③“同質異法”(聚合效度)一定要大於“異質同法”(區分效度)。[注:上表中“同質異法”的相關相對較小,隻有0.28。作者在文章中做了特別解釋。]Kavanagh,MacKinney和Wolins(1971)分析管理者績效評價方法也是用了類似的方法,建議大家可以參考原文,我們就不在這裏詳細介紹了。隨著結構方程模型(SEM)技術的成熟,我們也可以在結構方程模型中實現MTMM的分析,其主要的原理是每一個變量所有觀測值的方差都由兩部分組成:一部分來源於特質的真分數方差,另一部分來源於方法的方差,這樣把特質和方法都作為潛變量,就可以把它們都估計出來了。Joseph和Newman(2010)也嚐試驗證情商的4個維度,是否與大五人格性格特質和智商可以區分。情商的4個維度是了解自己的情緒(SelfEmotionAppraisal,SEA)、了解別人的情緒(OthersAppraisal,OEA)、正確使用情緒(EmotionUse,UOE)、正確控製情緒(EmotionReguation,ROE)。智商是用美國公開大學入學試SAT的分數。從19個變量(4個情商、5個性格,每個有兩個測量,自評(selfreport)和他評(peerreport)、智商隻有1個,因為是客觀的分數)中抽取4個情商因子、5個性格因子、1個智商因子和兩個方法因子。這樣就可以知道所有變量的總方差中,有多少是因為方法,有多少是因為特質本身的。我們在因子分析一章將會再討論這個問題。
8.3.2信度
效度討論的是如何用各種方式檢驗一個測量工具是否有效。然而,我們除了希望它的確能夠準確測量目標構念外,還希望它是穩定可靠的。於是,還需要另一個指標來評價測量的穩定性,這個指標被稱為信度(reliability)。我們已經學過前麵的經典測量模型,就可以用測量模型來表示信度和效度的含義。經典測量模型認為觀測值由兩部分組成:真分數和隨機誤差。但現實中,誤差可能不僅僅隻是隨機誤差。我們前麵說過的沒有校準的電子秤,每次觀測值都會穩定地比實際質量多100克,這種誤差不是隨機誤差,而是穩定出現的錯誤,我們稱為係統誤差。所以觀測值xi就可以表示為真分數、係統誤差和隨機誤差3部分組成。根據前麵對效度的定義,大家一定能想到,這裏係統誤差δ和隨機誤差εi都會對測量工具的效度產生影響,而我們所說的信度則特指隨機誤差εi的部分,即xi=t+δ+εiεi~N(0,σe)信度被定義為一個測量工具免於隨機誤差影響的程度。我們可以先用直觀一些的方法來認識信度。下麵是3支溫度計A,B,C測量同一杯沸水(100攝氏度)5次的度數,你認為哪隻溫度計更有效,哪隻更穩定呢?測量次數ABC199961052100981053101103104410199105599101105很明顯,溫度計A最準,但C最穩定。因為C雖然測得不準,但測量5次的觀測值最一致,波動很小。因為信度是“隨機”的測量誤差,溫度計C的隨機誤差幾乎等於0,因此溫度計C的信度最高。但是這個方法隻是一個感覺上的信度的大小。我們如何能夠有一個比較客觀並量化的信度的估計呢?以下我們試試用一個例子來說明。假設我們有10位同學參加能力考試,他們真實的得分(真實能力)是第二列的數據。但是因為考試總有測量誤差,所以我們觀察到的得分是最後一列的分數(觀察到的能力)。學生真實能力誤差觀察到的能力陳一80+282趙雲65-164張東海77-374李莉莉76+379黃場82+284章博66+167何蕾88-484孟小思79+483方差52.9855.11從上表我們得知,如果隨機的誤差越大,“觀察得分”就會離開“真實得分”越遠。因此,隻要我們把這10位同學的“真實得分”的方差除以他們的“觀察得分”的方差,就可以知道隨機的誤差有多大了。為什麼呢?如果所有的隨機誤差都是0的話,“觀察得分”就會完全等於“真實得分”,這個“方差比”就會等於1。相反的,如果隨機誤差很大(接近無限大)時,“觀察得分”的方差就會比“真實得分”的方差大很多,而使兩個方差的比率接近0。因此,如果我們把信度定義為“觀察得分”與“真實得分”的方差比的時候,信度就會是一個介乎0與1的數值。信度等於0時,誤差無限大;信度等於1時,完全沒有誤差。用上麵的例子,這個“方差比”就是52.98/55.11=0.96。事實上,這個“方差比率”是信度的標準定義。如果我們用rxx代表信度,則信度係數(reliabilitycoefficient)=真實值的方差/觀測值的方差可用符號表示為rxx=σ2tσ2x(σ2t是真實值的方差;σ2x是觀測值的方差)還有一個表示信度的方法是真實值與測量值之間的相關係數,稱為“信度指數(reliabilityindex)”。
如果讀者有興趣,可以自己推導一下,就會發現“信度指數”的平方就等於“信度係數”。
rxx=σ2tσ2x=r2tx
但是我們現在有一個非常實際的問題,即我們不知道真實值是多少,所以無法估計信度係數或信度指數。那麼,我們有沒有替代的方法來表示信度呢?1)複本信度聰明的測量心理學家想出了有創意的計算方法(其實,應該說是估計的方法)。他們認為,對於同一個構念,如果我們可以用兩個不同的平行的方法來測量,而兩個測量的方法幾乎在所有的地方都相似,隻是隨機誤差不一樣而已(我們將第一個測量稱為x1,將第二個測量稱為x2),那麼,理論上它們的相關係數就可以間接作為信度的表示。嚴格的“平行測量(parallelform)”的意思是,兩個量表由內容和形式一一對應的項目構成,不同的僅僅是表述形式和措辭。例如,如果我們請應答者求x+3=8的解,是測量應答者數學能力的一個方法。那麼,上麵的題目的一個平行測量就可能是另外一道題目x-2=5。因為如果一個應答者的數學能力能讓他求出第一道題的解,理論上他一定能求得第二道題的解。如果應答者真的隻可以答對其中一道題,那另一道題的錯誤應該是隨機誤差了。我們再來舉另外一個例子。如果一個應答者知道“一敗塗地”這個成語的意思,卻不知道“一諾千金”的意思(大概是一個平行測量項目),那就很有可能是隨機的誤差而已。嚴格來說,對於不同的應答者,兩個平行測量複本應該是:①測量相同的構念。②對於不同的應答者有一樣真實值(truescore)。③有相同的平均值。④有相同的方差。⑤有一個正態分布的相同的隨機誤差。在平行的測量項目的條件下,兩個複本測量結果之間的相關,就等價於一個複本的測量結果與它自身的相關了。因此,複本間的相關係數越高,我們認為量表越穩定。這樣的信度我們稱為“複本信度(parallelformreliability)”。
兩個平行的複本的對於不同的測量者來說的平均得分是一樣,方差是一樣的,其實,它們唯一的區別就是隨機誤差不同(所以均值與方差都一樣)。如果我們有兩個測量的兩個複本x1和x2。基於經典測量模型的理論,不同的應答者在兩個測量複本的得分的相關,就是相關係數的一個估計,即rxx=rx1x2我們把這個定律的數學推導放到附錄2中。讀者可以試試了解一下其中的道理。2)重測信度複本信度需要兩個不同的測量複本,而複本有非常嚴格的要求,這在研究上不容易做到。但是與複本信度同樣的道理,我們可以在兩個不同的時間點,使用同一個量表測量對同一組答題者進行測試。如果構念的數值在這個時間內沒有改變的話,兩次測量的不同就純粹是隨機誤差了。兩次所得結果之間的相關係數稱為“重測信度(testretestreliability)”。
重測信度考察一個測量(如一個量表)在不同時間的穩定性。但重測信度在使用時有一個很重要的假設,即兩次的真分數沒有發生改變,所有的差異都可以歸為隨機誤差。Nunnally(1978)指出,過度追求重測信度也會帶來問題,很多時候我們感興趣的構念可能已經發生了變化,但由於項目特征的原因,卻不能反映在觀測值上;或者是這種變化反映在了測量值上,但我們卻把這種變化歸因為隨機誤差,認為量表信度低。因為存在這樣的問題,重測信度更適合在發展一些測量穩定特質的量表時使用,如人格特質量表。重測信度的數學推導與複本信度是完全一樣的,隻是前麵是x1和x2,現在變成在t1與t2的x而已,即rxx=rt1t23)內部一致性信度相比上麵兩種信度,管理學研究中更為常用的是“內部一致性信度(internalconsistencyreliability)”。
“內部一致性信度”主要用來評估量表內部指標之間的同質性。原因很明顯,根據我們前麵討論的根據古典測量模型發展出的量表的特點,所有的指標測量的是相同的構念,因此指標之間越一致,整個量表的隨機誤差部分也就越小。過去的研究者提出了不同的指標來評估指標之間的一致性。要明白內部一致性信度,我們要首先明白量表長度與信度的關係。我們知道信度是測量的隨機誤差。如果量表越長,且其他因素不變,隨機誤差會一直減少(用兩道題作測量,自然比用單一道題信度高;用4道題作測量,自然比用兩道題信度高,如此類推)。那麼,量表的長度與信度的關係是什麼呢?測量學家告訴我們:ryy=krxx1+(k-1)rxx
式中,rxx是原來測量的信度;ryy是當測量的項目增加k倍(假設增加的項目與原來項目的質量是一樣的)後的信度。例如,原來的量表隻有4道題;我們多增加8道題(新量表是原來量表項目的3倍),如果原來4個項目的量表的信度是0.6,新的12道題的量表的信度就會增加至0.82了。因此,當我們發展量表時,一個最簡單的增加量表信度的方法,就是多增加幾道題。這就是著名的SpearmanBrownformula。當一個量表的長度(項目數目)增加了k倍時,原有的量表的信度和新量表的信度的關係就會服從這個公式。我們在附錄3“信度與測量工具的長短的關係”中,把這個公式的推導過程寫出來,給有興趣的讀者參考。了解了量表長度與信度的關係,我們就可以講內部一致性信度了。例如,我們有一個10道題的量表,現在我們可以隨機地從量表中選出兩道題,這兩道題可以看成是兩個平行複本(每個平行複本隻有一道題)。於是我們可以計算這兩個平行複本的相關。但是,這個縮短了的量表隻有原來量表的十分之一(因為每個複本隻有一道題)。因此,“平行複本的相關”雖然是信度的一個估計,但是複本的長度隻是原本的十分之一,所以要用SpearmanBrownformula予以糾正。糾正了的相關就是這10道題的量表的信度的一個估計。但是,我們在上麵隻是隨機地選擇了兩道題。如果我們選用的是另外兩個隨機的項目的話,估計出來的相關經過長度修正後,將會是這10道題量表的另外一個估計。可是從10道題中,選取2道題,一共有C210=45種不同的可能性。如果我們每一個都試一試,我們將會有45個量表信度的估計。理論上一個10道題的量表隻會有一個信度,可是我們手上卻有45個不同的信度估計,那該如何是好呢?讀者大概也想到了,最合理的答案,就是求取45個信度的平均作為該量表的信度估計。用這個方法估計出來的信度,稱為α係數(Cronbachα)。也就是我們最常用的“內部一致性”信度係數(internalconsistencyreliability)。α係數也是在管理學研究中最為常用的信度係數。你在讀文章時一定也會發現,作者在彙報研究結果時,一般第一步都需要彙報所有變量之間的相關係數表,以及所有用到的量表在此次研究中的Cronbachα係數。因為這樣其他人才能夠判斷這些量表在你的研究中表現是否穩定,信度是否夠高。α係數可用下麵數學式計算為α=nn-1σ2t-ni=1σ2iσ2t
式中n——測驗所包含的指標數;
σ2t——每個答題者的總分之間的方差;
σ2i——第i個條目上所有答題者分數的方差。上式中的括號的分子中,把所有的方差σ2t減去個別的項目自己的方差σ2k(k=1,2,…,n),就剩下所有項目之間的協方差。因此,上式可改寫為α=nn-1σ2t-kσ2kσ2t=nn-1j≠kσjkσ2t
因此,項目之間的協方差(相關係數)越大,α係數就越大。這就是為什麼α係數會是項目之間的“內部一致性”的信度估計了。因為項目與項目之間的協方差越大,這10道題的“內部一致性”就越高。從上麵的公式可以看到,α係數是“所有項目的總協方差”與量表的“總方差”的比較。如果總協方差很小,就代表個別的項目的方差(方差在這個情形下就代表了項目的“獨特性(specificity)”,協方差代表了項目之間的“共同性(commonality)”很大。既然項目不會一同變化,就很難說它們是在測量同一個構念了。舉一個例子,A,B,C3個人回答了一個包含5個題目的量表。結果見下表,這裏的σ2t=7(是25,21,203個數的方差),而σ2i已經列在最右邊一欄中,σ21=1(是6,5,4這3個數的方差),σ22=1(是6,4,5這3個數的方差),因此,Cronbachsα就可以通過下麵的式子計算出來了。題項ABC方差16541.0026451.0035331.3344440.0054540.333.67總分2521207.00α=nn-1σ2t-ni=1σ2iσ2t=54×7.0-3.677.0=0.6以下是一個SPSS計算α係數的例子。為了簡化,這個量表隻有兩個項目,就是x1與x2。RELIABILITY/VARIABLES=x1x2/SCALE(′ALLVARIABLES′)ALL/MODEL=ALPHA/STATISTICS=DESCRIPTIVESCALECORRCOV/SUMMARY=TOTALMEANSVARIANCECOVCORR.講了那麼多不同的信度。
要輕鬆地記住它,我們還有一個形象的比喻。當要測量一個物體的溫度時,我們可以用手摸來感覺。此時,溫度是構念,手是測量工具。我們可以先用左手摸,再用右手摸,這是“複本信度”。
因為左右手的感覺是平行對稱的。我們也可以用同一隻手摸兩次,這是“再測信度”。
但是,我們得假設第一次摸了以後,不會影響我們第二次摸的感覺。我們也可以每次隻用一個指頭來感覺溫度,然後再綜合看5個指頭的一致性來推斷信度,那就是“內部一致性信度”了。一般的“內部一致性信度”(α係數)都會在0.8以上,如果是0.7則表明偏低了。如果低於0.7,該量表的信度就有問題了。相對於α係數,“重測信度”會比較低一點。有時候在0.5附近,都可以接受。4)“組合信度”與“平均方差析出量”細心的讀者會發現,前麵講的內部一致性信度都是基於古典測量模型假設的,因為我們假設這些指標每一個都能夠“無偏”的測量構念的真實值,所以才需要它們盡可能一致。但我們前麵講過,對於同屬測量模型來說,我們允許每一個指標測量構念的不同部分,這時我們就不能再用指標間的一致程度來估計。對於同屬測量模型,一般我們會用“組合信度(compositereliability)”和“平均方差析出量(averagevarianceextracted,AVE)”來表示它的信度。雖然我們不太常用複合信度,但實際上這種情況下,對信度計算更為直接。根據同屬測量模型,假設我們用3個項目測量y,那麼x1,x2和x3與y的關係如下:x1=λ1y+ε1x2=λ2y+ε2x3=λ3y+ε3也可用數學式表示為x=λky+εk根據信度的定義,我們需要知道“觀測值x的方差”和“真實值t的方差”。
為了得到兩個方差,我們做如下的推導:xk=λkt+εk
kxk=tkλk+kεk(t是真實值,對所有項目的λk來說是常數)
Varkxk=Var(tkλk+Varkεk)
Varkxk=kλk2Var(t)+Varkεk
假設Var(t)=1;所有的誤差為隨機的
Varkxk=kλk2+kVar(εk)根據定義,信度是真實值的方差與觀測值方差的比值,故rxx=kλk2kλk2+kVar(εk)這個信度係數我們稱為“組合信度(compositereliability)”。
同樣的道理,我們還有另外一種方式表示同屬測量模型中量表的信度,稱為平均方差析出量。與組合信度不同的是,這一次我們先求每一個測量項目的方差,再對它們加總:xk=λkt+εk
Var(xk)=λ2kVar(t)+Var(εk)
如果Var(t)=1,則
kVar(xk)=kλ2k+kVar(εk)根據信度的定義,則rxx=kλ2kkλ2k+kVar(εk)這個信度係數為“平均抽取的方差(AverageVarianceExtracted,AVE)”。
因為“組合信度”與“平均抽取的方差”的唯一區別是,前者首先把項目相加,然後計算方差;後者首先計算方差,才把項目的方差相加。因此,兩個都是信度的合理推導。一般我們報告時兩個都會采用。5)構成型構念的量表的信度估計對於效果指標,最常用的信度估計方法就是內部一致性(α係數)和再測信度(testretestreliability)。正如前麵討論過的,對於反映型構念,我們假設所有的項目測量同一個構念,因此討論項目的內部一致性信度是合適的。但是,對於構成指標,卻不一定如此(BollenandLennox,1991;Cohenetal.,1990;MacCallumandBrowne,1993)。實際上,一個構成型構念的不同指標之間有可能是正相關、負相關,或彼此沒有關係的(BollenandLennox,1991,p.307)。這樣,我們再用傳統的估計方法去檢驗這些指標之間的相關關係就沒有太大意義了。因此,對於構成型構念的量表,再測信度是一種更可取的估計信度的方法。因為在估計載荷的時候我們還需要在結構方程模型中放進其他的結果變量,使用不同的結果變量會產生不同的構成指標的載荷,所以研究者在估計再測信度時也必須使用完全相同的結構方程模型(即是完全相同的結果變量)。8.4量表編製與開發有的時候,我們在理論中提出的新構念可能是過去的學者未曾討論過的,因而就沒有成熟的量表可以使用。這個時候我們首先要做的是考慮這個構念是否真的是新的,是不是其他學者用不同的名稱命名過類似的現象。如果經過檢查之後,發現確實沒有,為了檢驗理論,你可能就需要自己發展量表了。我們前麵說過,如果隻是憑感覺寫幾個題目就用於測量是非常危險的。在這一節中我們會討論量表發展的基本程序,希望在未來需要的時候,你也可以遵循嚴謹的程序,發展自己的量表。學者們大都會同意,並沒有一個唯一標準的量表開發程序(Hinskin,1998),因此,你可能會看到不同的研究中大家的做法有不同。但總的來說,心理測量學中已經有了一套比較完善的量表開發方法,我們建議大家在熟悉這個過程的基礎上,再考慮進一步的改進和創新。
1)第一步:明確你到底要測量什麼很多時候我們以為自己已經很清楚要測量什麼,但實際上需要準確地描述出來時才發現自己並沒有想清楚。很多初學者做研究時也是如此,覺得大概有個感覺就開始畫模型,但實際上對於每個概念的定義還沒有完全清晰。構念的定義決定了整個量表的測量目標,沒有清楚地對構念進行定義就開始發展量表,很可能使得後麵的工作都變得徒勞無功,而同一個構念也可以因為定義不同,發展出不同的量表的。“創新”就是一個例子,當你去查閱有關創新的文獻時,會奇怪為什麼每一個測量都不一樣,但如果你去認真閱讀每一位作者在其研究中對創新的定義,就會發現他們一定都是從特定角度定義創新的,這是由他們各自的興趣和關注的現象決定的。明確構念的定義不單單是用一句話說清楚它是什麼,同時還包含了其他一些相關的內容,這都是需要在此時思考的。下麵列出了一些可能的問題,當然不僅僅局限於這些:①這個構念所描述的現象包括多大範圍?是否有邊界?(如當你在重新定義“領導與下屬關係”時,是在討論他們哪方麵的關係?隻是工作關係,還是包括私人關係)②這個構念的應用範圍有多寬?(如你準備以餐飲類服務人員為樣本發展一個“服務傾向”量表,你準備發展一個專門針對餐飲類服務人員的量表呢,還是一個普遍適用於各種類型服務人員的量表)③構念的測量層次是什麼?一般來說,當給出構念的定義時,測量層次已經確定了,隻是有時我們不太會注意這個問題(如團隊效能感這個構念,如果你把它定義為每個團隊成員對其所在團隊完成任務的能力的信心,那麼它就是一個個體層麵的構念,但測量時需要請個體對整個團隊作出評價)。本書的12章中也會專門探討這個問題。④理論上,是否知道構念是單維度還是多維度,或是完全是探索性研究?這個問題決定了在第二步編寫備選項目時要用什麼方法。2)第二步:編寫備選項目(itempool)明確了量表的目的以後,接下來的工作就是編寫一大批備選項目,從而形成一個項目池,作為最後選入量表的候選項目。這麼多的項目從哪裏來呢?一般有3種方法可供選擇。第一種是歸納法(inductiveapproach)。如果我們對於被測構念的關鍵指標和內部結構尚處於探索階段,我們可能需要用“自下而上”的方法通過定性研究收集測驗內容。一般的做法是研究者通過各種途徑(如關鍵事件訪談、個人訪談、小組訪談、開放式問題等)收集構念的不同外在表現的描述,再進行篩選,刪去內容明顯不符的。一個直觀的操作方法是,把收集來的描述做成小紙條,每張上隻寫一條描述,再用小紙條來做分類和篩選。Farh等(1997)以及Rotuado和Xie(2006)的研究都用了歸納法來收集原始項目,值得讀者學習和參考。歸納法的優點是所有的項目都直接來源於實踐,而且可以產生豐富的項目供選擇。但它的缺點是,盡管研究者會提供給應答者對於構念的定義,但無法避免的是,應答者對於定義的理解與研究者的初衷可能還是存在偏差,這樣使得收回來的條目範圍要遠遠大於研究者所希望的。對於後期的篩選也有較高的要求。第二種方法是演繹法(deductiveapproach)。
如果研究者對於構念的內容和結構有充分的把握和理論支持,也可以選擇演繹法,即由研究者自己或研究團隊一起基於對構念及其每個維度的定義和理解,盡可能多地寫出可以反映構念的指標,以供篩選。演繹法的優點是保證了產生的項目確實都可以反映研究者所要測的項目,缺點是由於脫離現實,可能難以想到一些實際存在的指標,或者列出的指標雖然可以反映構念,但在現實中不一定常見。第三種方法結合了前兩種的優點,並力求避免它們的問題,我們稱為組合法(combinedapproach)。顧名思義,這種方法結合了歸納法和演繹法。用這種方法項目可以有3個來源:管理者或員工、研究者和文獻。如果研究者對於構念的結構已經有了明確的定義,可以先就每一個維度給出定義,收集條目,這樣收集的條目也會更具針對性。而不用完全從收集上來的項目中探索維度。一個可以參考的例子是Bennett和Robinson(2000)的開發工作不良行為量表的研究。不管用什麼方法,得到的項目需要經過第一輪初選以減少數量。對於明顯與測量內容不符的條目經過幾個研究者一致同意後可以刪去,對有爭議的條目建議保留。對於明顯重複的可以刪去重複的條目隻留下一個,但建議記下出現的頻次,以供進一步篩選時參考。總之,這個步驟的原則是盡可能多地收集到與構念定義相符的、可以從各個方麵反映該構念的指標。這個時候刪減條目一定需要謹慎。3)第三步:選擇問題形式和答題形式我們收集到很多備選項目後,還需要把它們變成答題者能夠回答的問題。同一個問題可以以不同的形式呈現出來。我們在這裏隻討論3方麵的內容:選擇什麼樣的量表類型,好問題與差問題的特征,答題的分數度量方式。心理測量中有很多不同的量表形式,如哥特曼型量表(Guttmanscale)、語義差別量表(Semanticdifferentialscale)、裏克特型量表(Likertscale)等,其中裏克特型量表是我們最常用的。我們在這裏重點討論一下。裏克特量表常常用在請答題者評價對於一個陳述的同意程度時,它用等級量表給出不同的程度,請答題者選擇。例如:我和別人談論我們公司時常常會使用“我們”。
a.非常同意b.同意c.無所謂(不確定)d.不同意e.非常不同意雖然我們看到這裏的5個選項隻是一個程度的排序,但我們在分析數據時,是把裏克特量表測量的數據當作定距尺度的數據來分析的,因此可以做各種複雜的分析。隻是我們自己需要清楚,裏克特量表中的一個重要假設就是相鄰兩個選項之間的距離相等。那麼,到底用幾點量表比較好呢?很多心理學家對不同點數對測量結果的影響進行了研究,發現4點、5點、6點、7點、8點、9點量表對於結果並沒有顯著的影響。因為這個原因,如果原始量表中作者用的是5點量表(從“非常同意”到“非常不同意”),那你根據自己問卷的需要改為6點量表是完全沒有問題的。但點數也不是越多越好,如果你用30點的量表,不但答題者自己都區分不出25與26的區別,而且也使得A答題者的25與B答題者的25所表達的程度可能已經相差很遠而不具有可比性了。
另外,Wakita,Ueshima和Noguchi(2012)的研究也發現相比4,5,7點量表,如果用10點以上的量表,對答題者判斷選項間距離會有一定影響,使得用10點量表測出的平均分會偏低。在中國情境中使用裏克特量表有一些經驗可以供讀者參考:首先,如果可能的話,盡量不用反向記分的題項。這可能是因為大部分中國人不習慣表達極端的負麵看法,所以遇到反向的題目時會對自己的回答略微調整,因此答題者對反向記分題選3時(6級量表),並不等於可以直接反過來,相當於正向題的4。其次,設置選項時,設置偶數個選項可能要好過用奇數個選項,目的是盡量不給答題者機會選中立項,而是要求答題者表達出正麵或負麵的傾向。問題沒有固定的形式,但一般來說有下麵一些標準:
①簡短的問題比冗長的問題好。②具體的問題比抽象的問題好。③簡單的問題比複雜的問題好。④單一內容的問題比多個內容的問題好。⑤肯定句的問題比否定句或多重否定句的問題好。我們還要清楚,用不同的方法去問會得到不同的答案。研究人員要小心計劃。例如,如果你想知道一個員工對企業的認同感,你可以問:①我的企業好,就代表我好。(態度)②我常常在朋友目前說自己公司的好話。(行為)③別人都說我對公司像是我自己一般。(參考係改變)④我覺得我對公司很投入。(感覺)上麵的分歧在測量小組資料是尤為明顯。例如,你想知道一個小組是否團結。Chan(1998)介紹了幾種不同的測量方法。我們覺得其中兩種是最明顯的。第一種稱為“小組共識(groupconsensus)”。
我們可以問:①我們小組組員都非常團結。②我在小組中表現非常團結。然後把組員的打分加總或是平均。這樣的話,是應答者如何看這個小組的團結。不過我們要注意:是應答者覺得成員如何;還是應答者自己如何。但是我們也可以同時問:①我們小組成員都覺得我們的小組非常團結。②其他的人都說我們的小組非常團結。這稱為“參考轉移(referenceshift)”。
自然我們還是需要問所以組員,然後加總。但是這一次參考就不是應答者本身,而是其他組員;或是小組以外的其他人。對於這個問題,我們覺得沒有絕對的好與壞,隻是似乎研究者希望測量的到底是什麼而已。4)第四步:請專家和測量對象評審備選項目請專家和測量對象評審備選項目的原因是保證測量工具的內容效度,以及字麵上沒有晦澀難懂、意思模糊的地方。這裏的專家指對你的構念的內容和結構比較了解的研究者,請他們對比測量構念的定義和測量項目對幾個方麵進行判斷:測量指標是否能夠代表被測構念,是否能夠覆蓋測量範圍。而測量對象是指你的正式研究中要施測的樣本類型,如你是測量教師的工作倦怠,那就應該在這個步驟中邀請幾位教師幫你檢查測量項目,看是否在內容、表述和用詞上有不符合他們習慣的地方。對他們提出的建議,研究小組需要再做討論。為了提供內容效度的證據,也可以考慮用定量的方法,我們在前麵討論效度的部分已經介紹過,這裏就不贅述了。5)第五步:預試——量表檢驗與修訂經過前幾個步驟編好的量表就可以進行預試(pilotstudy)檢驗了。一般情況,新發展的量表至少需要經過至少兩個階段的預試。第一階段預試的主要目的是檢驗構念的結構效度,一般用因子分析的方法。這時,如果結構效度達不到要求,不可以輕易刪去載荷不好的項目,而需要討論分析每一個項目,確實是內容偏離的項目才刪去,如果是字詞歧義可以修改字詞讓意思表達更加清楚。這個過程中需要把所有刪改的過程記錄下來作為參考。量表經過第一輪修訂,結構效度達到要求後才能夠進入第二輪預試。第二階段預試的主要目的是對量表的效標效度、邏輯關係網、區分效度、聚合效度以及信度等進行檢驗,如果不能夠達到要求(如觀測到的關係與已有的理論關係不符,或者信度較低),仍然需要討論後進行修訂再重複進行檢驗。由於每一次的預試都不能使用同樣的樣本,而且每一次結果都需要經過幾名研究者共同討論決定修訂方案,因此,量表開發的過程可能要持續很長時間。研究者如果決定開發新的量表,要有充分的時間準備,否則中途因為時間問題,用一個尚未完成的量表做研究,反而得不償失。最後,研究人員在預試時應該盡量收集信度和不同的效度(內容效度、結構效度、效標效度、區分效度、聚合效度)的證據,以支持量表的可用性。關於這個問題,沒有學者嚐試規定到底要有什麼證據,才可以斷定量表是有信度和效度的。我們覺得基本的信息,如內部一致性信度、內容效度、結構效度、效標效度等都是不可或缺的。關於量表開發的原理和具體操作問題,在本章末尾也有一些推薦的閱讀材料供有興趣的讀者參考。測量學是一門頗為數學化的學科。也正因為這個原因,讀者可能會覺得這一章稍微有點難懂。我們在這裏盡量用最短的篇幅、最簡單的形式把一個頗為複雜的學科的精要表達出來。我們首先介紹了構念。構念分為單維構念與多維構念兩種。測量單維構念可以構成指標,或是效果指標。我們的建議是,盡量不要使用構成指標。因為它違反了很多原來測量學中的基本假設。類似於構成指標和效果指標,多維構念的維度與多維構念的關係,可以是“潛因子型”的、“合並型”的和“組合型”的。“潛因子型”多維構念與效果指標有根本上的不同。前者是維度與多維構念的關係。維度與多維構念在本質上都是構念,都是看不見的,抽象的。但是“合並型”的多維構念卻是看不見的構念,與看得見的測量項目的關係。正因為這個不同,雖然我們不鼓勵大家使用效果指標,使用合並型的多維構念卻全無問題。因為合並型的多維構念本身是可以用效果指標直接測量的。簡單地說,測量學考慮的是當我們用有形的項目來代表無形的構念時,當中會出現的誤差。有係統的誤差,我們稱為效度。隨機的誤差,我們稱為信度。效度主要分為內容效度、效標效度和構念效度(主要指聚合效度和收斂效度)3種。但是它們不是三種不同的效度,而是從三個不同的角度來看效度的不同結果而已。同樣的,信度可以從三個不同的角度來看,分別是複合信度、重測信度和內部一致性信度。最後,我們也談到當沒有現存測量工具時,研究人員如何發展自己的測量量表。但是,發展量表是一項艱巨費時的工作。我們的建議是除非沒有選擇,不然還是盡量選用現存量表和測量工具為佳。
rtx=Cov(t,x)σtσx(相關係數是協方差除以標準差)rtx=Cov(t,t+ε)σtσx(經典測量模型x=t+ε)rtx=Cov(t,t)σtσx(隨機誤差ε與所有變量都沒有協方差)rtx=σ2tσtσxrtx=σtσxr2tx=σ2tσ2x=rxx
2信度可以表現成兩個平行複本的相關係數x1=t+ε1如果我們有n個應答者。對於這n個應答者來說:Var(x1)=Var(t)+Var(ε1)同樣的,Var(x2)=Var(t)+Var(ε2)x1與x2的協方差=Cov(x1,x2)=Cov(t+ε1;t+ε2)=Cov(t,t)+Cov(t,ε2)+Cov(t,ε1)+Cov(ε1,ε2)=Var(t)(隨機誤差不會與任何變量有協方差)x1與x2的相關係數=Corr(x1,x2)=Cov(x1,x2)SD(x1)SD(x2)=Var(t)Var(t)+Var(ε1)Var(t)+Var(ε2)如果x1與x2的隨機誤差的方差是一樣的話,則=Var(t)Var(t)+Var(ε)=Var(t)Var(x)=rxx3信度與測量工具的長短的關係
我們首先考慮把量表倍1倍的情形。如果:y=x1+x2,而x1與x2是複本(也就是把原來的測量倍了1倍),則首先我們計算兩個平行複本的“真實方差”y=x1+x2(ty+εy)=(tx+ε1)+(tx+ε2)ty+εy=2t+(ε1+ε2)Var(ty+εy)=Var(2tx+ε1+ε2)Var(ty)=4Var(tx)[注:隨機誤差與任何變量都沒有協方差]與此同時,兩個平行複本的“觀察方差”為Var(y)=Var(x1+x2)=Var(x1)+Var(x2)+2Cov(x1,x2)=Var(x1)+Var(x2)+2SD(x1)SD(x2)Corr(x1,x2)(因為x1和x2是兩個平行的複本,根據平行複本的定義,SD(x1)=SD(x2)=SD(x))=2Var(x)+2Var(x)Corr(x1,x2)=2Var(x)[1+Corr(x1,x2)]因為兩個平行複本的相關就是信度,則Var(y)=2Var(x)[1+rxx]有了“真實方差”和“觀察方差”,我們就可以計算ryy了,即ryy=Var(ty)Var(y)ryy=4Var(tx)2Var(x)[1+rxx]從上式中分子分母都除以2Var(x)ryy=2Var(tx)Var(x)1+rxx根據rxx的定義,則ryy=2rxx1+rxx數學上可以把這個推導引申到k倍的量表,則ryy=krxx1+(k-1)rxx。