正文 第8章測量(1 / 3)

學會了回歸分析,丟丟對自己做高水平的研究有信心了。現在丟丟對抽樣的隨機誤差已經有一定的知識。他知道可以用大的樣本或是置信區間等來解決抽樣的隨機誤差問題。但是丟丟記得,李老師在前幾次常常談到的一件東西,是他從來沒有學過的。李老師說研究是有測量誤差的。這到底是怎麼一回事呢?做研究不就是收集數據、發放問卷、看看有沒有二手資料等嗎,會有什麼測量誤差呢?這天丟丟決心去找李老師談談,看看這究竟是什麼。丟丟:“老師,上次謝謝您教了我如何減少抽樣的隨機誤差和用多重回歸、多層回歸去控製所需變量,以找到理論變量的關係。”

李老師:“不用客氣,丟丟,這是我應該做的,難得你有一份學習的堅毅意誌。”

丟丟:“老師,我記得你前幾次常常提到做研究要控製好測量誤差。這到底是什麼呢?”李老師:“丟丟,《三國誌·魏誌卷》曾經有這樣一個記載。孫權曾經送了一頭大象給曹操。曹操想知道大象有多重,但是卻苦於沒有這麼大的秤,於是就問旁邊的人,誰有本事知道大象的重量?結果曹操的兒子曹衝想出了一個很聰明的方法來估計大象的重量。這個故事你知道嗎?”丟丟:“李老師,這是著名的‘曹衝稱象’的故事。我當然聽過。他用了一條船,讓大象站在上麵,記下了船因為象的重量下沉的高度。再用一塊塊的石頭放到船上,一直到大象下沉的刻度。於是,一頭大象的重量就變成很多塊可以衡量的石頭的重量了。”

李老師:“對的,丟丟。‘重量’是抽象的,直到我們用可行的方法,把這個抽象的概念變成實在的石頭,我們才知道大象重幾斤。所以測量是把抽象的概念,變成可見的東西的過程。但是這個過程不是完美的,其中的誤差,就是測量的誤差。”

丟丟:“老師,現在我明白了。就如象站在船上,如果當時稍有波浪的話,船的刻度就會受到影響。”

李老師:“丟丟果然聰明,一點就明白了。”

丟丟:“老師,但是既然象的真實重量是不知道的。我們怎麼估計,用船測量象的重量時有多少誤差呢?”李老師:“這是個好問題。心理學家發展了一門學問,稱為測量學(psychometrics),就是為了解決這個問題。”

丟丟:“測量學?我從來沒有聽過這個名詞啊!”李老師:“丟丟,做研究不懂測量學,就好比打球的人不懂握球拍一樣,如何打得好球呢?又如一個喜歡旅行的人,到了外國卻被蒙著眼睛,隻靠雙手到處亂摸,如何能欣賞當地美好的風光呢?”丟丟:“如果測量學這麼重要,老師可以教我嗎?”李老師:“當然可以!現在就讓我們上一堂測量學入門課吧。”

前麵已經討論過,管理科學實際上是用抽象的理論來解釋管理現象,組成理論的基本元素是變量與變量之間的關係。它們之所以稱為“變量”,是因為這些東西在不同的時間,或是不同的人身上,是會改變的。例如,企業的業績每年都不同,員工的滿意度也隨著環境因素不停地改變。但是在測量學中,比較少用“變量”這個詞。測量學家關注的是這些會改變的概念的另外一個特點,它們被稱為“構念(construct)”。

“構念”就是構想出來的概念的意思。我們做研究的變量全都是研究學者自己構想出來的概念,用來描述我們現實世界的景象,它們本身可能根本不存在。例如,牛頓因為看見物體有往下掉的傾向(實際的觀察經驗),就構想出“萬有引力(gravity)”這個概念。又如,我們看見企業裏有些人對企業一片忠誠,常常說企業的好話,願意為企業賣力(實際的觀察經驗),就構想出“企業認同感”這個概念。可是到底萬有引力是否真的存在呢?企業的員工是否真的有認同感這個東西呢?我們構想出來的構念到底是不是真的呢?或者有哪些是真的呢?有些學者覺得有些構念是真實的,有些不是。另外一些學者卻認為,構念完全是為了建構理論而“構想”出來的,本身根本就不存在。但是無論你是哪一個學派的,我們都要同意一點,就是構念無須真實存在。因此,下一次當你被困在自己的研究問題中,突然在想“我研究的這個東西是不是真實存在”的時候,你大可放開心胸,因為它“沒有真實存在的需要”。

隻要你的構念所組成的理論能夠實在、精確地描述管理現象就可以了。讓我來舉個例子,我打你一拳,你感覺“痛”。

“痛”是一個我們建構出來的構念。到底這個世界有沒有痛這個東西呢?神經學家會告訴你,痛不是真實存在的。痛隻是神經細胞受刺激後大腦作出的一個反應而已。但是,無論“痛”是否真實,都可以建構很多與痛有關的不同理論來解釋很多真實的現象。例如,針灸是根據脈絡運行而建立的理論,同時針灸是明顯可以舒緩很多不同的痛症的。這個結果與觀察是真實的現象。因此,抽象的痛症(無論它是否真實存在),可以成為中醫經脈的一個變量,讓我們去研究人體經脈的理論。因而客觀地去測量“痛”是一個很大的問題。這也是我們這裏要討論的中心。“構念(construct)”是抽象的,如“認同感”“幸福感”“工作壓力”等,並不能夠直接觀察研究。我們不能對抽象的構念做研究,因為抽象的構念是看不見摸不著的。為了連接抽象的構念與具體的現象,我們需要一個重要的橋梁,這道橋梁就是“測量(measurement)”。

西方的測量學對如何知道測量的誤差有一套頗為嚴謹的理論,我們稱之為“測量理論(measurementtheory)”。

這一章就是簡單講講測量理論。由於扮演著連接具體現象與抽象概念的角色,測量的好壞直接決定了一個研究的結果是否可信。就算理論是好的,但是測量的時候出錯,很可能就無法獲得顯著結果。相反,你的理論可能根本是錯的,但是測量的時候出錯,也有可能誤打誤撞,觀察到顯著結果。這種情況下更有可能是因為測量的問題,而產生變量間的“假象性(spuirous)”關係。我舉個例子,測量學裏有一個在管理學上非常流行的詞,稱為“同源相關(commonmethodvariance,CMV)”。

兩個變量本身可以沒有關係,但是因為用同一個方法來測量,使它們有一個“偽相關(spuriouscorrelation)”。

例如,如果我在一份問卷裏相繼問你兩個問題:①你經常幫助朋友嗎?同意12345不同意②你會對朋友說謊嗎?同意12345不同意我可以保證,你會發現這兩道題的答案是相關的。為什麼呢?因為兩道題都會受到同一個變量的影響。心理學家將其稱為“印象管理(impressionmanagement)”。

人都是希望給別人一個好印象的。我當然會說,我會幫助朋友。我也當然會說,我不會騙自己的朋友。因為有“印象管理”的影響,“幫助朋友”就必然與“不會對朋友說謊”連上關係了。但是如果我問你“你會對朋友說謊嗎?”然後去問你的同事平時對你的觀察,“他是否經常幫助朋友?”,這兩者的相關就會大大減少。因此,測量學中的“如何問?”“何時問?”“向誰問?”等就成為研究結果是否顯著的一個重要因素了。本章中我們會一起討論下麵這些內容。首先是測量的基本概念和原理。在對一個抽象的概念進行測量時,我們常常會用現實世界中的一些指標(indicator)來測量這些抽象的構念。例如,溫度計上的讀數就是表示溫度的指標,問卷調查中的心理量表也是一類常見的指標。在8.1節中,我們將會討論用不同類型的指標測量單維構念(unidimensionalconstruct)的方法;然後會討論多維構念(multidimensionalconstruct)的測量問題;在8.3節中我們會探討如何評價一個測量工具的好壞。這些標準不但適用於我們評價和選用已有的量表,也可以用來作為自己發展量表時的檢驗標準;我們也會討論問卷調查中,不同的參考架構(frameofreference)的問題;最後,我們會在8.4節討論如何開發量表,以及翻譯量表的操作性問題。8.1測量的概念和基本原理8.1.1什麼是構念?測量是一項基礎性的研究活動。管理學幾乎每一個理論中都有不止一個構念。研究者創造出很多構念是因為這些構念有助於把複雜的管理現象用最簡單的詞概括出來。正如Nunnally和Bernstein所說的,構念是“抽象的、潛在的,而不是具體的、可觀察的”(1994,p.85)。相反地,用來在現實世界表示構念的“測量”工具(measures),就一定要是具體的、可觀察的。為什麼研究者需要創造出那麼多構念呢?我們用大家熟悉的“速率”作為例子。即使是小朋友都知道烏龜和兔子行走的快慢是不一樣的,但對於物理學家來說,僅僅用快慢作為描述是遠遠不能達到研究要求的。於是科學家創造出“速率”這個概念來描述物體移動的快慢。這樣,對於一個移動物體,在任一時刻,它的速率都可以用一個具體的數值來表示。而科學家所要做的隻是找到一個好的測量方法來盡量準確地測出這個數值。同樣道理,管理研究者們創造出“組織認同感”這個概念,是因為他們發現一個員工在多大程度上願意用組織成員這個身份來回答“我是誰”的問題很重要,這會影響員工的很多行為,因此就用“組織認同感”這個構念來描述員工的這個心理狀態。但現實世界中是沒有一個稱為“組織認同感”的東西的,它是研究者們為了做研究而創造出來的。我們為了發展理論而構造出的這類特殊的變量就被稱為“構念”。

構念是由研究者構造出來的,但並不是任何一個抽象詞都可以作為構念,構念需要具備下麵3個特征:構念是抽象的、不可直接觀察的;構念是與理論和模型相聯係的;構念的定義是清晰而明確的。首先,因為構念包含了一定量的複雜信息,所以一般都是抽象和不能夠直接觀察的。我們不會說“部門”是一個構念,因為這個概念已經非常具體,隻要定義清楚,就可以直接觀察和計數。而部門內的“合作氛圍”則是一個構念,是很多信息的綜合,由於並不存在合作氛圍這樣一個客觀的事物,因此我們不能直接觀察它。其次,構念是用於建構理論的。如果沒有任何一個理論用到“速率”這個概念,這個概念就沒有什麼意義了。同樣的,研究者提出“組織認同”這個構念,就是因為他們發現一些員工是否在內心把自己視為組織的一員會直接影響他們的工作行為,而解釋這種影響才是研究者的目的。既然構念是人們建構和設想出來的,就有可能並沒有反映出事實本身的真相。例如,我們都知道聲波可以用空氣作為媒介進行傳遞,在這個觀點的基礎上,物理學家曾提出了“以太(ether)”這個概念來表示一種普遍存在於宇宙中的不可見的物質,想以此來解釋光波和電磁波在太空中是如何傳播的。然而,這個概念後來被證明是錯誤的。現在,我們知道光波和電磁波可以在沒有任何媒介的真空中傳播。於是,理論上就不再需要“以太”這個概念了。從這個角度看,隻有當構念被用於一個理論中,並可以解釋和預測我們觀察到的現象時,這個構念才是有用的。管理研究中也是如此,如果一個管理學構念能夠被用於發展理論或建構新的理論,並用來解釋和預測管理現象,那麼這個構念對於我們的研究是有意義的;相反,有不少研究者為了使自己的研究看起來新穎而創造新構念,但對理論並沒有實質的幫助,這樣的構念會像流星,很快就無人使用。我們舉個例子來說明什麼是有用的構念。在20世紀80年代中期,班杜拉提出了“集體效能感(collectiveefficacy)”的概念。它最早源於“自我效能感”的構念,是其在團體層麵的擴展和延伸,指團體成員對於團體成功地完成特定任務或取得特定成就的能力的共同信念(如Bandura,1997;Goddard,Hoy,&WoolfolkHoy,2000)。從產生過程看,集體效能感是通過團體互動和集體認知的過程建立起來的,這與自我效能感的形成過程完全不同。並且,集體效能感與個體效能感的相關很低,也說明這兩個構念在很大程度上是相對獨立的。另外,集體效能感這一構念在教育、社區、政治、體育、工業與組織行為等領域的研究中都被關注和使用,因為它可以解釋並預測一些原有的構念不能解釋和預測的現象。所以我們可以稱“集體效能感”為有用的構念。最後,一個構念應該是清晰的、有明確定義的。如果隻看上麵第二個條件,似乎隻要我們找到一個預測力很強的構念就可以拿來用了,但很多預測力強的構念由於包含了過多的內容,在定義上難以達到清晰明確的標準。例如,美國學者盧桑斯(Luthans,2004)提出了心理資本(psychologicalcapital)的概念,將心理資本定義為個體在成長和發展過程中表現出來的一種積極心理狀態。不少學者在其之後做了大量研究,發現心理資本的確可以預測工作績效、工作感受、職業發展等。那心理資本到底包含了哪些內容呢?盧桑斯等人(Luthans,YoussefandAvolio,2007)對心理資本的定義進行了修訂,認為心理資本是指“個體的積極心理發展狀態,其特點是:(1)擁有表現和付出必要努力、成功完成具有挑戰性的任務的自信(自我效能感);(2)對當前和將來的成功做積極歸因(樂觀);(3)堅持目標,為了取得成功,在必要時能夠重新選擇實現目標的路線(希望);(4)當遇到問題和困境時,能夠堅持、很快恢複和采取迂回途徑來取得成功(堅韌)”(p.3)。對於一個管理實踐者來說,這個定義可能已經足夠明確了;但對於嚴謹的研究者來說,可能需要多問一些問題。心理資本表示一個人哪方麵的特征呢?是個性特質還是能力?和其他個性特質或能力的構念能夠區分嗎?它是幾個已有構念的統稱和綜合嗎?如果這些問題都不能夠很好地回答,我們就需要質疑這個構念本身的定義是否清楚了。因此,一個有很強解釋力的構念如果沒有清晰明確的定義,也不一定能成為一個好的管理構念,因為我們很難使用定義模糊的構念發展一個精確的管理理論。“清晰的、有明確定義的”這個對構念的要求,換句話說,也就是構念所代表的範圍應該是適當和清晰的。首先,範圍的適當也就是既不能太寬泛,也不能太狹窄。例如,如果我想建立一個新的構念,稱為“員工感受(employeefeeling)”,這個構念包含了員工一切與企業有關的感覺。這樣的一個構念就很成問題了。因為“員工感受”談的是哪一方麵的感受呢?對什麼的感受呢?如果我在企業中認識了一個同事,發現自己很喜歡她,並希望她與我成為男女朋友,這樣的戀情是“員工感受”的一部分嗎?反過來說,構念也不可以太窄。如果我發展一個新的構念,稱為“員工對上司的能力的滿意度”,就很難用這個構念發展理論。同時構念一定是要簡單、清晰的。我們不可以建立一個構念,稱為“員工因為工作的壓力,而產生的離職傾向”。

這樣做的話,就把理論因果都定義在構念裏麵,無須再建構任何理論了。8.1.2構念的測量管理構念本身都是抽象的,如果沒有方法把它們與具體現象聯係起來,並且用數字把它們的程度表示出來,我們就不能夠使用這些構念做實證研究。史蒂文斯(Stevens)在1946年提出,測量是“根據法則給客體或事件指派數字”。

例如,物理學中的溫度是一個抽象概念,我們無法直接觀測和測量熱量的多少,於是發明了水銀溫度計來幫助我們測量溫度的高低。通過給不同水銀柱的高度標上相對應的溫度的數字,就可以對溫度進行測量了。在這個測量中,雖然溫度(構念)這個概念是抽象的、不可直接觀測的,但是溫度計(測量)上的讀數是客觀而具體的。當我們通過一些方法收集看得見的資料為一個構念所代表的屬性指派數字時,就是對這個構念的測量(measurement)。指派數字可以有不同的方法,可以用一個客觀指標作為構念的測量,如用ROA(returnonasset)表示企業的績效;可以用一個邏輯上與構念密切相關的指標來作為替代物(proxy)間接測量構念,如用學校的成績來代表一組學生的智商;還可以用量表對構念進行測量,如工作壓力量表可以用來測量個人感知的工作壓力的大小。管理研究中測量用得最多的就是量表。因此,在這裏重點討論量表的方法。讓我們一起考慮這樣一個例子。我們如何知道一位主管支持下屬的程度?你可能已經想到很多方法,如讓主管自己報告是否支持下屬,讓下屬報告是否感覺到被支持,或是讓其他部門的主管從旁觀者的角度評價;你還可以列出一串“支持行為”的清單,請下屬選出他們所看到的,或者幹脆你自己在旁邊觀察記錄主管的行為;你甚至可以製造一個下屬遇到困難的情景,看主管會如何反應。雖然你心裏可能已經對哪個方法可能更有效有了自己的判斷,但這些方法都可以在某種程度上反映出我們所希望知道的主管支持下屬的程度,因此,對任何構念的測量都不存在唯一的方法。在確定了一個構念的定義以後,測量一個構念可以有很多不同的方法,它們在某種程度上都可以作為這個構念的表示。我們把這些測量稱為這個構念的“指標(indicator或是measure)”。

在上麵的例子中,主管對下屬的支持是一個抽象的概念,但是如果這種支持可以表現為可觀察的行為,就可以測量了。例如,我們可以采用請下屬彙報他所觀察到的主管的行為的方法,在調查中問一位員工對下麵一個陳述的同意程度:不同意同意主管常常和我討論我工作中遇到的困難12345這樣,這位員工對這個陳述的選擇就可以作為“主管支持”這個抽象構念的一個可觀測指標。如果這位員工選擇了5,表示基於他的觀察,主管常常和他討論工作中遇到的困難,在很大程度上意味著主管對其支持程度較高。現在我們測量出了這個構念,希望檢驗我們在理論上“主管支持與離職傾向負相關”的關係。

可以得知,測量不好,研究就很成問題。因為我們感興趣的是“主管支持”和“離職傾向”的關係。但是我們卻是在計算兩個指標的相關係數。如果指標不能代表構念,指標的相關就沒有意義了。1)不同類型的測量在測量學裏麵,有4種不同的“度量尺度”。

顧名思義,度量尺度就是測量的“尺”。

例如,量長度時,你可以用一把尺,你也可以用繩子,你甚至可以用手掌或手肘。同樣,在測量一個構念時,我們是可以用不同的“尺子”的。測量學中講的4種尺子,是定類變量、定序變量、定距變量和定比變量。第一種度量尺度是“定類變量(nominalscale)”,或稱“類別尺度”。

類別尺度是一些一組一組的分類。它們沒有大小的比較,也不可以做數學的運算。例如,性別有兩種,男與女。企業所有權有5種,國有企業、合資企業、私人企業、鄉鎮企業、外資企業。我們可以運用這些組別作為虛擬變量(dummyvariables),但我們不會把“男”加“女”;“國有企業”乘“合資企業”。

而且,每一個虛擬變量隻有兩個值,一般是0和1。第二種度量尺度是“定序變量(ordinalscale)”,或稱“排序尺度”。

定序變量其實就是排序的數據。例如,我們可能給應答者3個選擇工作的標準,就是工資、前途和人際關係,請他們排序。“1”為最重要,“3”為最不重要等。順序量隻有排序的分別,或是高/低、好/壞的分別。嚴格來說,不可以做任何的數學運算。例如,我們不可以把一群員工的排序計算平均值,說工資在員工心理的重要性是1.35。為什麼呢?

對於張三來說工資最重要,前途第二。對於李四來說,前途最重要,工資第二。如果我們把排序平均了,就是工資和前途在員工來說都差不多重要(平均都是1.5)。但是我們看見張三的次重要(就是前途)比李四的最重要(就是前途),其實更重要。因此加減乘除等運算,對排序數據來說是沒有什麼意義的。可是我們所有的計量工具,其實都以加減乘除為基礎。這就麻煩了。例如,對於定序數據上,我們就不能夠計算相關係數。正因為這個原因,我們收集數據時,一般都不鼓勵研究人員收集排序的數據。尤其是數據本來可以是連續數據的,我們更沒有理由把它變成排序數據。但是,在問卷調查中,我們卻發現很多研究人員有這樣的壞習慣。就以工資為例,明明甲的工資是5000元,乙的工資是6000元,本來很容易計算他們的平均工資,就是5500元。但是收集數據工資數據時,很多研究人員就喜歡用如下的方式:□1000~5000□5001~10000□大於10000如果作答者選第一個方格時,研究人員就給1分,作答者勾第二個方格的給2分,勾第三個方格的給3分,等等。為什麼我說這是個“壞習慣”呢?因為工資本來是連續的數值,可以做數學運算的。但是變成上麵3組以後,它們就隻是定序的數據,基於我們上麵討論的原因,我們就不能對這個定序變量作數學的運算了。因為這樣隨意的分組,理論上研究人員喜歡得到什麼結果都可以。對於排序數據,我們可以用特有的統計項。例如,排序數據應該用“排序相關係數(rankordercorrelation)”。

第三種度量尺度是“定距變量(intervalscale)”,或稱“等距尺度”。

因為1,2,3,4在這樣的尺度中是有相對的差距的,也就是“2減1”等於“3減2”等於“4減3”。

對於等距量表來說,理論上可以加或減,但是不能乘或除。因為乘與除這兩個數學的工具需要有一個絕對的參照(在數學上,這個參照就是0)。試想想,如果張三的“1”與李四的“1”是不同意思的話,3乘1(就是三個1)是什麼意思呢?是“1”的3倍嗎?自然不是!因為我們根本不知道“1”是什麼?我們知道的隻是2與1的距離等於3與2的距離而已。在自然科學中,攝氏或華氏(℃和)就是很好的等距尺度的例子。在物理學中,攝氏或華氏都隻是一個相對的溫度測量。到底什麼是攝氏零度或華氏零度,其實是沒有定義的。因此,1960年第十一屆國際計量大會規定熱力學溫標以開爾文(Kelvin,K)為單位,規定水的三相點為273.16K。因為水的三相點是0.01℃,所以0℃就是273.15K,而-273.15就被稱為有絕對定義的絕對零度。第四種度量尺度是“定比變量(ratioscale)”,或稱“等比尺度”。

等比尺度就代表“3”是“1”的3倍;“4”是“2”的2倍,等等。顯然,加、減、乘、除都可以應用在等比尺度中。在自然科學中,上麵提到的開爾文溫度單位(K)就是很好的等距尺度的例子。那我們在問卷調查中的問卷數據到底是什麼尺度呢?例如,我們問這樣的一道題:絕不同意頗不同意頗同意絕對同意

我非常滿意我的工作1234如果一個應答者在“4”上打圈,那研究人員應該如何理解這個“4”呢?最嚴格來說,問卷數據應該是排序數據。因為我們根本不知道在應答者心裏的“絕不同意”與“頗不同意”是不是與“頗不同意”和“頗同意”的差值一樣。不過,這個是我們一般做問卷研究時的假設。同時,嚴格來說,這樣的數據最多是等距數據,而不是等比數據。因此,嚴格來說,我們隻可以加或減,不可以乘或除。但是,如前所說,不可以乘除就不可以做大部分的數學運算。因此,我們就放鬆了一些限製,一般都把問卷數據當成是等比數據來分析了。2)古典測量模型如果你還記得中學物理課,你應該可以想起老師教過我們度量溫度的嚴謹方法是,用溫度計測量3次,把每次的讀數記錄下來,然後取平均值便是最接近真實溫度值的讀數了,因為每一次的讀數都有可能存在一定的誤差。這也是自然科學中的研究者在測量時的嚴謹的做法。我們在社會科學的測量中也會采用類似的方法。這樣做的原理是什麼呢?主管支持和離職傾向都是不可觀測的抽象構念。調查中用到的兩個題目“領導常常和我討論我工作中遇到的困難”(記為x)和“我常常想要離開這家企業”(記為y)則分別是兩個構念的指標。現在我們用的是李克特5級量表(LikertType5pointscale)測量,員工甲的回答也許分別是x=5和y=1。

但事實上,員工甲的主管支持的真實水平(用θx表示)可能是4,離職傾向(用θy表示)則是2。在這裏,觀測值與真實分數之間的差異被定義為誤差。我們可以用下麵的測量模型來表示“主管支持”的觀測值與真實值之間的關係,即x=θx+ωx因為以下我們都是暫時討論“主管支持”x這個構念,我們就把上式簡化為x=θ+ω(1)對於員工甲:列

構念ABC指標

(可觀測的)構念

(不可觀測的)誤差

(不可觀測的)觀測值(x)真實值(θ)隨機誤差(ε)主管支持x=5θx=4εx=-1離職傾向y=1θy=2εy=+1我們把等式(1)稱為“測量模型”。

在這個模型中,我們唯一能觀察到的隻有指標的值x(上表中的列A),以此了解員工的主管支持和離職傾向。故列B和列C中的都是為了解釋而假想出來的數字,我們借助它們建構一個模型來表示構念和指標之間的關係。等式(1)是最簡單的測量模型。當假設誤差項ε是隨機正態分布(均值為0,標準差為σ)時,等式(1)就稱為古典測量模型(classicalmeasurementmodel),表示為x=θ+ε;ε~N(0,σ)

其中,θ=真實值;x=觀測值;ε=隨機誤差,ε~N(0,σ)。這個古典測量模型實際是英國心理學家查爾斯·斯皮爾曼(CharlesSpearman)在研究相關係數時提出來的。他從數學角度提出,當我們用測驗的分數來度量人類的特質時,很容易犯錯誤,因此我們觀察到的測驗分數之間的相關實際上會低於它們的“真正客觀值”之間的相關(Spearman,1904)。斯皮爾曼對於“易犯錯誤的度量”和“真實客觀值”兩個詞的解釋成為古典測量模型的基礎。斯皮爾曼模型的實質是把任何觀測所得的分數想象為由兩個假設成分合並而成——真分數和隨機誤差。不過古典測量模型需要滿足一些基本的條件:誤差分數的平均值為0;真分數與誤差分數的相關為0;兩次觀測值的誤差分數相關為0。既然θ和ε都是不可見的,為什麼要把觀測值x分解為兩個不可知的變量呢?原因是我們希望找到最接近真實值的測量值。當我們假設每一次的觀測值都包含真實值和誤差兩個部分時,就可以通過不同的方法估計θ與ε的值。最簡單的方法就是用多個指標形成“量表”來估計x,θ與ε的值。例如,我們可以用下列3個項目(指標)來測量員工甲的離職傾向。不同意同意(x1)我常常想要離開這家企業12345(x2)我不喜歡留在這家企業工作12345(x3)我很可能在明年尋找新的工作12345由於這3個項目(指標)都是測量同一個構念的,因此,通過計算它們的平均值,我們就有可能減小隨機誤差了。這與用溫度計測量同一杯水3次是一樣的道理。用數學式可以表示為x1=θ+ε1x2=θ+ε2x3=θ+ε3計算3個項目的均值,我們得到x=(x1+x2+x3)/3=θ+(ε1+ε2+ε3)/3。根據經典測量模型的假設,ε1,ε2,ε3都是隨機誤差,在每一個項目的測量中,隨機誤差都可能大於0或小於0,而當指標數目越來越多時,誤差的均值項將會越來越小,最終接近0。3)包含係統誤差的古典測量模型然而,在古典測量模型中有一個很重要的假設,即所有的誤差都是隨機誤差。這就是說,它假設了測量工具本身是沒有問題的,隻要測量多次就可以得到真實值。但實際情況並非如此。想象一台不準的電子秤,每一次的讀數都有一個相對穩定的偏差,都比真實值多1.0010克。這時,上麵的古典測量模型就需要稍作改動,則x=θ+S+ε

這裏的S和ε不同,不是一個隨機變量,而是一個常數,表示這台電子秤的一個穩定的誤差,我們稱為“係統誤差”。

這個模型在管理學中有時也會用到,如自己評價自己績效的問卷一般都會比主管評價績效高。這個時候,你就可以考慮用上麵這個包含係統誤差的模型,把評價者的因素作為一個因素放在模型中一起估計。如果你同時測量了幾個變量都是自我評價的,並且係統誤差存在的話,這幾個變量的方差中應該有一部分是共同來源於係統誤差的。在因子分析(後麵幾章會談到這個工具)中,如果理論上不相關的變量之間,可以提取出一個共同變異量部分,那這一部分很可能來源於係統誤差;在結構方程模型(後麵幾章會談到這個工具)中,你也可以用一個潛變量指向所有的自評變量代表評價者的影響。4)同屬測量模型除了古典測量模型,還有一種測量模型是管理研究者越來越喜歡用的,稱為“同屬測量模型(congenericmeasurementmodel)”。

它與古典測量模型原理相似,但是增加了一個假設,就是每個項目和指標都不同程度地反映了真實分數的值。換句話說,一些指標比另一些指標更能夠反映構念的真實值。如果用數學式表達同屬測量模型,就是根據每個指標能否反映真實值的準確程度為它們分別確定一個權重值(用λk表示),即x1=λ1θ+ε1x2=λ2θ+ε2x3=λ3θ+ε3

式中,λ1,λ2和λ3即每個指標的權重(λ1,λ2,λ3範圍為0~1;1代表能夠完全反映構念的真實值,0代表完全不能反映構念的真實值,權重值越高說明一個指標越能代表我們想測的構念。因此,古典測量模型實際上是同屬測量模型的簡化形式(當我們設所有λ都等於1時)。換句話說,古典測量模型假設每個指標都可以同樣程度地代表一個構念。同屬測量模型是結構方程模型(StructuralEquationModeling,SEM)中的默認測量模型。到這裏,大家應該清楚了,古典測量模型和同屬測量模型的差別是研究者可以對測量指標持有不同的假設。大家不要因為“古典測驗模型”的名稱,就把它看成是舊的,而把“結構方程模型”用的“同屬測量模型”看成是比較新、比較先進的東西。它們之間很難說誰更好,因為我們根本就不知道“觀察數據(observedscore)”與“真實數據(truescore)”的關係,所有的測量模型都是“猜測”而已。8.1.3效果指標與構成指標1)效果指標(EffectIndicatorsorReflectiveIndicators)無論是古典測量模型還是同屬測量模型,它們有一個共同的假設:每一個指標都不同程度上反映了同一個構念。古典模型同屬模型x1=θ+ε1(2)x1=λ1θ+ε1(5)x2=θ+ε2(3)x2=λ2θ+ε2(6)x3=θ+ε3(4)x3=λ3θ+ε3(7)換句話說,員工甲在第一個項目x1(即“我常常想要離開這家企業”)的得分是他離職傾向的真實值(θ)的一個反映。類似地,他在第二個項目x2(即“我不喜歡留在這機構工作”)也是他離職傾向的真實值(θ)的一個反映。而真實值(θ)在兩個項目中都是一樣的。在這樣的情況下,我們就說x1,x2和x3都是同一個真實的離職傾向分數的反映或效果。這一類型的項目指標稱為“效果指標(effectindicator)”或“反映指標(reflectiveindicator)”。

正如效果指標的名字所表達的,它是用抽象構念的“效果”作為這個構念的指標。換句話說,效果指標是看不見的構念的外在表現。從式(2)—式(7)中,x1,x2和x3都不同程度地反映了同一個潛在變量θ。但是,我們不能把“效果(effect)”與“結果(outcome)”混淆起來。如果員工的高離職傾向(構念A)是由於他們組織承諾(構念B)水平較低引起的,員工離職傾向就是組織承諾的一個結果。這裏的因果關係發生在構念A和構念B之間,這兩個構念都是不可直接觀察的。一個效果指標(如我不喜歡留在這機構工作)和它們所代表的構念(離職傾向)之間的關係是可觀測的指標與不可觀測的構念之間的關係。因此,效果指標不是由它們所表示的構念產生的結果。管理研究中的大部分指標都是效果指標。例如,House和Rizzo(1972)提出的工作壓力(jobstress)這一概念的測量包含7個條目,如“我工作上的問題已經讓我晚上失眠”“我在參加工作會議之前常會覺得緊張”“我常常把工作帶回家,因為我在做其他事情時時常會想到它”等,這些都是一個人的工作壓力較大時的症狀和反映。如果我們用經典測量模型的假設,那麼每一個指標已經足以無偏地代表一個構念。“無偏(unbias)”就是指如果我們用一個效果指標(如x2)對同一個員工甲重複測量無窮多次,所有這些測量值的平均值就等於員工W的離職傾向的真實值。這是因為:若,x2=θ+ε2E(x2)=E(θ)+E(ε2)

=E(θ)

=θ(因為θ是常數,而ε2是隨機的)[注意:E(x)是x的期望值,也就是觀察無限次以後我們“期望”看到的東西。如果我們從100個數隨機地抽取一個,有時候抽出來的數會大於平均數,有時候會小於平均數。在無限次抽取後,平均來說,我們應該看見一個與平均數差不多的數。因此,平均數就是我們的期望值。讀者可以簡單地把E(x)看成是無限次觀察x後,這無限個x的平均值。]我們前麵說過,大多數時候,我們在調查中隻有機會測量一次,不可能用一個指標重複測量無窮多次,因此,一個替代的做法是在量表中放入多個無偏的效果指標一起來測同一個構念,也可以達到減小隨機誤差的目的。你也許會問,如果是這樣,那效果指標之間不是會高度相關了嗎?是的,如果效果指標之間的相關程度很低,那就說明一定存在問題。這是因為它們都是用來代表同一個構念的。效果指標之間的相關越高,說明測量過程中的隨機誤差就越小,也就越能夠準確地代表要測量的構念。但同時也要注意,不能為了追求指標之間的高相關,而把重複的內容變換字詞就作為不同條目。好的量表是由內容不重複的條目組成的,每個條目能夠從不同的角度反映構念。因為式(2)、式(3)和式(4)中的ε1,ε2和ε3都是隨機誤差,從定義上看,它們都與真實值θ沒有關係。以式(2)、式(3)和式(4)為基礎,根據多元相關分析(multivariatecorrelationalanalysis)的公式,x1的方差(也就是所有答題者對“我常常想要離開這家企業”這個項目回答的方差),以及x2和x3的方差可表示為σ2x1=σ2θ+θ2ε1σ2x2=σ2θ+θ2ε2σ2x3=σ2θ+θ2ε3[注意:如果A=B+C的話,σ2A=σ2B+σ2C+2σBC。但是上式中,ε是隨機的,所以θ與ε是獨立無關的。因此,它們的協方差等於0。]上麵的方程清楚地表示出x1,x2和x3共同的方差部分是不同答題者的離職傾向真實值的方差(σ2θ)。我們可以用文氏圖(Venndiagram)表示這些方差之間的關係。用3個效果指標(x1,x2,x3)來測量員工離職傾向(θ),不同員工離職傾向的真實方差可以用3個指標的共同方差部分來估計。用因子分析的術語說(因子分析在第10章會談到),離職傾向的真實方差可以用變量x1,x2和x3的變異共同量(communality)來表示。如果我們用同屬測量模型的假設,那麼指標與離職傾向的真實值之間的關係就可以用方程(5)、方程(6)和方程(7)表示。其中,x1,x2和x3都是可觀測的指標,而λ1,λ2,λ3,ε1,ε2,ε3和θ都是未知的,需要估計。我們可以借助結構方程模型。

事實上,從方程(5)到方程(7)就可以看出構念的真實分數和它的指標之間的關係可以用我們常用的驗證性因素分析模型表示。這樣,員工W的離職傾向的真實值就可以用3個指標x1,x2和x3的共同因子的因子分數(factorscore)來估計了[注:因子分數會在第10章因子分析介紹]。因此,可以看到,用不同的模型假設,直接影響了估計構念時需要用不同的方法。如果用古典測量模型,構念的真實值可以通過3個指標的簡單平均值或是指標背後的潛在因子而得到;如果用同屬測量模型,構念的真實值就隻可以通過指標背後的潛在因子的因子分數來估計。你也許會問,那我們每一次要如何選擇呢?這個問題的答案非常直接——兩種都可以。古典測量模型實際上就是同屬測量模型的一個特例。λ1=λ2=λ3時的同屬測量模型就是古典測量模型。這樣,同屬測量模型應該比古典測量模型更可取。換句話說,用眾多指標背後共同因子的因子得分來表示所研究的構念也許更可取。然而,這個方法也存在另外一個問題。當我們用不同的樣本做研究時,由於抽樣誤差的存在,因子載荷(數學上就等於λ的倒數)也會隨之改變。例如,我們有一個樣本包括員工A、B和C,另一個樣本包括員工A、D和E,在這兩個樣本中都可以得到的x1,x2和x33個指標背後的共同因子,並估計出因子載荷,但在兩個樣本中的估計值可能不同。這樣,如果我們用因子得分來估計員工A的離職傾向,在兩個樣本中就會得到不同的結果。這在理論上是不合理的,在同一時間同一名員工A,當他與不同的員工組成樣本時,離職傾向真分數的估計值竟然會不同!比較而言,如果用古典測量模型對員工A的離職傾向真分數進行估計,結果就非常穩定了。在任何樣本中,我們估計出的A的離職傾向都是一樣的(始終等於(x1+x2+x3)/3)。正是由於這個原因,當我們要估計效果指標的真分數時,“取所有的效果指標的平均值”和“取所有效果指標背後共同因子的因子得分”在傳統上都是可以接受的方法。2)構成指標(CausalIndicatorsorFormativeIndicators)雖然研究中使用的指標大都是效果指標,但這並不是唯一的類型的指標。舉個例子,“環境不確定性(environmentaluncertainty)”是企業戰略研究中的一個構念,它表示企業環境的不可控製性。測量這個構念有很多方法,這裏以Lukas,Tan和Hult(2001)研究中使用的方法為例。有的同學雖然使用了盧卡斯等人的測量的3個維度——複雜性、動態性、對抗性,但沒有去看原文的講解,就將每個維度的4個指標都當作反映型指標來作因子分析,最後還因為結果很不好而困惑。這裏,“結果不好”的原因正是因為作者設計的量表中,每一個維度的4個指標並不是反映型的。“複雜性”評估了企業可以預測競爭、技術、法規和國際發展的程度;“動態性”測量了顧客、技術、法規和供應商的變化情況;“對抗性”則測量了顧客、經濟、社會文化要求,以及國際發展對公司的影響。以“複雜性”維度為例可知,並不是因為環境複雜才有了一係列競爭、技術、法規等方麵的表現,恰恰相反,正是因為這幾個方麵的不確定構成了企業所麵臨環境的整體的複雜性。這種類型的指標我們稱為“原因指標(causalindicator)”或“構成指標(formativeindicator)”。

我們再舉一個例子來說明構成型指標的定義。社會經濟地位(socialeconomicstatus,SES)的測量是構成型指標的一個經典例子。社會經濟地位(SES)表示一個人的社會階層、財富或經濟地位。社會經濟地位的兩個可能的指標是收入和教育水平。MacCallum和Browne(1993)認為一個人的收入和教育水平並不是其社會經濟水平的反映或結果。相反,是收入和教育水平決定了一個人的社會經濟地位。從上麵兩個例子可以看到,構成指標與效果指標(或反映指標)具有相反的特征。一個構念與它的構成指標之間的關係可以用數學公式表示為θ=γ1x1+γ2x2+ζ以“社會經濟地位”構念為例:θ是不可直接觀測的構念“社會經濟地位”;x1是個人收入水平;x2是個人教育水平;γ1是收入水平(ξ1)影響社會經濟地位(θ)的權重;γ2是教育水平(ξ2)影響社會經濟地位(θ)的權重;ζ是測量誤差。從上麵的例子我們可以看出,構成指標(原因指標)實際上就是由指標“構成了”被測量的構念。這種關係與效果指標和構念的關係恰好相反。但需要注意的是,構成指標不是構念的前因。一個構念的前因一定是另外一個構念。但是,構成指標隻是測量構念的指標而已,不是另外一個構念。簡單來說,構成指標是抽象構念的構成因素的現實表現。我們在前麵說過,每個效果指標都是潛在構念的一個充分的無偏估計。而與之相比,每個構成指標都是“不完全地”和“有偏差地”代表了它們所表示的構念。這是因為構念與構成指標的關係是:θ=γ1x1+γ2x2+ζ。在這樣一個測量模型中,如果隻用x1(如收入水平)來估計θ,即使測量無窮多次,依然會導致對構念的偏差的估計。在構成指標測量的構念中,隻要缺了一個指標,對於構念的估計就會有偏差。換句話說,所有構成指標都必須出現才可以估計構念。