正文 第13章多層線性模型(3 / 3)

β1j=γ10+γ11Wj+u1j在這個基本模型中,每個參數的含義如下:①β0j是在第j組中,員工的平均“互助”行為。②β1j是在第j組中,當“心情”改變一個單位時,員工的“互助”行為會改變多少。③rjk是在每一組中,用“心情”來估計“互助”行為時的估計誤差。④第二層模型告訴我們,β0j和β1j是在“組與組之間”不停地改變的,而這個改變的程度是可用“部門距離”(Wj)來估計的。⑤γ00是“部門距離”對“組內平均互助行為”的平均影響。⑥γ01是當“部門距離”改變一個單位時,“組內平均互助行為”改變多少。⑦u0j是用“距離”來估計“組內平均互助行為”行為時的估計誤差。⑧γ10是“部門距離”對“組內‘心情’對‘互助’的影響”的平均影響。⑨γ11是當“部門距離”改變一個單位時,“組內‘心情’對‘互助’的影響”會改變多少。因此,這就代表了“部門距離”對“心情”→“互助”的調節效應。因為“部門距離”是第二層階的變量,“心情”與“互助”都是第一層階的變量,因此這是一個“跨層階的調節效應”。

⑩u1j是用“距離”來估計“組內‘心情’對‘互助’的影響”時的估計誤差。13.4HLM的基本二層線性模型最基本的二層線性模型為Yij=β0j+β1jXij+rij

β0j=γ00+γ01Wj+u0j

β1j=γ10+γ11Wj+u1j假設E(rij)=0Var(rij)=σ2

Eu0ju1j=00Varu0ju1j=τ00τ01τ10τ11=T

Cov(u0j,rij)=Cov(u1j,rij)=0這個基本的“二層線性模型”可以有不同的變化模型。下麵介紹4個簡單的變化模型。1)“基本的二層線性模型”的第一個變化模型Yij=β0j+β1jXij+rij

β0j=γ00+γ01Wj+u0j

β1j=γ10+γ11Wj+u1j[注:上麵的模型有下畫線的是“基本二層線性模型”不要的部分,後同]模型簡化為Yij=β0j+rij

β0j=γ00+u0jYij受以下3個因素影響:①一個總平均(γ00)。②一個隨機的第二層(如小組)效應(u0j)。③一個隨機的第一層誤差(rij)。因為有一個第二層階的效應在影響每一組的平均,這個模型其實就等於我們一般的方差分析ANOVA。2)“基本的二層線性模型”的第二個變化模型Yij=β0j+β1jXij+rij

β0j=γ00+γ01Wj+u0j

β1j=γ10+γ11Wj+u1j模型簡化為Yij=β0j+β1jXij+rij

β0j=γ00+u0j

β1j=γ10Yij受以下4個因素影響:①一個總平均(γ00)。②一個隨機的第二層效應(u0j)。③一個第三變數(Xij)的效應(γ10)。④一個隨機的誤差(rij)。這個模型其實就等於我們的協方差分析(AnalysisofCovariance,ANCOVA),是一般的方差分析中允許控製住一個協方差變量Xij。3)“基本的二層線性模型”的第三個變化模型Yij=β0j+β1jXij+rij

β0j=γ00+γ01Wj+u0j

β1j=γ10+γ11Wj+u1j模型簡化為Yij=β0j+β1jXij+rij

β0j=γ00

β1j=γ10Yij受以下3個因素影響:①一個總平均(γ00)。②一個第三變數(Xij)的效應(γ10)。③一個隨機的誤差(rij)。因為所有的第二層階參數都是參數,這個模型其實就等於一個單層階的模型,也就是簡單的回歸分析SimpleRegression。回歸分析中的自變量是Xij[注意,在這個模型中沒有第二層的效應,隻有第一層的效應]。4)“基本的二層線性模型”的第四個變化模型Yij=β0j+β1jXij+rij

β0j=γ00+γ01Wj+u0j

β1j=γ10+γ11Wj+u1j模型簡化為Yij=β0j+β1jXij+rij

β0j=γ00+u0j

β1j=γ10+u1jYij受以下5個因素影響:①一個總平均(γ00)。②一個隨機的第二層效應(u0j)。③一個第三變數(Xij)的效應(γ10)。④一個隨機的第一層效應(u1j)。⑤一個隨機的誤差(rij)。這個模型在上麵已經討論過。它是一個簡單的回歸分析,但是卻可讓回歸係數在不同層階有機會改變的模型。在統計學上,這樣的模型稱為隨機係數回歸分析(randomcoefficientregression)。13.5HLM的重要問題13.5.1HLM的統計驗證HLM是一個跨層階的分析工具。它其實是一個牽涉多層階的嵌套回歸分析模型。因此與其他的回歸分析一樣,HLM也牽涉利用樣本統計量來估計總體參數的問題。現在讓我們來看看如何在HLM內做統計的驗證。我們還是用HLM最基本的模型來開始探討。這個模型為yij=β0j+β1jxij+rij

β0j=γ00+γ01Wj+u0j

β1j=γ10+γ11Wj+u1j①第一個我們有興趣驗證的是H0:u0j=0?這個問題意在探討Wj是否有足夠能力去解釋組間的截距的差異。如果u0j=0,那就代表Wj可以解釋組間的截距的所有差異。統計學家告訴我們,u0j的統計抽樣分布是一個χ2分布。②知道了Wj能夠很大程度解釋β0j後,接下來的問題就是Wj與β0j到底有什麼關係?那就要看β0j=γ00+γ01Wj+u0j中的γ00與γ01。很明顯γ00與γ01都是一個簡單回歸的回歸係數。要驗證H0:γ00=0和H0:γ01=0,自然都是采用驗證回歸係數的t檢驗了。③u0j,γ00與γ01都是與組間的截距有關的驗證。如果我們有興趣的是組間的斜率,對應的統計量就是u1j,γ10與γ11了。H0:u0j=0是驗證Wj是否有足夠能力去解釋組間的斜率的差異。同樣u0j的抽樣分布是一個χ2分布。H0:γ10=0是驗證Wj是否影響組間的Yij的均值。H0:γ11=0是驗證Wj是否影響“Xij對Yij的影響”。

換句話說,Wj是否調節“Xij與Yij的關係”。

因為γ00與γ01都是回歸係數,它們的抽樣分布也都是t分布。13.5.2HLM的參數估計程序這個部分牽涉複雜的統計估計問題,內容非常數學化。對於不熟悉統計學的讀者來說,我們建議隻要大概明白它的意思即可,不一定要求每字每句都完全理解。HLM的模型牽涉兩重交叉折疊的估計,頗為複雜,即yij=β0j+β1jxij+rij

β0j=γ00+γ01Wj+u0j

β1j=γ10+γ11Wj+u1j在上麵的估計中,首先第一層是在每組中,利用Xij來估計Yij的方程yij=β0j+β1jxij+rij。

這個估計其實是一個簡單的回歸分析。在回歸分析的一章中已經介紹過,如果回歸隨機項rij的固定方差是σ2,截距回歸係數β0j的抽樣方差(υ0j)和斜率回歸係數β1j的抽樣方差(υ1j)分別是(nj是小組j的人數),即ν0j=σ2nj和ν1j=σ2x2ij在HLM的模型中,第二層的估計是在組與組之間利用Wj來估計β0j和β1j的方程β0j=γ00+γ01Wj+u0j和β1j=γ10+γ11Wj+u1j。其中,估計的誤差是u0j和u1j,誤差的方差是τ00和τ11。

這兩個估計都是簡單的回歸分析。但是合起來用的時候,就有點衝突了。為什麼呢?我們再看看HLM的基本模型:yij=β0j+β1jxij+rij

β0j=γ00+γ01Wj+u0j

β1j=γ10+γ11Wj+u1j基於這個模型,可首先在每一組內做一個回歸分析,用xij來估計yij。這樣就可有j個不同的β∧0j和β∧1j的估計。第一組的稱為β∧01和β∧11,第二組的稱為β∧02和β∧12……如此類推,然後,可在組與組之間再做一個回歸分析,用Wj來估計這些β∧0j和β∧1j,並得到γ00,γ01,γ10,γ11這4個參數的估計。但是,有了這4個參數後,又可利用Wj與γ00,γ01,γ10,γ11,再重新估計出一組新的β∧0j和β∧1j的估計(為了避免混亂,我們將這一組新的估計稱為β~0j和β~1j)。這樣問題就出來了。我們應該用xij估計出來的β∧0j和β∧1j,還是用Wj估計出來的β~0j和β~1j呢?換句話說,我們應該相信用第一層階估計出來的參數β∧0j和β∧1j,還是用第二層階估計出來的參數β~0j和β~1j呢?要回答這個問題,最簡單的結論就是兩個都用,因為第一層階的數據和第二層階的數據都是數據的一部分,兩者不分輕重。但是,應用一個加權的平均估計,而加權的權數就是該層階的估計的誤差的倒數。換句話說,哪一層階的估計的誤差比較小,利用它來估計β0j與β1j的比重就比較重。用數學的符號來表達這個加權的平均參數估計的公式為(Λ0就是給β0j的權數;Λ1就是給β1j的權數)最優的(βj)=λjβj∧+(I-λj)Wjγ∧那兩個層階的估計誤差是什麼呢?我們在上麵已經談過了。在第一層階,β∧0j和β∧1j的估計誤差方差為ν0j=σ2nj和ν1j=σ2x2ij在第二層階,β~0j和β~1j的估計誤差方差是τ00和γ11。因此,在第j組中,兩個層階的參數估計的比重為λ0j=τ00τ00+ν0jλ1j=τ11τ11+ν1j13.5.3HLM的模型R2的問題當我們做回歸分析時,模型的R平方(ModelR2)是一個非常有用的指標。它告訴我們模型中所有自變量到底能夠解釋因變量的多少方差。但是,如果同一個觀念用在HLM時,就不好理解。我們說過,HLM的模型涉及兩重交叉折疊的估計。層階一是一個回歸分析、層階二是一個交叉在層階一參數中的另一個回歸分析。因此,當我們說自變量解釋了多少因變量(yij)的方差時,我們的意思是什麼呢?嚴格來說,HLM是沒有模型的R平方。因為它不是一個簡單的估計模型。但是,研究人員往往希望知道,起碼在第一層階中,自變量解釋了因變量的方差的百分之幾?在第二層階中,自變量又解釋了因變量的方差的百分之幾?這些資料在理解研究結果時是非常重要的。因此,我們就產生了HLM模型的R平方的估計了。但是讀者要知道,無論如何我們在這一節講的,隻是一個粗略的估計。因為不同層階的解釋能力不是完全獨立的,而是互為影響。因此,一般在HLM的領域裏,我們都將這些R平方的估計稱為“偽R平方”(pseudoRsquare)。一般估計HLM模型的“偽R平方”時,我們可以采用一個類似層階回歸的概念。層階回歸是首先用一個最簡單的模型估計因變量y。這樣我們就有一個“底線的模型R平方”(Rsquareforbaselinemodel)。然後,我們每多增加一個自變量,模型的R平方都會增加。計算這兩個模型R平方的差數,就知道多增加了自變量後,我們多解釋了y的方差的多少。同樣可從一個最簡單的HLM模型開始:基本模型(baselinemodel,M1)為yij=β0j+rij

β0j=γ00+u0j然後增加一個第二層的自變量,成為模型二(M2)。這個第二層階的自變量其實就是第一層階的自變量的小組平均數(x.j,這個符號的“.”是代表平均,j是第j組,所以這符號的意思是第j組的x值的小組平均),即yij=β0j+rij

β0j=γ00+γ01x.j+u0j然後從基本模型中增加一個第一層的自變量[注:我們依照習慣把x小組中心化了],成為模型三(M3),即yij=β0j+β1j(xij-x.j)+rij

β0j=γ00+u0j

β1j=γ10+u1j最後,我們把第一層階的xij和第二層階的x.j同時放進模型中。這個模型稱為模型四(M4),即yij=β0j+β1j(xij-x.j)+rij

β0j=γ00+γ01x.j+u0j

β1j=γ10+γ11x.j+u1j假設4個模型的分析結果如下:變量方差M1M2M3M4rijσ239.1539.1636.7136.71u0jτ008.622.648.682.65u1jτ110.680.66當比較基本模型(baselinemodel,M1)的τ00時,則比率一=τ00(M1)τ00(M1)+σ2(M1)=8.628.62+39.15=0.1804這代表y的方差中,有18%是由第二層(小組)產生的,有82%是由第一層(個人)產生的。如果比較模型一(M1)和模型三(M3)的σ2,則比率二=σ2(M1)-σ2(M3)σ2(M1)=39.15-36.7139.15=0.0623這代表y的方差中,自變量x解釋了6%。如果比較模型一(M1)和模型二(M3)的τ00,則比率三=τ00(M1)-τ00(M2)τ00(M1)=8.62-2.648.62=0.6937這代表y的組間方差中,不同的小組解釋了69%。這代表整個數據中的y的方差,主要是由自變量x的組間方差來解釋的,自變量x的組內方差解釋的能力很低。最後一組分析是比模型三(M3)和模型四(M4)的σ2和τ00,則比率四=τ00(M3)-τ00(M4)τ00(M3)=8.68-2.658.68=0.6947

比率五=τ11(M3)-τ11(M4)τ11(M3)=0.68-0.660.68=0.0294這代表加上了小組的x平均以後,我們解釋了大部分的截距的差異(69%),但是卻沒有能力解釋斜率的差異(