71

50

69

81

1970—1979

86

78

95

85

75

96

70

77

64

62

1980—1989

82

85

70

86

84

85

69

71

94

71

1990—1999

102

85

85

72

80

99

74

67

102

66

2000—2009

90

80

100

69

108

73

76

73

106

101

(1) 用5作組距,做出頻數分布直方圖和頻率分布圖。

(2) 計算標準差,計算並比較1930—1969年和1970—2009年的變異分數。

(3) 計算分組的中位數和眾數。

(4) 計算分布曲線的歪度(Sk)。

4. 簡述地理數據分組的主要步驟。

5. 對於某西部地區某山區縣的草地麵積調查數據,以地塊麵積作為統計分組標誌,計算各組數據的頻數、頻率,編製成的統計分組表如下所示,試計算中位數、眾數、平均值等統計量。

某縣草地麵積的統計分組數據

分組序號1234567891011

分組標誌(hm2)

(0,1]

(1,2]

(2,3]

(3,4]

(4,5]

(5,6]

(6,7]

(7,8]

(8,9]

(9,10]

(10,11)

組中值

0.5

1.5

2.5

3.5

4.5

5.5

6.5

7.5

8.5

9.5

10.5

頻數(地塊個數)

25

96

136

214

253

286

260

203

154

85

24

(續表)

分組序號1234567891011

向上累計頻數

25

121

257

471

724

1010

1270

1473

1627

1712

1736

頻率(%)

1.44

5.53

7.83

12.33

14.57

16.47

14.98

11.69

8.87

4.90

1.38

向上累計頻率(%)

1.44

6.97

14.80

27.13

41.70

58.17

73.15

84.84

93.71

98.61

100

6. 簡述使用Excel和SPSS進行描述性統計的過程,並對下列調查的20名男嬰的出生體重(克)資料作描述性統計。

2770,2915,2795,2995,2860,2970,3087,3126,3125,4654,

2272,3503,3418,3921,2669,4218,3707,2310,2573,3881。

7. 簡述利用Excel的GEOMEAN函數計算幾何平均數的步驟。

8. 在某區域的5天內每天調查的候鳥數如下。

A區:12010876184165

B區:94681135599

試根據以上資料,分別計算A、B兩區候鳥數的全距和標準差。

9 為了了解某縣人工造林地麵積分布,從統計報表上獲得下表的資料。

分組序號

1

2

3

4

5

6

7

8

9

10

分組標誌

(0,1]

(1,2]

(2,3]

(3,4]

(4,5]

(5,6]

(6,7]

(7,8]

(8,9]

(9,10]

組中值

0.5

1.5

2.5

3.5

4.5

5.5

6.5

7.5

8.5

9.5

頻數

3

2

5

7

10

8

6

4

4

2

經過進一步的查找,獲得了上述報表中某一數據段的原始數據,通過從小到大排序,第15位至36位數依次如下:

3.41

3.50

3.85

4.12

4.20

4.27

4.30

4.52

4.55

4.71

4.73

4.85

5.00

5.22

5.34

5.36

5.57

5.59

5.61

5.83

5.87

6.22

請利用分組數據計算的中位數與原始數據得出的中位數是否有差異,並請闡述原因。

第三章地理數據的統計推斷

第三章地理數據的統計推斷

第一節地理數據的常用概率分布

一、 概率分布

描述統計量雖然可表示分布的特性,但如果能再用其他數值表示分布的形態則可以對分布作更進一步的了解。

在一個試驗中,出現了變量ξ,且對於這個變量的取值具有隨機性,即取值依賴於試驗的結果,這種變量稱為隨機變量。如考察來自某地理區域的環境汙染數據,當某種化學元素的含量超過某一濃度時,我們記ξ=1;不夠某一濃度時記為0。ξ是一個變量,其值隨著試驗的結果不同而取值1或0。這樣,在一定條件下受隨機因素的影響而在試驗結果中能取不同數值的量。隨機變量既然是描述隨機現象的,每次試驗的結果,其取值不能事先確定,這是它偶然性的一麵。但隨機變量的變化是有一定規律的,它可以由隨機事件的概率來刻畫。

1. 地理數據隨機變量

在空間分布和時間序列中表現出來的地理現象是一些隨機現象,我們把這些現象數量化,用一個變量來描述,這個變量稱地理數據隨機變量。

如果隨機變量分析能取的值為有限個或可列個,可以按一定次序一一列舉出來,這種變量稱離散型隨機變量。如果隨機變量x,其可能取值為某範圍內的任何數值,且x在其取值範圍內的任一區間中取值時,其概率是確定的,則稱x為連續型隨機變量。

概率分布是借助函數、圖表的形式,針對某些或一範圍內隨機變量的可能值求其概率。概率分布有離散型變量的概率分布和連續型變量的概率分布。

2. 地理數據的離散型分布

要了解離散型隨機變量x的統計規律,就必須知道它的一切可能值xi及取每種可能值的概率pi。

隨機變量可以有不同的取值,即有一定的取值範圍,並能確定相應的概率。設隨機變量ξ所可能取值是xk(k=1,2…),而pk(k=1,2…)是ξ取值xk時的概率,則

p(ξ=xk)=pk(k=1,2…),

稱為離散隨機量ξ的概率分布。

常用分布列來表示離散型隨機變量:

x1x2…xn…

p1p2…pn…。

顯然離散型隨機變量的概率分布具有pi≥0和∑ni=1pi=1兩個基本性質。

【例3.1】一承包商對三項工程A、B、C投標,三項工程每項中標的概率為0.5,0.8,0.2。假若事件獨立,求該承包商中標的工程總數的概率分布。

解:設該承包商中標的工程總數為ξ,即隨機變量ξ的取值為0、1、2、3,由其獨立性可求得:

p0=p(ξ=0)=p(ABC)=p(1-A) p(1-B) p(1-C)=(1-0.5)(1-0.8)(1-0.2)=0.08,

p1=p(ξ=1)=p(ABC)+p(ABC)+p(ABC)= 0.42,

p2=p(ξ=2)= p(ABC)+p(ABC)+p(ABC)=0.42,

p3=p(ξ=3)= p(ABC) =0.08。

所以ξ的概率分布為表31。

表31概率分布表

ξ0123

p(ξ=xi)0.080.420.420.08

3. 地理數據的連續型分布

連續型隨機變量:在地理事物中,有的隨機變量ξ,其可能取的值可以是任意實數或連續地充滿一個區間,這樣的隨機變量稱連續型隨機變量。

連續型隨機變量ξ的概率構成一條連續曲線y=f(x),稱為概率分布密度函數,簡稱概率密度,且對任何ξ,f(x)≥0。F(x)=∫x-∞f(x)dx稱為分布函數,且∫+∞-∞f(x)dx=1。

地理學中連續且隨機變量最常見的是正態分布。

二、 常用的理論分布

理論分布最常用的有二項分布、泊鬆分布、正態分布和伽馬分布。

1. 二項分布

(1) 概率函數

p(ξ=x)=Cxnpxqn-x,其中q=1-p,記為ξ~b(n,p)。

式中,n表示試驗次數,p表示在一次試驗中結果是成功的概率,q表示在一次試驗中結果是失敗的概率。

顯然,二項分布是一種離散型隨機變量的概率分布。參數n稱為離散參數,隻能取正整數;p是連續參數,它能取0與1之間的任何數值(q由p確定,故不是另一個獨立參數)。

(2) 隨機變量的特征數

E(ξ)=np,σ2(ξ)=npq,Sk(ξ)=1-2pnpq,k(ξ)=1-6pqnpq

(3) 兩個極限分布

① 當n充分大,np非常小時,二項分布以泊鬆分布作為它的近似分布(應用於n≥50,np<5時)。

② 當n充分大,np與nq都不很小時,二項分布以正態分布作為其近似分布。

【例3.2】在地圖上將某區域分成大小相等的正方形,在該區內森林的發生假定為隨機現象,亦即每一正方形內有森林的概率相等,並假定任一正方形的特性與其他正方形的特性互為獨立,假定任一正方塊上有森林的概率p為0.7,即無森林之概率q=1-p=0.3。現在假定從135個正方塊係進行隨機選擇,能選取森林92塊的概率為多少?至多選取92塊的概率(選取0—92的所有概率累加)為多少?

軟件運算指導3.1——利用Excel的BINOMDIST函數計算二項分布函數

1. 打開Excel的“插入”菜單,選擇“函數”選項,打開“粘貼函數”對話框。

2. 在“函數分類”列表中選擇“統計”,在“函數名”列表中選擇二項分布函數BINOMDIST,單擊“確定”按鈕,打開二項分布函數對話框。

3. 把成功次數(Numbers)、試驗次數(Trials)、成功概率(Probability)分別填入各自對話框中,並在“Cumulative”中輸入“0”或“1”分別表示概率密度函數和累計分布函數。

4. 按“確定”按鈕。

2. 泊鬆分布

泊鬆分布是一種可以用來描述和分析隨機發生在單位空間或時間裏的稀有事件的概率分布。當事件出現的概率很小,而樣本數或試驗次數很大,即有很小的p值和很大的n值,這時的二項分布就變成了另外一種特殊的分布,即泊鬆(Poisson)分布。

(1) 概率函數

p(ξ=x)=λxe-λx!,記作ξ~p(λ)

(2) 特征數

E(ξ)=λ,σ2(ξ)=λ,Sk(ξ)=1λ,k(ξ)=1λ

【例3.3】對於例3.2,假定在荒漠地區,有森林的概率p為0.005。現在假定從135個正方塊係進行隨機選擇,能選取森林5塊的概率為多少?至多選取5塊的概率(選取0—5的所有概率累加)為多少?

在計算之前,首先要算出參數λ,也即平均數,λ=np=0.005×135=0.675。

軟件運算指導3.2——利用Excel的POISSON函數計算泊鬆分布函數

1. 打開Excel的“插入”菜單,選擇“函數”選項,打開“粘貼函數”對話框。

2. 在“函數分類”列表中選擇“統計”,在“函數名”列表中選擇泊鬆分布函數POISSON,單擊“確定”按鈕,打開泊鬆分布函數對話框。

3. 把試驗次數(x)、平均數(Mean)分別填入各自對話框中,並在“Cumulative”中輸入“0”或“1”分別表示概率密度函數和累計分布函數。

4. 按“確定”按鈕。

3. 正態分布

正態分布是一種很重要的連續型隨機變量的概率分布。地理現象中有許多變量是服從或近似服從正態分布的,許多統計分析方法都是以正態分布為基礎的。此外,還有不少隨機變量的概率分布在一定條件下以正態分布為其極限分布。因此在統計學中,正態分布無論在理論研究上還是實際應用中,均占有重要的地位。

(1) 概率密度函數

f(x)=1δ2πe-(x-μ)22δ2,記作ξ~N(μ,δ2)

標準正態分布

f(x)=12πe-x22, 記作ξ~N(0,1)

(2) 特征數(遵從正態分布的隨機變量的特征數)

E(ξ)=μ,其中標準正態分布E(ξ)=0。

σ2(ξ)=δ2,其中標準正態分布σ2(ξ)=1。

Sk(ξ)=0,其中標準正態分布Sk(ξ)=0。

k(ξ)=0,其中標準正態分布k(ξ)=0。

(3) 正態分布的分布函數

F(x)=∫x-∞1δ2πe-(x-μ)22δ2dx

即為正態分布概率函數的累計頻率曲線。

(4) 正態分布的分布函數的計算

正態分布密度曲線和橫軸圍成的一個區域,其麵積為1,這實際上表明了“隨機變量x取值在-∞與+∞之間”是一個必然事件,其概率為1。若隨機變量 x服從正態分布N(μ,σ2),則x的取值落在任意區間[x1,x2]的概率,記作P(x1≤x≤x2),等於圖31中陰影部分曲邊梯形麵積。即:

P(x1≤x≤x2)=1σ2π∫x2x1e-(x-μ)22σ2dx。

對上式作變換u=(x-μ)/σ,得dx=σdu,故有

圖31正態分布的概率

P(x1≤u≤x2)=1σ2π∫x2x1e-(x-μ)22σ2dx

=1σ2π∫(x2-μ)\/σ(x1-μ)\/σe-12u2σdu

=12π∫u2u1e-12u2du

=Φ(u2)-Φ(u1)。

其中,u1=x1-μσ,u2=x2-μσ。

這表明服從正態分布N(μ,σ2)的隨機變量x在[x1,x2]內取值的概率等於服從標準正態分布的隨機變量u在[(x1-μ)\/σ, (x2-μ)\/σ]內取值的概率。因此,計算一般正態分布概率時,隻要將區間的上下限作適當變換(標準化),就可用查標準正態分布概率表的方法求得概率了。

【例3.4】設x服從μ=30.26,σ2=5.102的正態分布,試求P(21.64≤x≤32.98)。

解:令u=x-30.265.10,則u服從標準正態分布,故

P(21.64≤x≤32.98)

=P21.64-30.265.10≤x-30.265.10≤32.98-30.265.10

=P(-1.69≤u≤0.53)

=Φ(0.53)-Φ(-1.69)

=0.7019-0.04551

=0.6564。

關於一般正態分布,以下幾個概率(即隨機變量x落在μ加減不同倍數σ區間的概率)是經常用到的。

P(μ-σ≤x≤μ+σ)=0.6826

P(μ-2σ≤x≤μ+2σ)=0.9545

P (μ-3σ≤x≤μ+3σ)=0.9973

P (μ-1.96σ≤x≤μ+1.96σ)=0.95

P (μ-2.58σ≤x≤μ+2.58σ)=0.99

【例3.5】某班計量地理考試成績的平均成績為80分,服從標準差為8 的正態分布,則成績在70分至90分之間的概率是多少?

軟件運算指導3.3——利用Excel的NORMDIST函數計算正態分布函數

1. 打開Excel的“插入”菜單,選擇“函數”選項,打開“粘貼函數”對話框。

2. 在“函數分類”列表中選擇“統計”,在“函數名”列表中選擇正態分布函數NORMDIST,單擊“確定”按鈕,打開正態分布函數對話框。

3. 把函數分布區間(X)、算術平均(Mean)、標準方差(Standarddev)分別填入各自對話框中,並在“Cumulative”中輸入“0”或“1”分別表示概率密度函數和累計分布函數。

4. 按“確定”按鈕。

4. 伽馬分布(Γ-分布)

概率分布密度函數:

ρ(x)=xα-1e-x\/ββαΓ(x)(x>0)

0(x≤0),

記為ξ~Γ(β,α)。

其中,Γ(x)=∫+∞0xα-1e-xdx,

α>0,β>0,且皆為常數。

分布特征數:平均數

μ=αβ,方差δ2=αβ2。

軟件運算指導3.4——利用Excel的GAMMADIST函數計算伽馬分布函數

1. 打開Excel的“插入”菜單,選擇“函數”選項,打開“粘貼函數”對話框。

2. 在“函數分類”列表中選擇“統計”,在“函數名”列表中選擇伽馬分布函數GAMMADIST,單擊“確定”按鈕,打開伽馬分布函數對話框。

3. 把區間點(X)、α參數(Alpha)、β參數(Beta)分別填入各自對話框中,並在“Cumulative”中輸入“0”或“1”分別表示概率密度函數和累計分布函數。

4. 按“確定”按鈕。

第二節抽樣與估計

地理係統中地理要素多,係統複雜,一般采用抽樣的地理調查方法。

一、 總體與樣本

1. 總體

總體也叫母體,它是所要認識對象的全體,是準備加以觀測的一個滿足指定條件的地理要素的集合。組成總體的每個個體叫做總體單元或單位。

總體可以是有限的,也可以是無限的。如果總體中所包含個體的數目為有限多個,則該總體就是有限總體,反之是無限總體。總體也可區分成計量總體(由測量值組成的)和計數總體(由品質特征組成的)。

在抽樣以前,必須根據實際情況把總體劃分成若幹個互不重疊並且能組合成總體的部分,每個部分稱為一個抽樣單元。不論總體是否有限,總體中的抽樣單元數一定是有限的,而且是已知的,因此說抽樣調查的總體總是有限的。抽樣單元又有大小之分,一個大的抽樣單元可以分成若幹個小的抽樣單元,最小的抽樣單元就是每一個個體。如一項全國性的調查,如果把省作為一級單元,則可以把縣作為二級單元,鄉作為三級單元,村作為四級單元等等。又如在流動人口抽樣中,可以以居委會作為抽樣單元,而在家計調查中,則以戶為抽樣單元。

總體應具備同質性、大量性和差異性的特征。在抽樣調查中,通常將反映總體數量特征的綜合指標稱為總體參數。常見的總體參數主要有:

(1) 總體總和Y:Y=∑ni=1yi=y1+y2+…+yn。

(2) 總體均值:=Y\/n=∑yin。

(3) 總體比率R:是總體中兩個不同指標的總和或均值的比值,R=YX=。

(4) 總體比例P:是總體中具有某種特性的單元數目所占比重,P=n1n。

2. 樣本

樣本是由從總體中所抽選出來的若幹個抽樣單元組成的集合體。抽樣前,樣本是一個n維隨機變量,屬樣本空間;抽樣後,樣本是一個n元數組,是樣本空間的一個點。

樣本是總體的縮影,是總體的代表。抽樣的效果好不好,依賴於樣本對總體是否有充分的代表性。樣本的代表性愈強,用樣本指標對總體全麵特征的推斷就愈精確,即推斷的誤差就愈小;反之,如果樣本的代表性愈弱,推斷的誤差就愈大,推斷結果就愈不可靠。

樣本具有的性質: ① 獨立性;② 同分布性。

3. 樣本容量

樣本中包含的抽樣單元個數稱為樣本容量,又稱樣本含量或樣本大小。總體中所含抽樣單元個數稱為總體容量,樣本容量與總體容量之比為抽樣比,用f表示,即f=nN。必要樣本量則是能夠滿足估計精度要求的最少樣本量。

4. 抽樣

抽樣是從總體中抽出部分個體的過程。其基本要求是要保證所抽取的樣本單位對全部樣品具有充分的代表性。抽樣的目的是從被抽取樣本單位的分析、研究結果來估計和推斷全部樣本特性,是地理係統研究普遍采用的一種研究方法。

二、 地理係統中常用的抽樣方法

1. 隨機抽樣

總體中任何一個元素都有同等被選到的可能性,並且每選一個樣本並不影響選擇另一個樣本。也就是說:每個樣本之間都是獨立的,被抽到的機會是同等可能性。

2. 係統抽樣

係統抽樣又稱機械抽樣,是根據有規則的空間間隔選擇總體的樣本的。由於隨機抽樣位置確定難度大,即一般采用係統抽樣代替隨機抽樣,因係統抽樣中樣本均勻分布在總體中。

3. 分層抽樣

將總體劃分為許多子集,再從每個子集中取出獨立的樣本,如把總體分成N個子集,在每個子集內隨機抽樣n1,n2,…,nN個樣本組成新樣本。

4. 階梯抽樣法

階梯抽樣法是將總體劃分為許多子集,我們從中抽取一定數量的子集,再將抽樣子集劃分為許多小單元進行抽取的方法。

兩階抽樣:把一個總體分成N個單元(稱一階單元),把每個初級單元劃分為M個單元(二階單元),從N個一階單元隨機抽取n個,再從被抽中的每個一階單元隨機抽取m個,組成樣本。

三、 抽樣分布

標準的統計問題為:總體未知,故需從總體中抽取一個較小的、花費不多的隨機樣本,然後構造樣本統計量,並以其估計總體。問題是用樣本指標估計總體指標的可靠程度如何?為此要研究樣本統計量的抽樣分布。

假定某一總體,我們從其中抽取樣本,計算出不同的x和s值,這種樣本數據構建樣本統計量的分布遵從某種概率函數,這種概率函數稱抽樣分布。

1. 抽樣分布中的規律

根據中心極限原理,當抽樣樣本單元充分大時(一般定為n≥50),不論總體的分布如何,樣本平均數的分布都趨於正態分布。

因此,在抽樣中,如果預先不了解總體分布情況,一般采用大樣本估計,其統計量大;若抽樣取樣本單元少,就應采用小樣本估計(一般遵從t分布),但這個分布的前提是總體分布必須為正態分布。

2. 常見的幾種重要的抽樣分布

(1) χ2分布(卡方分布)

我們已經知道標準正態離差u=x-μδ是服從N(0,1)的。假設從標準正態總體中抽取樣本數為n的獨立樣本u12,u22,u32,…, un2,則定義它們的和為χ2,即

u12+u22+u32+…+un2=∑ni=1ui2 =∑ni=1(x-μδ)2。

式中,χ2具有自由度df=n。

χ2分布概率密度為:

p2n(x)=

xn2-12n2Γn2ex2(x>0)

0(x≤0),

記作ξ~χ2(n)。

χ2分布具有如下重要性質:

① 如果ξ~N(0,1),即ξ~χ2(1),則nξ2~χ2(n)。

② 如果ξ21~χ2(n1),ξ22~χ2(n2),則ξ2=ξ21±ξ22~χ2(n1±n2)。

軟件運算指導3.5——利用Excel的CHIDIST函數計算χ2分布的單尾概率

1. 打開Excel的“插入”菜單,選擇“函數”選項,打開“粘貼函數”對話框。

2. 在“函數分類”列表中選擇“統計”,在“函數名”列表中選擇χ2分布函數CHIDIST,單擊“確定”按鈕,打開χ2分布函數對話框。

3. 根據題意,分別輸入χ2分布的單尾概率數值(x),自由度(Degfreedom)。

4. 按“確定”按鈕。

(2) t分布(學生氏t分布)

t分布是英國統計學家Gusset於1908年以筆名“Student”所發表的論文提出的,因此稱學生氏t分布,簡稱t分布。分布的概率密度函數為

ρt(x)=Γn+12nπΓn2x2n+1-n+12(-∞<x<∞)。

t分布具有以下重要性質:

① 如果ξ1和ξ2相互獨立,並且ξ1遵從正態分布,ξ2遵從χ2(n),則ξ=ξ1ξ22\/n遵從自由度為n的t分布的隨機變量。

ξ1~N(0,1),ξ2~χ2(n),ξ=ξ1ζ22\/n~t(n)。

② 當n→∞時,ρt(x)→12πe-x\/2。

一般當n≥50時,可用N0,1代替ρt(x)。

軟件運算指導3.6——利用Excel的TDIST函數計算學生氏t分布的概率

1. 打開Excel的“插入”菜單,選擇“函數”選項,打開“粘貼函數”對話框。

2. 在“函數分類”列表中選擇“統計”,在“函數名”列表中選擇t分布函數TDIST,單擊“確定”按鈕,打開學生氏t分布函數對話框。

3. 根據題意,分別輸入t分布的數值(X)、自由度(Degfreedom)、分布函數的形式(單邊或雙邊)(Tails,即1或2)。

4. 按“確定”按鈕。

(3) F分布

設從一正態總體N(μ,σ2)中,或者從兩個方差相同的正態總體中隨機抽取樣本容量為n1和n2的兩個獨立樣本,其樣本方差為S21和S22,則定義S21和S22的比值為F:

F=S21S22。

此F值的分布是F分布,S21的自由度df1=n1-1和S22的自由度df2=n2-1。

F分布的概率密度函數為:

ρF(x)=n1n2n12·Γn1+n22Γn12Γn22·xn12-11+n1n2xn1+n22(x>0),

0(x≤0)。

F分布有如下重要性質:

如果ξ1和ξ2獨立,且ξ1~χ2n1,ξ2~χ2n2,則ξ=ξ1\/n1ξ2\/n2~Fn1,n2(n1為第一自由度,n2為第二自由度)。

軟件運算指導3.7——利用Excel的FDIST函數計算F分布的概率

1. 打開Excel的“插入”菜單,選擇“函數”選項,打開“粘貼函數”對話框。

2. 在“函數分類”列表中選擇“統計”,在“函數名”列表中選擇F概率分布函數FDIST,單擊“確定”按鈕,打開F概率分布函數對話框。

3. 根據題意,分別輸入F分布的區間點(X)、自由度1(Degfreedom 1)、自由度2 (Degfreedom 2)。

4. 按“確定”按鈕。

3. 正態總體統計量的分布

數理統計中統計量的標準差叫標準誤,即估計值與被估計參數之間誤差的標準單位,記為δx。

參數估計中,

E(x)=x,

重複抽樣下,

δ2(x)=δ2xn,

E(δ2)=EnS2n-1。

方差和數值的重要性質:

① Eξ1±ξ2=E(ξ1)±E(ξ2);

② E(ξ1·ξ2)=E(ξ1)E(ξ2)(ξ1,ξ2獨立);

③ δ2(c)=0;

④ δ2(cξ)=c2δ2(ξ);

⑤ 如果ξ1,ξ2獨立,δ2(ξ1±ξ2)=δ2(ξ1)±δ2(ξ2);

⑥ 如果ξ1,ξ2…,ξn相互獨立,且ξi~N(μ,δ2),則~Nμ,δ2n。

由E(xi)=x,δ2(xi)=δ2x可證明E(xi)=x,δ2(xi)=δx2\/n。

根據上述知識可推出下列正態總體統計量分布。

(1) 設(x1, x2,…, xn)是總體ξ~N(μ,δ2)的樣本,x是樣本均值,則有x~N(μ,δ2\/n),即x-μδ\/n~N(0,1)。

(2) 設(x1, x2,…, xn)是總體ξ~N(μ,δ2)的樣本,x是樣本均值,S2是樣本方差,則有① x和S2相互獨立;② nS2δ2~χ2 (n-1)。

證明:

根據在重複抽樣情況下,樣本方差

S2=1n∑ni=1xi-x2=1n∑ni=1xi-μ-x-μ2

=1n∑ni=1xi-μ2-x-μ2,

即nS2δ2=n1n∑ni=1xi-μ2-x-μ2δ2

=∑ni=1xi-μδ22-x-μ

δ\/n2。

因為xi-μδ~N(0,1)xi-μδ2~χ2(1),

所以∑ni=1xi-μδ2~χ2n,

x-μδ\/n2~χ21,

即nS2δ2~χ2n-1。

(3) 設(x1, x2, …, xn)是總體ξ~N(μ,δ2)的樣本,x是樣本均值,S2是樣本方差,S*是修正樣本標準差,則有x-μS*\/n~t(n-1)。

證明:

由x-μδ\/n~N(0,1)和nS2δ2~χ2 (n-1),x和S2相互獨立,x-μδ\/n和nS2δ2相互獨立,即由t分布定義

x-μδ\/nnS2δ2\/(n-1)=x-μS*\/n~t(n-1)。

(4) 設(x1, x2, …, xn)是總體ξ~N(μ1,δx2)的樣本, (y1, y2, …, yn)是總體η~N(μ2,δy2)的樣本,兩個樣本相互獨立,x和y分別是ξ,η的樣本均值,則有:

(x-y)-(μ1-μ2)δ2xn1+δ2yn2~N(0,1)。

證明:

由於抽取的為大樣本,而由中心極限原理有:

x~Nμ1,S2xx~Nμ1,δ2xn1,

y~Nμ2,S2yy~Nμ2,δ2yn2,

即x-y~Nμ1-μ2,δ2xn1+δ2yn2。

在獨立條件下得到: x-y-μ1-μ2δ2xn1+δ2yn2~N0,1。

(5) 設(x1, x2,…, xn1)是總體ξ~N(μ1,δ12)的樣本, (y1, y2,…, yn2)是總體η~N(μ2,δ22)的樣本,其中δ1=δ2,兩個樣本相互獨立,x和y是ξ,η的樣本均值,Sx2和Sy2是ξ,η的樣本方差,則有:(x-y)-(μ1-μ2)Sw1n1+1n2~t(n1+n2-2),其中Sw=n1S2x+n2S2yn1+n2-2。

證明:

由δ1=δ2=δ及x-y-μ1-μ2δ2xn1+δ2yn2~N0,1,

推導出ξ1=(x-y)-(u1-u2)δ1n1+1n2~N0,1。

又由ξ21=n1S21δ2~χ2n1-1,ξ22=n2S22δ2~χ2n2-1,

得ξ2=ξ21+ξ21=n1S21δ2+n2S22δ2~χ2n1+n2-2。

由ξ1,ξ2統計量可推導:

t=ξ1ξ2\/n1+n2-2~tn1+n2-2,

t=ξ1ξ2\/n1+n2-2=(x-y)-(u1-u2)δ1n1+1n2n1S21+n2S22δn1+n2-2=(x-y)-(u1-u2)n1S21+n2S22n1+n2-21n1+1n2

(6) 設(x1, x2, …, xn)是總體ξ~N(μ1,δ12)的樣本, (y1, y2, …, yn)是總體η~N(μ2,δ22)的樣本,兩個樣本相互獨立,x和y是ξ,η的樣本均值,S*21和S*22是ξ,η的修正樣本方差,則有:S*21\/δ21S*22\/δ22~F(n1-1,n2-1)。

證明:

x1~Nμ1,δ21x1-μ1δ1~N0,1

x2~Nμ2,δ22x2-μ2δ2~N0,1

設ξ1=n1S21δ21,ξ2=n2S22δ22(其中S1,S2為樣本標準差)。

推導出

ξ1~χ2n1-1,

ξ2~χ2n2-1。

那麼由定理ξ=ξ1\/(n1-1)ξ2\/(n2-1)~Fn1-1,n2-1,得

ξ=ξ1\/(n1-1)ξ2\/(n2-1)=n1S21δ21n1-1n2S22δ2n2-1=n1S21n1-1n2S22n2-1·δ22δ21

=S′21S′22·δ22δ21~Fn1-1,n2-1。

第三節統計假設檢驗

一、 一般概念

假設檢驗是數理統計學中根據一定假設條件由樣本推斷總體的一種方法。假設檢驗亦稱“顯著性檢驗(test of statistical significance)”,是用來判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質差別造成的統計推斷方法。其基本原理是先對總體的特征作出某種假設,然後通過抽樣研究的統計推理,對此假設應該被拒絕還是接受作出推斷。地理現象的個體差異是客觀存在的,以致抽樣誤差不可避免,所以我們不能僅憑個別樣本的值來下結論。當遇到兩個或幾個樣本均數、樣本均數與已知總體均數有大有小時,應當考慮到造成這種差別的原因有兩種可能:一是這兩個或幾個樣本均數來自同一總體,其差別僅僅由於抽樣誤差即偶然性所造成;二是這兩個或幾個樣本均數來自不同的總體,即其差別不是由抽樣誤差造成的,而主要是由實驗因素不同所引起的。假設檢驗的目的就在於排除抽樣誤差的影響,區分差別在統計上是否成立,並了解事件發生的概率。

1. 假設檢驗的意義

假設檢驗是抽樣推斷中的一項重要內容。它是根據原資料作出一個總體指標是否等於某一個數值,某一隨機變量是否服從某種概率分布的假設,然後利用樣本資料采用一定的統計方法計算出有關檢驗的統計量,依據一定的概率原則,以較小的風險來判斷估計數值與總體數值(或者估計分布與實際分布)是否存在顯著差異,是否應當接受原假設選擇的一種檢驗方法。

用樣本指標估計總體指標,其結論有的完全可靠,有的隻有不同程度的可靠性,需要進一步加以檢驗和證實。通過檢驗,對樣本指標與假設的總體指標之間是否存在差別作出判斷,是否接受原假設。這裏必須明確,進行檢驗的目的不是懷疑樣本指標本身是否計算正確,而是為了分析樣本指標和總體指標之間是否存在顯著差異。

2. 假設檢驗的基本思想

假設檢驗的基本思想是小概率原理的反證法思想。

概率很小的事件在一次試驗中幾乎不至於發生的,如果根據一定的假設條件正確地計算出某事件發生概率很小,現在一次試驗中竟然發生了(即現在計算出的剛好落在概率範圍內),則我們可以認為假設條件不正確而將其推翻。

假設檢驗就是根據總體的理論分布和小概率原理,對未知或不完全知道的總體提出兩種彼此對立的假設,然後由樣本的實際結果,經過一定的計算,作出在一定概率意義上應該接受的那種假設的推斷。如果抽樣結果使小概率發生,則拒絕假設。如抽樣結果沒有使小概率發生,則接受假設。在計量地理學中,我們一般認為小於0.05或0.10的概率為小概率。通過假設檢驗,可以正確分析處理效應和隨機誤差,作出可取的結論。

3. 統計假設檢驗的一般步驟

(1) 對樣本所屬總體提出無效假設H0或備擇Ha。

(2) 確定檢驗的顯著水平。

(3) 選取適合的統計量,這個統計量選到要使在假設H0成立時,其分布為已知,即遵從某種抽樣分布。

(4) 根據實測樣本,計算出統計量的值。若該值果真在已定範圍內取值,根據小概率原理,推翻假設H0;反之,若該統計量的具體值不在已定的範圍內取值,則不能推翻假設H0。

二、 兩個地理事件或要素的方差比較

在數理統計上為“方差齊性檢驗”,即“兩總體方差差異性檢驗”。由於在進行樣本均值檢驗的一個前提是總體方差均等還是不等,因此有必要進行等方差檢驗。

1. 引入問題

設有兩個地理事件或要素,其樣本分別為x1,x2,…,xn1與y1,y2,…,yn2,它們相互獨立地取自正態總體Nμ1,δ21及Nμ2,δ22,其中μ1,μ2未知,需要檢驗假設H0:δ21=δ22是否成立。

2. 構建統計量

由題意有:

x1~Nμ1,δ21x1-μ1δ1~N0,1;

x2~Nμ2,δ22x2-μ2δ2~N0,1。

設ξ1=n1S21δ21,ξ2=n2S22δ22(其中S1,S2為樣本標準差),

推導出ξ1~χ2n1-1,

ξ2~χ2n2-1。

那麼由定理ξ=ξ1\/(n1-1)ξ2\/(n2-1)~Fn1-1,n2-1,

可有ξ=ξ1\/(n1-1)ξ2\/(n2-1)=n1S21δ21n1-1n2S22δ2n2-1=n1S21n1-1n2S22n2-1·δ22δ21

=S′21S′22·δ22δ21。

由於假設δ21=δ22,

即ξ=S′21S′22~Fn1-1,n2-1,

其中規定S*21>S*22,

因此檢查方差時構建統計量F=S′21S′22~Fn1-1,n2-1。

3. 方差齊性的步驟

(1) 假設兩者總體方差相等,即δ1=δ2。

(2) 求算統計量。

S*21=∑n1i=1xi-x2n1-1=∑n1i=1x2i-∑n1i=1xi2n1n1-1

S*22=∑n2i=1yi-y2n2-1=∑n2i=1y2i-∑n2i=1yi2n2n2-1

F=S*2大S*2小

(3) 判斷F與Fα值。

① 若F>Fαf1=n1-1f2=n2-1,原假設不成立;

② 若F≤Fα,原假設成立。

【例3.6】甲乙兩地理區域各取了50和52個地理數據,算出方差分別為S21=0.0139,S22=0.0053,試問甲乙兩區域方差是否有顯著差異α=0.10?

解:(1) 作原假設H0:δ1=δ2,即甲乙兩區域方差沒有顯著差異。

(2) S*21=∑n1i=1xi-x2n1-1=n1S21n1-1=50×0.013950-1=0.0142=S*2大,

S*22=∑n2i=1yi-y2n2-1=n2S22n2-1=52×0.005352-1=0.0054=S*2小,

F=S*2大S*2小=0.01420.0054=2.56。

③ 判斷假設,查F表有F0.14951=1.473,

則F>Fα,原假設不成立。

【例3.7】根據北京地區近幾年來的地震記錄,測得周口店與下花園兩組P波速度數據(見表32),試檢驗來自不同正態總體的方差是否有顯著差異(α=0.05)。

表32北京地區周口店與下花園的P波速度數據

周口店6.106.256.005.946.186.14

下花園5.976.085.966.015.926.06

解:

(1) 作假設H0:δ12 =δ22,即周口店與下花園P波速度的方差沒有顯著差異。

(2) 由抽樣結果算出:

① 周口店:x1=6.10,n1S12\/(n1-1)=∑n1i=1x2i-∑n1i=1xi2n1n1-1=0.06655。

② 下花園:x2=6.00, n2S22\/(n2-1)=0.0195。

代入統計量算得:F=3.47。

(3) 查F分布表F0.05(5,5)=5.05,即F=3.47

軟件運算指導3.8——利用Excel的“F檢驗雙樣本方差”進行兩個區域方差的比較

1. 打開Excel的“工具”菜單,選擇“數據分析”選項,打開“數據分析”對話框。

2. 在“數據分析”列表中選擇“F檢驗雙樣本方差”,單擊“確定”按鈕,打開“F檢驗雙樣本方差”對話框。

3. 在“變量1的區域”中輸入數據集1;在“變量2的區域”中輸入數據集2;選擇“標誌”選項;在α區域中輸入顯著性水平0.05,Excel分析工具通常將0.05作為默認值。

4. 選擇“輸出選項”。

5. 單擊“確定”。

軟件運算指導3.9——利用SPSS進行方差齊性檢驗

SPSS軟件的“單因素方差分析”中包含有“方差齊性檢驗”模塊,隻要在“選項”中勾選“方差同質性檢驗”即可。具體在“方差分析”的章節中講述該內容。

三、 兩個地理要素或事件的平均數比較

1. 大樣本平均數的假設檢驗——U檢驗

(1) 假設檢驗前提

① 抽取樣本數充分大(n≥50);

② 總體分布未知或已知皆可;

③ 獨立(重複抽樣)。

(2) 統計量構建

設抽取樣本為x1,x2,…,xn1和y1,y2,…,yn2(其中n1,n2≥50),且總體方差δ2x=δ2y,檢驗假設H0:μ1=μ2是否成立。

由於抽取的為大樣本,而由中心極限原理有:

x~Nμ1,S2xx~Nμ1,δ2xn1,

y~Nμ2,S2yy~Nμ2,δ2yn2,

即x-y~Nμ1-μ2,δ2xn1+δ2yn2在獨立條件下得到。

x-y-μ1-μ2δ2xn1+δ2yn2~N0,1

在大樣本中當δ2x未知時,可用nS2n-1作為δ2的一致估計。

x-y-μ1-μ2S21n1-1+S22n2-1~N(0,1)

由於假設μ1=μ2,即μ1-μ2=0,

則U=x-yS21n1-1+S22n2-1~Uα,

其中α=0.1,uα=1.645α=0.05,uα=1.960α=0.01,uα=2.576。

(3) U檢驗步驟

U檢驗步驟為三步,即作統計假設,計算統計量和判斷U值。判斷U值的標準為:

當U>Uα,推翻假設;

當U≤Uα,接受假設。

【例3.8】某地理區域取得169個某要素的地理數據,算得x=31.7,S1=2.5。又在相鄰區域測得99個地理數據,得y=28.8,S2=2.6,問兩個地理區域是否為同一類型?

解:(分析:n2>n1≥50,為大樣本)

(1) 作統計假設,兩上樣本看成同一類型,即假設H0:μ1=μ2。

(2) 計算統計量U

U=x-ys21n1-1+s22n2-1=31.7-28.82.52168+2.6298=2.90.037+0.07=9.06。

(3) 判斷U值

|U|>Uα,推翻假設;|U|≤Uα,接受假設。

設在本題中取可靠性為95%,Uα=U0.05=1.96。

U=9.06>U0.05=1.96,故可推翻假設。

因此,這兩個地理區域不是同一類型。

【例3.9】在某塊林地中隨機抽取兩塊麵積相等的樣地,測得其樹高如表33。

表33某塊林地中隨機抽取樣地的樹高數據表

樣地編號樹高

18.3,8.6,8.4,8.2,8.1,8.7,8.0,7.9,7.9,7.5,7.8,7.9,7.6,8.1,8.0,8.4,8.6,8.9,8.4,8.3,8.1,8.2,8.2,8.4,8.0,8.6,8.1,8.2,8.0,7.1,7.5,7.9,7.5,7.5,8.3,8.0,8.5,7.6,7.7,7.9,7.8,7.5,7.4,7.0,7.6,7.5,8.6,8.1,7.9,7.7

28.2,7.1,7.3,7.9,7.2,8.2,8.3,8.1,8.9,8.7,8.1,8.5,7.9,7.3,7.4,7.1,6.9, 8.9,6.6,5.9,8.2,8.3,8.7,8.9,7.6,7.9,8.2,8.9,8.7,8.1,8.6,8.9,8.8,8.7,6.5,8.1,6.2,6.5,8.8,8.9,8.6,6.2,8.2,8.0,8.0,8.1,9.7,8.5,8.6,8.1

已知,總體方差為0.5和0.8,試用Excel檢驗其均值是否來自同一總體。

軟件運算指導3.10——利用Excel的“Z檢驗雙樣本平均差檢驗”進行兩個區域大樣本平均數的假設檢驗

1. 打開Excel的“工具”菜單,選擇“數據分析”選項,打開“數據分析”對話框。

2. 在“數據分析”列表中選擇“Z檢驗雙樣本平均差檢驗”,單擊“確定”按鈕,打開“Z檢驗雙樣本平均差檢驗”對話框。

3. 用戶可以在該分析工具對話框中進行下列設置。

(1) 變量1的區域編輯框:在此輸入需要分析的第一個數據區域的單元格引用。該區域必須由單列或單行的數據組成。

(2) 變量2的區域編輯框:在此輸入需要分析的第二個數據區域的單元格引用。該區域必須由單列或單行的數據組成。

(3) 假設平均差編輯框:在此輸入期望中的樣本均值的差值。0值則說明假設樣本均值相同。

(4) 變量1的方差(已知):在此輸入變量1輸入區域的總體方差。

(5) 變量2的方差(已知):在此輸入變量2輸入區域的總體方差。

(6) 標誌複選框:如果輸入區域的第一行或第一列中包含標誌項,請選中此複選框;如果輸入區域沒有標誌項,則消除此複選框;

(7) 在α區域中輸入顯著性水平0.05,Excel分析工具通常將0.05作為默認值。

4. 選擇“輸出選項”。

5. 單擊“確定”。

2. t檢驗

這裏主要講獨立樣本的t檢驗。

(1) 假設前提

① 由於樣本數據少(一般n≤50),樣本的背景總體近似於正態分布。

② 樣本獨立(重複抽樣)。

③ 抽樣總體等方差(在“等方差檢驗”中進行檢驗)。

(2) 構建統計量

我們檢驗條件為μ1=μ2。

由μ1=μ2,δ1=δ2,

得t=ξ1ξ2\/n1+n2-2~tn1+n2-2,

t=ξ1ξ2\/n1+n2-2=x-yδ1n1+1n2n1s21+n2s22δn1+n2-2=x-yn1s21+n2s22n1+n2-21n1+1n2。

如果μ1=μ2,δ1≠δ2,得

t=x-ys2xn1+s2yn2。

(3) t檢驗步驟

① 建立假設H0,樣本x與y的總體平均數無差異。

② 計算統計量t。

t=x-yn1σ1+n2σ2n1+n2-21n1+1n2

③ 判斷假設。

若t>tαn1+n2-2,推翻原假設H0;

若t≤tαn1+n2-2,接受原假設H0。

【例3.10】某鋅礦的東西兩支礦脈中各抽取樣本容量分別為9與8的子樣,分析後計算其子樣含鋅(%)的平均數與方差如下:

東支:x=0.230,S21=0.1337。

西支:y=0.269,S22=0.1736。

設東西二支的含鋅量都服從正態分布,問平均數是否可視一樣?

解:(1) 據已知呈正態分布,假設檢驗H0:μ1=μ2。

(2) 在等方差條件下,計算統計量。

t=x-yn1S21+n2S22n1+n2-21n1+1n2=0.15

(3) 判斷假設。

|t|=0.15

承認假設。

【例3.11】太平洋某島1940年與1953年(地震後)深層海水的相對密度如表34,密度單位:海水密度4℃水密度-1×1000。

表34太平洋某島1940與1953年深層海水的相對密度

深度1940年1953年

150027.4827.66

300027.5127.74

250027.5827.77

300027.6327.78

350027.79

400027.80

試問1953年地震後,地震對海水密度是否有顯著影響(已知總體等方差,α=0.05)?

解:(1) 據經驗其密度呈正態分布,假設檢驗H0:μ1=μ2。

(2) 計算統計量。

1940年:x1=27.55,S12=0.01384。

1953年:x2=27.76,S22=0.01356。

(3) 判斷假設。

|t|=5.58>t0.05(8)=2.306。

推翻假設。

軟件運算指導3.11——利用Excel的“t檢驗-雙樣本等方差假設” 檢驗兩個區域均值實際上是否相等。

1. 打開Excel的“工具”菜單,選擇“數據分析”選項,打開“數據分析”對話框。

2. 在“數據分析”列表中選擇“t檢驗雙樣本等方差假設”,單擊“確定”按鈕,打開“t檢驗雙樣本等方差假設”對話框。

3. 用戶可以在該分析工具對話框中進行下列設置。

(1) 變量1的區域編輯框:在此輸入需要分析的第一個數據區域的單元格引用。該區域必須由單列或單行的數據組成。

(2) 變量2的區域編輯框:在此輸入需要分析的第二個數據區域的單元格引用。該區域必須由單列或單行的數據組成。

(3) 假設平均差編輯框:在此輸入期望中的樣本均值的差值。0值則說明假設樣本均值相同。

(4) 標誌複選框:如果輸入區域的第一行或第一列中包含標誌項,請選中此複選框;如果輸入區域沒有標誌項,則消除此複選框。

(5) 在α區域中輸入顯著性水平0.05,Excel分析工具通常將0.05作為默認值。

4. 選擇“輸出選項”。

5. 單擊“確定”。

假如上例中總體方差通過檢驗為不等,則采用下列方法求解。

軟件運算指導3.12——利用Excel的“t檢驗雙樣本異方差假設”檢驗兩個區域均值實際上是否相等

1. 打開Excel的“工具”菜單,選擇“數據分析”選項,打開“數據分析”對話框。

2. 在“數據分析”列表中選擇“t檢驗雙樣本異方差假設”,單擊“確定”按鈕,打開“t檢驗雙樣本異方差假設”對話框。

3. 用戶可以在該分析工具對話框中進行下列設置。

(1) 變量1的區域編輯框:在此輸入需要分析的第一個數據區域的單元格引用。該區域必須由單列或單行的數據組成。

(2) 變量2的區域編輯框:在此輸入需要分析的第二個數據區域的單元格引用。該區域必須由單列或單行的數據組成。

(3) 假設平均差編輯框:在此輸入期望中的樣本均值的差值。0值則說明假設樣本均值相同。

(4) 標誌複選框:如果輸入區域的第一行或第一列中包含標誌項,請選中此複選框:如果輸入區域沒有標誌項,則消除此複選框。

(5) 在α區域中輸入顯著性水平0.05,Excel分析工具通常將0.05作為默認值。

4. 選擇“輸出選項”。

5. 單擊“確定”。

軟件運算指導3.13——利用SPSS進行獨立樣本均值t檢驗(包括等方差和異方差)

進行獨立樣本的t檢驗要求被比較的兩個樣本彼此獨立,即沒有配對關係。要求兩個樣本均來自正態總體,而且均值是對於檢驗有意義的描述統計量。

當在數據窗口中讀入了一個數據文件後,執行獨立樣本t檢驗的步驟如下:

1. 在主菜單中單擊“分析(Analyze)”展開下拉菜單,從下拉菜單中依次選擇“比較均值獨立樣本T檢驗(Compare Means, IndependentSamples T Test)”,彈出獨立樣本t檢驗主對話框。

2. 從左邊的源變量框中選擇檢驗變量,單擊上麵一個箭頭按鈕,送入“檢驗變量(Test Variable[s])”矩形框中。可以同時選擇多個檢驗變量進入“檢驗變量(Test Variable[s])”框中。

3. 從左邊的源變量框中選擇變量,單擊下麵一個箭頭按鈕,送入“分組變量(Grouping Variable)”框中。

4. 單擊“定義組(Define Groups)”圖標按鈕,展開定義分組對話框。

(1) 如果指定的“分組變量(Grouping Variable)” 是連續變量,則在該對話框中應該選擇“割點(Cut point)”選擇項。該項應該在後麵的矩形框中輸入一個分組變量的值,將觀測量按其值分為大於該值和小於該值的兩組。檢驗在這兩個組之間進行,比較其因變量在兩組的均值間是否有顯著性差異。

(2) 如果是分類變量,即選擇“指定分類值(Use specified values)”,該項按分組變量的值進行分組。需要在“組1(Group 1)”和“組2(Group 2)”後麵兩個矩形框中輸入第一組和第二組的分類變量值。

完成指定分組後,單擊“繼續(Continue)” 按鈕確認在該對話框中的定義,返回主對話框。

5 在主對話框中單擊“確定(OK)”按鈕,可以立即執行具有係統默認選擇項的獨立樣本T檢驗。如果需要,在執行統計分析之前,可以單擊主對話框中的“選項(Options)” 圖標按鈕,彈出對話框,在其中指定置信區間及處理缺失值的方式:

(1) 置信區間百分比(Confidence Interval):該選擇項指定置信區間。係統默認值是95%。光標置於該項後麵的矩形框中可以重新輸入一個用戶指定的百分比值。

(2) 缺失值(Missing Values):選擇對缺失值的處理方法

●按分析順序排除個案(Exclude cases analysis by analysis):當帶有缺失值的觀測量與分析有關時才被剔除。

●按列表排除個案(Exclude cases listwise):剔除所有缺失值的觀測量。

四、 兩個以上地理事件或要素的平均數比較

兩個以上地理事件或要素的平均數比較一般采用方差分析。

1. 方差分析的基本原理

方差是描述變異的一種指標,方差分析也就是對變異的分析。對總變異進行分析,看總變異是由哪些部分組成的,這些部分間的關係如何,是兩個總體參數假設檢驗的推廣。如使用t檢驗時,先要考慮檢驗樣本的方差是否相等,然後再經過計算對樣本均值進行檢驗,而使用“單因素方差分析”不必考慮樣本數據的方差是否相等,可以直接對樣本進行分析,並在生成的方差分析表中對其均值情況作出判斷。認為各組實驗結果的均值差異主要有兩個:組間差(由於實驗條件不同而引起的本質差異),組內差(實驗的隨機誤差,是非本質誤差)。一般隻考慮組間差,如各樣本無差異,即組間差大於臨界值應可以拒絕假設。

根據資料的設計類型,即變異的不同來源,將全部觀察值總的離均差平方和及自由度分解為兩個或多個部分,除隨機誤差外,其餘每個部分的變異可由某個因素的作用加以解釋,通過比較不同來源變異的均方(MS),借助F分布做出統計推斷,從而了解該因素對觀察指標有無影響。

2. 方差分析的步驟

(1) 平方和與自由度的分解

設有n個區域,分別從每個區域中抽取k個樣本,這樣可以構成表35。

表35方差分析的樣本構成

樣本數N

水平區域個數

樣本數據

12…j…kT=∑kj=1XijXi=1k∑kj=1Xij

A1X11X12…X1j…X1k

∑kj=1X1j

X1

A2X21X22…X2j…X2k

∑kj=1X2j

X2



AiXi1Xi2…Xij…Xik

∑kj=1XijXi



AnXn1Xn2…Xnj…Xnk∑kj=1Xnj

Xn

還要算出:X=1nk∑ni=1∑kj=1Xij。

(2) 統計量的構建

為了找出組間方差S2i、組內方差和總方差的關係,可假設前提(正態、獨立、等方差)。設相同的總體方差為δ2,即所有nk個數據組成樣本方差S2。

S2=1nk∑ni=1∑kj=1(xij-x)

=1nk∑ni=1∑kj=1[(xij-xi)+(xi-x)]2

=1nk∑ni=1∑kj=1(xij-xi)2+2∑ni=1∑kj=1(xij-xi)(xi-x)+∑ni=1∑kj=1(xi-x)2

=1nk∑ni=1∑kj=1[(xij-xi)2+2∑ni=1(xi-x)[∑kj=1(xij-xi)]+∑ni=1∑kj=1(xi-x)2

=1nk∑ni=1∑kj=1[(xij-xi)2+2∑ni=1(xi-x)[∑kj=1xij-kxi]+∑ni=1∑kj=1(xi-x)2

=1nk∑ni=1∑kj=1[(xij-xi)2+∑ni=1∑kj=1(xi-x)2

=1nk∑ni=1∑kj=1[(xij-xi)2+k∑ni=1(xi-x)2

nkS2δ2x=∑ni=1∑kj=1xij-xiδx2+k∑ni=1xi-xδx2

對於∑ni=1∑kj=1(xij-xiδ2x)2,

由正態等方差的假設,則

xij~N(xi,δ2x)

∑ki=1xij-xiδx2=kS2iδ2x~χ2(k-1),總共n組,即∑ni=1kS2iδ2x~χ2[n(k-1)],

因此,∑ni=1∑kj=1xij-xiδ2x2=∑ni=1kS2iδ2x~χ2[n(k-1)]

對於k∑ni=1xi-xδx2,

由於∑kj=1xij-xiδx~χ2(k-1),

用總方差與組內方差的相差關係

k∑ni=1xi-xδx2~χ2(nk-1-nk+n)=χ2(n-1),

F=k∑ni=1xi-xδx2n-1∑ni=1∑kj=1xij-xiδx2n(k-1)=k∑ni=1(xi-x)2n-1∑ni=1∑kj=1(xij-xi)2n(k-1)=S2An-1S2en(k-1)~Fαn-1n(k-1),

式中:S2A為組間平方和;S2e為組內平方和。

(3) 方差分析範例

【例3.12】對某地5處灰岩抽取20塊樣品,測定含砂量(如表36),試檢驗其差異(這種差異是抽樣造成的隨機誤差還是不同的灰岩造成的條件誤差)?

表36樣本構成

含砂量(%)樣品號(j)

1234Xi=14∑4j=1Xij

灰岩號(i)

19.810.010.110.910.2

29.511.2

10.4

11.3

10.6

3

11.2

10.9

11.5

13.2

11.7

4

11.8

12.1

10.3

10.2

11.1

5

9.6

10.0

8.4

8.8

9.2

總平均X=120∑5i=1∑4j=1Xij10.56

解:

① 作統計假設H0:x1=x2=x3=x4=x5,即五處灰岩為同一岩層。

② 計算組間均方和組內均方S2An-1、S2en(k-1),並建立方差分析表(見表37)。

表37方差分析表

方差來源平方和自由度均方F值Fαn-1n(k-1)

組間

SA2=k∑ni=1(xi-x)2=14.288n-1(4)S2A=S2An-1(3.572)

組內Se2=∑ni=1∑kj=1(xij-xi)2=10.52

n(k-1)(15)S2e=S2en(k-1)(0.701)

總和S總2=∑ni=1∑kj=1(xij-xi)2=24.808nk-1(19)F=S2A\/S2e(5.09)

F0.05514=3.06

③ 判斷假設。

F=5.09>F0.05415=3.06,推翻假設。

因此得出結論:五種灰岩露頭不能劃歸一個岩層。

軟件運算指導3.14——利用Excel的“單因素方差分析” 檢驗兩個以上區域均值差異

1. 打開Excel的“工具”菜單,選擇“數據分析”選項,打開“數據分析”對話框。

2. 在“數據分析”列表中選擇“方差分析:單因素方差分析”,單擊“確定”按鈕,打開“方差分析:單因素方差分析”對話框。

3. 用戶可以在該分析工具對話框中進行下列設置。

(1) 輸入區域編輯櫃:在此輸入待分析數據區域的單元格引用。該引用必須由兩個或兩個以上按列或行組織的相鄰數據區域組成。

(2) 分組方式選項:如果需要指出輸入區域中的數據是按行還是按列排列,則單擊“行”或“列”選項。

(3) 標誌位於第一行複選框:如果輸入區域的第一行(列)中包含標誌項,則選中該複選樞;如果輸入區域沒有標誌項,則該複選櫃不被選中,將在輸出表中生成適合的數據標誌。

(4) α 編輯框:在此輸入計算F統計臨界位的置信度。

4. 選擇“輸出選項”。

5. 單擊“確定”。

軟件運算指導3.15——利用SPSS的“單因素方差分析(OneWay ANOVA)”檢驗兩個以上區域均值差異

當在數據窗中讀入了一個數據文件後,執行方差分析檢驗步驟如下:

1 在主菜單中單擊“分析(Analyze)”展開下拉菜單,從下菜單中依次選擇“均值比較:單因子ANOVA(Compare Means:OneWay ANOVA)”,彈出單因素方差分析主對話框。

2 根據分析要求指定方差分析的觀測變量和控製變量。

在左邊的源變量對話框中選擇作為因變量(觀測變量)的變量名,單擊上麵一個向右箭頭按鈕,將它移入“因變量列表(Dependent List)” 框中。可以同時指定多個控製變量的變量名,單擊下麵一個向右箭頭按鈕,將它移入“因子(Factor)”框中。

3 單擊“確定(OK)”即可按係統默認選項進行單因素方差分析。

在提交係統分析之前,如有必要,可單擊主對話框下方的三個圖標按鈕,在彈出的子對話框中指定其他選擇項。單因素方差分析的選擇項分為三類:

(1) 對比(Contrasts):指定一種要用T檢驗來檢驗的Priori對比。

(2) 兩兩比較(Post Hoc):指定一種多重比較檢驗。共提供多種多重比較的方法,包括假定方差齊性與未假定方差齊性。

(3) 選項(Options): 指定要輸出的統計量及處理缺失值的方法。其中的選擇項分三組:

① 統計量(Statistcs):輸出統計量的選擇項

●描述性(Descriptive):要求輸出描述統計量,包括:觀測量數目、均值、標準差、標準誤、最小值、最大值、各組中每個譜量的置信區間。

●方差同質性檢驗(Homogeneityofvariance):要求進行方差齊次性檢驗,並輸出檢驗結果。用Levene這兩個選擇項是並列選擇項,或以同時選擇.

② 均值圖(Means plot):選擇此項,要求輸出均線圖,輸出各水平下觀測變量均值的折線圖。

③ 缺失值(Missing Values):缺失值處理方式。

●按分析順序排除個案(Exclude cases analysis by analysis):對含有缺失值的觀測量根據缺失值是因變量還是自變量從有關的分析中剔除.

●按列表排除個案(Exclude cases listwise): 對含有缺失值的觀測量,從所有分析中剔除。

1. 分別測得14例老年性慢性支氣管炎病人及11例健康人的尿中17酮類固醇排出量(mg\/dl)如下,試比較兩組均數有無差別。

病人2.90

5.41

5.48

4.60

4.03

5.10

4.97

4.24

4.36

2.72

2.37

2.09

7.10

5.92

健康人

5.18

8.79

3.14

6.46

3.72

6.64

5.6

4.57

7.71

4.99

4.01

2. 簡述利用SPSS進行方差分析的步驟。

3. 兩個區域的某種金屬含量,通過分別抽取51個樣本,測得甲區域含量為68.2‰,標準差為2.52‰,乙區域含量為67.52‰,標準差為2.82‰,試檢測兩個區域是否可以歸類(U0.05=1.960)?

4. 一個農業站想要檢驗一種化肥對小麥的效用,選擇了24個等麵積的地塊,其中的一半施用該肥料,而另一半不施用,其他的條件均相同。未施用的地塊的小麥產量為4.8kg,標準差為0.4kg,同時施用地塊的平均產量為5.1kg,標準差為0.36kg,假設總體服從正態分布且等方差,在給定期的顯著水平下,施肥對產量的提高有效果嗎?(t0.01(22)=2.51)

5. 已知兩個地區A和B,它的平均人口密度沒有差異,從A地區抽取16個縣(市),B地區抽取25個縣(市),測得它們的標準差分別為9和12,試分析它們的離散程度。(F0.0116-125-1=3.29)

6. 簡述統計假設檢驗的步驟。

7. 簡述利用Excel和SPSS進行方差分析的步驟。

8. 對某區域在不同的時間下抽取的樣本數據如下,試分析樣本抽取的時間影響。

12345∑5ixijxi=∑5ixij\/5

5月(x1)212924222512124.2

1月(x2)202525232912224.4

9月(x3)242228252112024

x=∑5i∑3jxij\/15=24.2

9. 根據下列給定的數據進行方差分析。

方差來源

平方和

自由度

均方

F值

Fαn-1n(k-1)

組間S2A=k∑ni=1(xi-x)2=14.288

組內S2e=∑ni=1∑kj=1(xij-xi)2=10.52

總和

S2總=∑ni=1∑kj=1(xij-x)2=24.808

F0.05415=3.06

第四章地理要素的相關與回歸

第四章地理要素的相關與回歸

地理係統的各地理要素之間存在著相互聯係、相互影響和相互製約的關係。為了認識地理係統的規律性,需要找出地理係統中不同現象或要素之間的關係。由於地理現象受係統中多種因素的幹擾,從大量隨機的不確定性的現象中尋求係統的相互作用規律,一般采用回歸與相關的分析統計方法。

如果兩個變量間關係屬於因果關係,一般用回歸來研究。表示原因的變量稱為自變量,用x表示。自變量是固定的,沒有隨機誤差。表示結果的變量稱為因變量,用y表示。y是隨x的變化而變化的,並有隨機誤差。通過回歸分析,可以找出因變量變化的規律性,且能由x的取值預測y的取值範圍。

如果兩變量是平行關係,隻能用相關來進行研究。在相關分析中,變量x和y無自變量和因變量之分,且都具有隨機誤差。相關分析隻能研究兩個變量之間相關程度和性質,不能用一個變量的變化去預測另一個變量的變化,這是回歸與相關區別的關鍵所在。但是二者也不能截然分開,因為由回歸可以獲得相關的一些重要信息,由相關也可獲得回歸的一些重要信息。

第一節地理要素的相關分析

一、 地理相關

1. 概念

所謂相關,是指兩個或兩個以上變數間相互關係是否密切。在研究這種關係時並不專指哪一個是自變量,哪一個是因變量,而視實際需要確定。相關分析僅限於測定兩個或兩個以上變數具有相關關係者,其主要目的是計算出表示兩個或兩個以上變數間相關程度和性質。

在地理學中絕大多數的要素間是具有相關關係的變量,故相關分析在地理學中早為人們所注意,並得到了廣泛的應用。所謂地理相關,是指兩個或兩個以上的地理要素存在的一種相互關係的關聯程度。地理要素之間的相關的分析任務,是揭示地理要素之間相互關係的密切程度。

地理要素之間的相互關係大致可以分成兩種類型:一類是函數關係,另一類是相關關係。

(1) 函數關係

函數是指現象之間有一種嚴格的確定性的依存關係,表現為某一現象發生變化另一現象也隨之發生變化,而且有確定的值與之相對應。

(2) 相關關係

相關關係是指客觀現象之間確實存在的,但數量上不是嚴格對應的依存關係。在這種關係中,對於某一現象的每一數值,可以有另一現象的若幹數值與之相對應。例如生育率與人均GDP的關係也屬於典型的相關關係:人均GDP高的國家,生育率往往較低,但二者沒有唯一確定的關係,這是因為除了經濟因素外,生育水平還受教育水平、城市化水平以及不易測量的民族風俗、宗教和其他隨機因素的共同影響。

具有相關關係的某些現象可表現為因果關係,即某一或若幹現象的變化是引起另一現象變化的原因,它是可以控製、給定的值,將其稱為自變量;另一個現象的變化是自變量變化的結果,它是不確定的值,將其稱為因變量。但具有相關關係的現象並不都表現為因果關係,這是由於相關關係比因果關係包括的範圍更廣泛。

相關關係和函數關係既有區別,又有聯係。有些函數關係往往因為有觀察或測量誤差以及各種隨機因素的幹擾等原因,在實際中常常通過相關關係表現出來;而在研究相關關係時,當對其數量間的規律性了解得越深刻的時候,其相關關係就越有可能轉化為函數關係或借助函數關係來表現。

(3) 相關關係的兩個特點

① 現象之間確實存在著數量上的依存關係。就是說,一個現象發生數量上的變化,另一個現象也會相應地發生數量上的變化。

② 現象間的數量依存關係值是不確定的。就是說,一個現象發生數量上的變化,另一個現象會有幾個可能值與之對應,而不是唯一確定的值。

2. 相關關係的種類

現象之間的相關關係從不同的角度可以區分為不同類型。

(1) 按照相關的方向不同分為:正相關和負相關。

正相關——當一個變量的值增加或減少,另一個變量的值也隨之增加或減少。

負相關——當一個變量的值增加或減少時,另一變量的值反而減少或增加。

(2) 按照相關形式不同分為:線性相關和非線性相關。

線性相關——又稱直線相關,是指當一個變量變動時,另一變量隨之發生大致均等的變動,從圖形上看,其觀察點的分布近似地表現為一條直線。

非線性相關——一個變量變動時,另一變量也隨之發生變動,但這種變動不是均等的,從圖形上看,其觀察點的分布近似地表現為一條曲線,如拋物線、指數曲線等,因此也稱為曲線相關。

(3) 按相關程度分為:完全相關、不完全相關和不相關。

完全相關——當一個變量的數量完全由另一個變量的數量變化所確定時,二者之間即為完全相關。因此也可以說函數關係是相關關係的一個特例。

不相關——又稱零相關,當變量之間彼此互不影響,其數量變化各自獨立時,則變量之間為不相關。

不完全相關——如果兩個變量的關係介於完全相關和不相關之間,稱為不完全相關。由於完全相關和不相關的數量關係是確定的或相互獨立的,因此統計學中相關分析的主要研究對象是不完全相關。

(4) 按研究的變量(或因素)的多少分為:單相關、複相關和偏相關。

單相關——又稱一元相關,是指兩個變量之間的相關關係。

複相關——又稱多元相關,是指三個或三個以上變量之間的相關關係。

偏相關——在一個變量與兩個或兩個以上的變量相關的條件下,當假定其他變量不變時,其中兩個變量的相關關係稱為偏相關。

(5) 按研究要素的性質分

上述所講的相關關係都是針對定量數據的,對於按定性數據的等級相關(秩相關)與品質相關。

二、 地理相關程度的測定

地理要素之間相互關係的密切程度的測定,主要是通過對相關係數的計算與檢驗來完成的。

1. 簡單相關係數

簡單相關係數,一般指皮爾遜(Pearson)相關係數。

(1) 相關係數的計算

① 計算公式

對於兩個要素x,y,如果它們的樣本值分別為xi和yi,則它們的相關係數為:

rxy=∑ni=1xi-xyi-y∑ni=1xi-x2∑ni=1yi-y2。

該公式可由定理δ2(ξ1+ξ2)=δ2(ξ1)+δ2(ξ2)+2cov(ξ1,ξ2)推導出。

當ξ1=ξ2=ξ時,有cov(ξ1,ξ2)=[δ2(ξ1+ξ2)-δ2(ξ1)-δ2(ξ2)]\/2

=[δ2(2ξ)-δ2(ξ)-δ2(ξ)]\/2

=δ2(ξ),

即cov(x,x) =δxx= δ2(x)。

從以上推理,我們引入相關係數,若x,y是獨立的,即總體協方差cov(x,y)=δxy=0;若x,y完全相關,即總體協方差cov(x,y)=δxy=δ(x)δ(y)。

據此,我們引入變量x與y相互依賴的測度,即相關係數ρ=δxy\/δ(x)δ(y)。

如果我們假定

Lxy=∑ni=1xi-x2yi-y=∑ni=1xiyi-1n∑ni=1xi∑ni=1yi,

Lxx=∑ni=1xi-x2=∑ni=1xi2-1n∑ni=1xi2,

Lyy=∑ni=1yi-y2=∑ni=1y2i-1n∑ni=1yi2,

則相關係數化為rxy=LxyLxx·Lyy。

② 性質

(a) 相關係數範圍:-1≤r≤1。

(b) 當r為正,表示正相關,即兩要素相關的方向是相同的;當r為負,表示負相關,即要素相關的方向是相反的。

(c) 相關係數的絕對值r愈大,表示相關程度越密切。

【例4.1】某市各月平均氣溫與5cm平均地溫如表41。

表41某市各月平均氣溫與5cm平均地溫表

月份123456789101112

氣溫-4.7-2.34.413.220.224.226.024.619.512.54.0-2.8

地溫-3.6-1.45.114.522.326.928.226.521.113.44.6-1.9

求算某市各月平均氣溫與5cm以下平均地溫的相關程度。

解:為了計算的方便,根據相關係數的計算公式,列出計算表(見表42)。

表42相關係數的計算表

月份xi(氣溫)yi(地溫)xiyixi2yi2計算

1-4.7-3.616.9222.0912.96

2-2.3-1.43.225.291.96

3+4.45.122.4419.3626.01

413.214.5191.40174.24210.30

520.222.3450.46408.00497.30

624.226.9640.98585.60723.60

726.028.2733.20676.00800.90

824.626.5650.90605.2702.30

919.521.1411.45380.30445.20

1012.513.4167.50156.30179.60

114.04.618.4016.0021.16

12-2.8-1.95.327.843.16

∑138.8155.73323.193056.163619.11

Lxy=∑ni=1xiyi-1n(∑ni=1xi)(∑ni=1yi)

=3323.19-112×138.8×155.7

=1522.26

Lxx=∑ni=1x2i-1n(∑ni=1xi)2

=3056.16-112×138.82

=1450.71

Lyy=∑ni=1y2i-1n(∑ni=1yi)2

=3619.11-112×155.72

=1598.90

根據表42,計算相關係數如下:

r=LxyLxx·Lyy=1522.261450.7×1598.90=0.9995。

軟件運算指導4.1——利用Excel的CORREL函數計算相關係數

1. 打開需計算相關係數文件。

2. 選定需輸出相關係數的單元格。單擊“插入”菜單,選擇“函數”選項,Excel將彈出“粘貼函數”對話框。

3. 在“函數分類”列表中選擇“統計”,在“函數名”列表中選函數“Correl”,單擊“確定”按鈕,彈出Correl函數對話框。

4. 在“Array 1”區域中輸入變量數據集1,“Array 2”區域中輸入變量數據集2後,對話框底部便顯示出計算結果。如果對話框中沒有計算結果,便說明計算有錯誤,需要再檢查一下。

5. 單擊“確定”按鈕,計算完成。

2. 相關係數的檢驗

當兩要素的相關係數求出後,還需要對相關係數進行檢驗,因為相關係數是根據要素的樣本求得,它隨著樣本數的多少或抽樣方式的不同而不同,隻有通過檢驗,才能測定其可信度。

檢驗方法:在給定的置信度(可信度1-α,危險率α)的條件下,通過查明相關係數檢驗的臨界值表(表43)來完成。在該表中α代表危險率,f代表n-2(n為樣本對數)。

表43檢驗相關係數ρ=0的臨界值表

0.100.05

0.01

f

α

0.10

0.05

0.01

10.987690.996920.999877160.40000.46830.5897

20.900000.950000.99000170.38870.45550.5751

30.80540.87830.95873180.37830.44380.5614

40.72930.81140.91720190.36870.43290.5487

50.69940.75450.8745200.35980.42270.5368

60.62150.70670.8343250.32330.38090.4869

70.58220.66640.7977300.29600.34940.4487

80.54940.63190.7646350.27460.32460.4182

90.52140.60210.7348400.25730.30440.3932

100.49730.57600.7079450.24280.28750.3721

110.47620.55290.6835500.23060.27320.3541

120.45750.53240.6614600.21080.25000.3248

130.44090.51390.6411700.19540.23190.3017

140.42590.49730.6226800.18290.21720.2830

150.41240.48210.6055900.17260.20500.2673

我們對例4.1的相關係數進行檢驗。

由題意n=12,如果給定危險率為0.05,查表r0.05=0.5760,因為r=0.9995>r0.05=0.576,說明北京市的平均氣溫與平均地溫的線性相關達到顯著水平。

3. 相關陣(相關係數矩陣)

如果涉及x1,x2,…,xn等n個要素,則對於其中任意兩個要素xi和yj,我們都可以按相關係數計算公式計算出它們之間的相關係數rij,這樣可得到多要素的相關係數矩陣:

R=r11r12…r1j…r1nr21r22…r2j…r2n……ri1ri2…rij…rin……rn1rn2…rnj…rnn。

相關係數矩陣之中:

(1) rii=1,即每一個要素與它的自身相關程度最大;

(2) rij=rji,即R為對稱矩陣。

R=1r211ri1ri2………rn1rn2…rnj…1

【例4.2】不同植被類型的生產量與水熱資源表(見表44)。

表44不同植被類型的生產量與水熱資源表

植被類型

輻射平衡(千卡\/cm2·年)X1

年降水量(mm)X2

輻射幹燥指數X3

植物年幹物重X4

類型1102500.6710

類型2209000.3725

類型3266000.7265

類型4267000.6260

類型5307300.6879

類型6356700.8884

類型7368000.7590

類型837.57000.89111

續表

植被類型

輻射平衡(千卡\/cm2·年)X1

年降水量(mm)X2

輻射幹燥指數X3

植物年幹物重X4

類型9416001.1477

類型104410000.73130

類型11427001.00104

類型12494801.7087

類型13402402.7824

類型14403501.9043

類型15471405.6012

類型16511705.007

類型17662304.7824

類型18671457.707

類型19654502.4073

類型207010501.11150

類型216514000.78245

類型227518000.70320

類型238020000.67330

軟件運算指導4.2——利用Excel的“相關係數”計算相關係數矩陣

1. 打開Excel的“工具”菜單,選擇“數據分析”選項,打開“數據分析”對話框。

2. 在“數據分析”列表中選擇“相關係數”,單擊“確定”按鈕,打開“相關係數”對話框。

3. 用戶可以在該分析工具對話框中進行下列設置。

(1) 輸入區域編輯框:在此輸入待分析數據區域的單元格引用。該引用必須由兩個或兩個以上按列或行組織的相鄰數據區域組成。

(2) 分組方式選項:如果需要指出輸入區域中的數據是按行還是按列排列,則單擊“行”或“列”選項。

(3) 標誌位於第一行複選框:如果輸入區域的第一行(列)中包含標誌項,則選中該複選樞;如果輸入區域沒有標誌項,則該複選櫃不被選中,將在輸出表中生成適合的數據標誌。

4. 選擇“輸出選項”。

5. 單擊“確定”。

求算例4.2的結果如表45所示。由於n=23,即f=21,查表43得到r0.05=0.4143,通過相關性檢驗,標*號的為線性相關達到顯著水平。

表45不同植被類型的生產量與水熱資源等的相關係數計算結果

輻射平衡X1年降水量(mm)X2輻射幹燥指數X3植物年幹物重X4

輻射平衡X11

年降水量(mm)X20.416*1

輻射幹燥指數X30.346-0.592*1

植物年幹物重X40.579*0.950*-0.469*1

2. 順序(等級)相關係數(rs)的測度

順序(等級)相關係數,又稱斯皮爾曼(Spearman)秩相關係數。

(1) 等級相關係數的計算

如果對於兩個要素的數據中,無法獲得其精確值,但我們可以知道每個要素數據的大小或重要性排序順序,這樣,我們就可以根據樣本數據的位次來計算它們的相關程度。這種統計量稱為順序相關係數。

設兩個地理要素x和y有幾對樣本值,令R1代表要素x的序號(位次),R2代表要素y的序號,d2i=(R1i-R2i)2代表要素x與要素y同一組樣本位次差的平方,那麼要素x與要素y之間的等級相關係rs為

rs=1-6∑ni=1d2in(n2-1)。

順序相關係數rs公式由簡單相關係推算而得。由xi和yi的值為秩(順序值),即可推算

x=1+2+…+nn=n(n+1)2n=n+12,

S2x=1n∑ni=1(xi-x)2=1n∑ni=1x2i-(∑ni=1xi)2n

=1n(12+22+…+n2)-(1+2+…+n)2n

=n(n+1)(2n+1)\/6n-[n(n+1)\/2]2n2

=n(n+1)12n(n-1)=n2-112。

同理推算y=n+12,S2y=n2-112。

根據di=xi-yi,得

1n∑ni=1(di-d)2=1n∑ni=1[(xi-yi)-(x-y)]2=1n∑ni=1xi-x-yj-y2

=1n∑ni=1xi-x2+1n∑ni=1yi-y2-2n∑ni=1xi-xyi-y。

上式可表達為S2d=S2x+S2y-2Sxy

由r=SxySx·Sy可推知Sxy=r·Sx·Sy,即S2d=S2x+S2y-2r·Sx·Sy,

r=S2x+S2y-S2d2Sx·Sy。

因d=x-y=n+12-n+12=0,

S2d=1n∑ni=1(di-d)2=1n∑ni=1d2i,

即r=n2-112+n2-112-1n∑ni=1d2i2n2-112n2-112

=n2-16-1n∑ni=1d2in2-16=1-1n×6n2-1∑ni=1d2i

=1-6∑ni=1d2in(n2-1)。

【例4.3】表46列出了10個學生在一門地理課程中的實驗與課堂成績的排列順序,求秩相關係數。

表46實驗與課堂成績的排序表

實驗83927104615

課堂95101873426

解:根據表46的秩,計算∑ni=1d2i,結果見表47。

表47實驗與課堂成績的排序位次差的平方

d-1-2-11-1312-1-1

d21411191411∑ni=1d2i=24

即rs=1-6∑ni=1d2in(n2-1)=1-6×2410102-1=0.8545。

【例4.4】對於例4.1轉換成等級變量(見表48)。

表48某市各月平均氣溫與5cm平均地溫排序

月份123456789101112

氣溫-4.7-2.34.413.220.224.226.024.619.512.54.0-2.8

地溫-3.6-1.45.114.522.326.928.226.521.113.44.6-1.9

氣溫1135791012118642

地溫1135791112108642

rs=1-6∑ni=1d2in(n2-1)=1-6×212(12×12-1)=0.993。

軟件運算指導4.3——利用SPSS的二元變量的相關分析(Bivariate)

1 在主菜單“分析(Analyze)”中,單擊“相關:雙變量(Correlate: Bivariate)”,彈出二元變量相關分析主對話框。

2 選擇分析變量。在主對話框左麵的源變量框中選擇要求相關係數的兩個變量,單擊向右箭頭按鈕,將選擇的變量移至“變量(Variables)”矩形框中。

3 從“相關係數(Correlation Coefficients)”矩形框中選擇計算相關係數的方法

●Pearson:皮爾遜相關。調用Correlation過程計算連續變量或等間隔測度變量間的相關係數(r)。

●Kendalls taub:肯德爾b。調用Nonpar Corr過程計算等級變量間的秩相關。

●Spearman:斯皮爾曼相關。調用Nonpar Corr過程計算等級變量間的秩相關(rs)。

以上三種相關分析可以選擇其中之一,也可以同時選擇兩種。如果參與要析的變量連續變量,選擇Kendalls, taub或Spearman相關,則係統自動對連續變量的值先求秩,再計算其秩分數間的相關係數。

4 顯著性檢驗類型的選擇項

●雙側檢驗(Twotailed):雙尾檢驗。

●單側檢驗(Onetailed):單尾檢驗。

5 標記顯著性相關(Display actual significance):是否選擇此項,決定於是否顯示實際的顯著性水平。如果選擇此項,輸出結果中顯示實際的顯著性水平。否則使用“*”表示顯著性水平為5%;用“**”表示顯著性水平為1%。

6 選項(Options):在主對話框中單擊“選項(Options)”圖標按鈕,彈出“雙變量相關:選項”對話框,其中的設置項有:

(1) 統計量(Statistics):統計量選擇項

●均值與標準差(Means and standard deviations)

●叉積離差陣和協方差陣(Crossproduct deviations and covariances)

(2) 缺失值(Missing Values):缺失值方式

●按對排除個案(Exclude cases paisrwise):僅剔除正在參與計算的兩個變量值是缺失值的觀測量

●按列表排除個案(Exclude cases listwise):剔除帶有缺失值的所有觀測量

7 單擊“確定(OK)”提交係統運行。

利用軟件運算指導4.3可對Pearson相關係數和Spearman相關係數(即等級相關係數)進行求算。

(2) 等級相關係數的檢驗

與相關係數一樣,等級相關係數是否顯著,也需要檢驗。

從表49查出了“等級相關係數檢驗的臨界值”。表49中,n代表樣本個數,α代表不同的置信水平,也稱顯著水平,表中的數值為臨界值ra。

表49秩相關係數檢驗的臨界值

0.050.01nα

0.050.01

41.000160.4250.601

50.9001.000180.3990.564

60.8290.943200.3770.534

70.7140.893220.3590.508

80.6430.833240.3430.485

90.6000.783260.3290.465

100.5640.746280.3170.448

120.5060.712300.3060.432

140.4560.645

對例4.3中,n=10,r0.05=0.564,r0.01=0.746。

因rs=0.8545>r0.01=0.746,

即rs在α=0.01的置信水平上是顯著的。

3. 多要素相關程度的測度

(1) 偏相關係數

在地理係統這個多要素係統中,一個要素的變化會影響其他要素的變化,它們彼此之間存在不同程度的相關。簡單相關係數可能不能夠真實地反映出變量x和y之間的相關性,因為變量之間的關係很複雜,它們可能受到不止一個變量的影響。這個時候偏相關係數是一個更好的選擇。當我們研究某兩個因素之間的相關,而把其他要素視為不變,即除去其他要素的影響,而單獨研究兩個要素之間的關係,則稱為偏相關。

在偏相關分析中,把單相關係數矩陣稱為零級偏相關係數。考慮某一個要素保持不變時稱為一級偏相關係數。

一級偏相關係數公式為:

rij·k=rij-rik×rjk(1-r2ik)(1-r2jk)。

二級偏相關係數公式為:

rij·kl=rij·k-ril·k×rjl·k(1-r2il·k)(1-r2jl·k)。

對於偏相關係數的檢驗采用t檢驗的方法。

t=r12·34…k1-r212·34…k×n-(k-1)-1

式中:n為樣本數;k為變量數;k-1為自變量數;n-(k-1)-1為自由度。

【例4.5】利用例4.2的計算結果計算二級、三級偏相關係數。

r12·3=0.416-0.346×(-0.592)(1-0.3462) 1 2(1-0.5922) 1 2

=0.821

r12·34=r12·3-r14·3×r24·3(1-r14·3)12(1-r24·3)12

=0.821-0.895×0.945(1-0.8952)12(1-0.9452)12

=0.170

同理算出其他的偏相關係數(表410)。

表410偏相關係數計算結果

R12·3R13·2R14·2R14·3R23·1R24·1R24·3R34·1R34·2

0.8210.8080.6470.895-0.6830.9560.945-0.875

0.371

對於偏相性檢驗,r12·3的相關性檢驗中,由於樣本數n=23,變量數k=3,即自變量數k-1=2,則

t=r12·31-r212·3×n-(k-1)-1=0.8211-0.8212×23-2-1=6.431

t>t0.05(20)=2.086

即相關性顯著。

同理,對於r12·34的相關性檢驗,自變量為3。

t=r12·341-r212·34×n-(k-1)-1=0.1701-1702×23-3-1=0.752

t

即相關性不顯著。

軟件運算指導4.4——利用SPSS進行偏相關分析

1 在主菜單中單擊“分析(Analyze)”,從下拉菜單中依次選擇“相關:偏相關(Correlate: Partial),彈出主對話框。

2 指定分析變量和控製變量。從左邊的源變量框中選擇要分析的兩個變量,單擊向左箭頭按鈕,移入”變量(Variables)框中;選擇作為控製變量的變量名,單擊向左箭頭按鈕,移入“控製Controlling for” 框中。

3 在“顯著性檢驗”中選擇假設檢驗類型

●雙尾檢驗(Twotailed):用於有正負相關兩種可能的情況。是係統默認的方式。

●單尾檢驗(Onetailed):用於隻可能是正向或負向相關的情況。

4 顯示實際顯著水平(Display actual significance)

是否選擇此項,決定於是否顯示實際的顯著性水平。如果選擇此項,輸出結果中顯示實際的顯著性水平;不選擇此項,其顯著性概率使用星號代替。一個星號“*”表示其著性概率在5%—1%之間,兩個星號“**”表示其顯著性概率小於或等於1%。

5 在主對話框中,單擊“選項(Options)” 圖標按鈕,展開選項對話框。對話框中有兩組選擇項:

(1) 統計量(Statistics):統計量選擇項

●均值和標準差(Means and standard deviations):要求計算並顯示各分析變量的均值和標準差。

●零階相關矩陣(Zeroorder correlations):要求顯示零階相關矩陣,即Pearson相關矩陣。

(2) 缺失值(Missing Values):處理觀測量缺失值的方式

●按對排除個案(Exclude cases paisrwise):僅剔除正在參與計算的兩個變量值是缺失值的觀測量

●按列表排除個案(Exclude cases listwise):剔除帶有缺失值的所有觀測量

6 單擊“確定(OK)”提交係統運行。

(2) 複相關係數

複相關分析法能夠反映各要素的綜合影響。幾個要素與某一個要素之間的複相關程度,用複相關係數來測定。

① 複相關係數的計算

複相關係數,可以利用單相關係數和偏相關係數求得。

設y為因變量,x1,x2,…,xk為自變量,則將y與x1,x2,…,xk之間的複相關係數記為Ry·12…k。其計算公式如下。

當有k個自變量時,

Ry·12…k=1-(1-r2y1)(1-r2y2·1)…[1-r2yk·12…(k-1)]

② 複相關係數的性質

(a) 複相關係數介於0到1之間。

(b) 複相關係數越大,要素(變量)的相關程度越密切。複相關係數為1,完全相關;複相關係數為0,完全無關。

(c) 複相關係數必大於或至少等於單相關係數的絕對值。

③ 複相關係數的顯著性檢驗

一般采用F檢驗法。

計算公式:

F=R2y·12…k1-R2y·12…k×n-k-1k。

式中:n為樣本數;k為自變量個數。

查F檢驗的臨界值表,可以得到不同顯著性水平上的臨界值Fα,若F>F0.01,則表示複相關在置信度水平a=0.01上顯著,稱為極顯著;若F0.05

【例4.6】對於某四個地理要素x1,x2,x3,x4的23個樣本數據,經過計算得到了如下的單相關係數矩陣。

R=r11r12r13r14

r21r22r23r24

r31r32r33r34

r41r42r43r44

=10.4160.3460.579

0.4161-0.5920.950

-0.346-0.5921-0.469

0.5790.950-0.4691

若以x4為因變量,x1,x2,x3為自變量,試計算x4與x1,x2,x3之間的複相關係數並對其進行顯著性檢驗。

解:(1) 計算複相關係數。

按照公式計算:

Ry·12…k=1-(1-r2y1)(1-r2y2·1)…[1-r2yk·12…(k-1)],

R4·123=1-(1-r241)(1-r242·1)(1-r243·12)

=1-(1-0.5792)(1-0.9562)(1-0.3372)=0.974。

(2) 顯著性檢驗。

F=0.9741-0.9742×23-3-13=120.1907,

F=120.1907>F0.01=5.0103。

複相關達到了極顯著水平。

第二節地理要素的回歸分析

一、 地理回歸分析概述

1. 回歸分析

地理要素的相關分析隻揭示了諸地理要素之間相互關係的密切程度。對於諸要素之間相互關係的進一步具體化,可通過大量的觀測、試驗取得大量的地理數據,利用數據統計方法,尋找出隱藏在隨機性後麵的統計規律,需要用回歸方程來表達,這就是回歸分析。

回歸分析主要包括:① 從一組地理數據出發,確定地理要素(變量)間的定量數學表達式(回歸模型);② 根據一個或幾個要素的值來預測或控製另一要素的取值;③ 從影響要素中找出主要要素,並分析其關係。

2. 相關分析與回歸分析的差別

(1) 回歸分析中,變量y稱因變量,處於被解釋的特殊地位。在相關分析中,變量y與變量x處於平等地位,即研究變量y與變量x的密切程度與研究變量x與變量y 的密切程度是一回事。

(2) 相關分析中涉及的變量y與x全是隨機變量。而回歸分析中,因變量y是隨機變量,自變量可以是隨機變量(樣本值),也可以是非隨機的確定變量。

(3) 相關分析的研究主要是刻畫兩類變量間線性相關的密切程度。而回歸分析不僅可以揭示變量x對變量y的影響大小,還可以由回歸方程進行預測和控製。

3. 回歸分析的種類

回歸分析中,當研究的因果關係隻涉及因變量和一個自變量時,叫做一元回歸分析;當研究的因果關係涉及因變量和兩個或兩個以上自變量時,叫做多元回歸分析。此外,回歸分析中,又依據描述自變量與因變量之間因果關係的函數表達式是線性的還是非線性的,分為線性回歸分析和非線性回歸分析。通常線性回歸分析法是最基本的分析方法,遇到非線性回歸問題可以借助數學手段化為線性回歸問題處理。回歸分析法預測是利用回歸分析方法,根據一個或一組自變量的變動情況預測與其有相關關係的某隨機變量的未來值。進行回歸分析需要建立描述變量間相關關係的回歸方程。根據自變量的個數,可以是一元回歸,也可以是多元回歸。根據所研究問題的性質,可以是線性回歸,也可以是非線性回歸。非線性回歸方程一般可以通過數學方法為線性回歸方程進行處理。

二、 一元地理回歸模型的建立

1. 一元線性回歸模型

對於兩個地理要素X和Y,一元線性模型為:

Y=A+BX+ε。

其中Y為隨機變量,X為一般變量,A,B為待定常數,稱為模型參數,ε是總體隨機誤差項。

對於兩要素Y和X的觀測值(yi ,xi), i=1 ,2 ,…,n ,存在

yi=a+bxi+ei。

a,b稱為回歸直線的係數。a是直線在y軸上的截距,稱回歸截距,代表y 的基礎水平;b是直線的斜率,稱回歸係數,它表示x變化一個單位時y的平均變化。

2. 模型的假設條件

其即高斯假設條件,主要是對隨機誤差項ε提出的。

對總體中各次觀察的隨機誤差εi(i=1,2,…,n),滿足四個條件,即可使用回歸分析。

(1) 零均值性:即在自變量取一定值xi的條件下,其總體各誤差項的條件平均值為0。

(2) 等方差性:即在自變量取一定值xi的條件下,其總體各誤差項的條件方差為一常數。

(3) 誤差項之間相互獨立(即不相關性):即在自變量取任意不同值xi和xj時 ,其誤差項之間相互獨立。

(4) 誤差項與自變量之間相互獨立性:即自變量的變化與誤差項無關。

以上假設條件總稱為標準古典假設條件。符合上述假設條件的回歸模型稱為一般線性回歸模型(general linear regression model)。對於一般線性回歸模型,最小二乘法估計a,b,y值分別是總體參數A,B,Y的無偏估計。

3. 一元線性地理回歸模型的建立

一元線性地理回歸模型的描述:

假設有兩個地理要素(變量)x和y,x為自變量,y為因變量,則基本結構形式為yα=a+bxα+εα。

式中,a,b為待定參數,α=1,2,…,n為n組,觀測數據為x1,y1,…,xn,yn,n為下標,εα為隨機變量。

如果記a^和b^分別為參數a,b的擬合值,即得y=

a^+b^x為x與y之間的相關關係的回歸直線(其中y^為y的估計值,稱回歸值)。

(1) 參數a,b的最小二乘估計

實際觀測值yi與回歸值y^i之差ei=yi-y^i,說明了yi與y^i的偏差程度,也就是實際值與回歸估計值的誤差。采用最小乘法,就是使所有的ei值的平方和達到最小,即∑ni=1ei2→min。

設Q=∑ni=1ei2,根據這條原則推算:

Q=∑ni=1ei2=∑ni=1yi-y^i2=∑ni=1yi-a-bxi2→min。

按照取極值的必要條件,必須使ei2對a,b的一階偏導數為0,即

Qa=-2∑ni=1yi-a-bxi=0,

Qb=2∑ni=1yi-a-bxi·-xi=-2∑ni=1xiyi-a-bxi=0,

也即∑ni=1yi-a-bxi=0,

∑ni=1yi-a-bxixi=0。

將上述方程組展開整理後,得

∑ni=1yi-b∑ni=1xi-na=0,

∑ni=1xiyi-b∑ni=1xi2-a∑ni=1xi=0。

解方程組b^=∑ni=1xiyi-1n(∑ni=1xi)(∑ni=1yi)∑ni=1(x2i)-1n(∑ni=1xi)2=LxyLxx,

a^=y-b^x,

其中,y=1n∑ni=1yi,

x=1n∑ni=1xi。

【例4.5】對例4.1進行一元線性回歸的計算(見表411)。

表411一元線性回歸計算過渡表

月份xi(氣溫)yi(地溫)xiyixi2yi2

1-4.7-3.616.9222.0912.96

2-2.3-1.43.225.291.96

34.45.122.4419.3626.01

413.214.5191.40174.24210.30

520.222.3450.46408.00497.30

624.226.9640.98585.60723.60

726.028.2733.20676.00800.90

824.626.5650.90605.2702.30

919.521.1411.45380.30445.20

續表

月份xi(氣溫)yi(地溫)xiyixi2yi2

1012.513.4167.50156.30179.60

114.04.618.4016.0021.16

12-2.8-1.95.327.843.16

∑138.8155.73323.193056.163619.11

x=11.567,

y=12.975,

b^=Lxy\/Lxx=1522.261450.71=1.0493,

a^=y-b^x=0.83783。

即得到回歸模型

y=0.83783+1.0493x

軟件運算指導4.5——利用Excel的“回歸”計算回歸方程

1. 打開Excel的“工具”菜單,選擇“數據分析”選項,打開“數據分析”對話框。

2. 在“數據分析”列表中選擇“回歸”,單擊“確定”按鈕,打開“回歸”對話框。

3. 用戶可以在該分析工具對話框中進行下列設置。

(1) Y值輸入區域:在此輸入Y值的單元格引用。

(2) X值輸入區域:在此輸入X值的單元格引用。

(3) 置信度。

4. 選擇“輸出選項”。

5. 單擊“確定”。

軟件運算指導4.6——利用SPSS進行一元線性回歸分析

當在數據窗中建立或讀入了一個數據文件後,進行線性回歸分析的步驟如下。

1. 在主菜單中單擊“分析(Analyze)”,從下方拉菜單中依次選擇“回歸:線性(Regression, Linear)”,彈出線性回歸對話框。

2. 在左側的源變量框中選擇一數字變量作為因變量進入“因變量(Dependent)”框中,選擇一個變量作為自變量進入“自變量(Independent[s])”框中。

3. 在“方法(Method)”:框中選擇一種變量分析方式“進入(Enter)”。

4. 單擊“確定(OK)”執行統計分析。

(2) 一元線性回歸模型顯著性檢驗

回歸模型建立後,需要對模型的可信度進行檢驗。檢驗方法有兩種,即利用相關係數與F檢驗(方差分析)。

① F檢驗法(方差分析)

在回歸分析中,y的n次觀測值yi之間的差異可用總的離差平方和表示,記為

s總=Lyy=∑ni=1(yi-y)2

可以證明:s總=∑ni=1(yi-yi^)2+∑ni=1(yi^-y)2

=Q+u,

其中Q為誤差平方和,u為回歸平方和。

可以看出,u影響越大,Q影響越小,回歸模型的效果越好。可利用統計量F=uQn-2進行回歸模型檢驗。

當F≥Fα(1,n-2)時,則認為回歸效果顯著。

當F≤Fα1,n-2時,則回歸效果在該顯著水平下不顯著。

在計算中,s總=∑ni=1yi2-1n∑ni=1yi2=Lyy,u=bLxy,Q=Lyy-bLxy

F=uQn-2=bLxyLyy-bLxy\/(n-2)

統計量F=uQn-2的證明過程如下:

s總=Lyy=∑ni=1(yi-y)2

=∑ni=1[(yi-yi^)+(yi^-y)]2

=∑ni=1(yi-yi^)2+∑ni=1(yi^-y)2+2∑ni=1(yi-yi^)(yi^-y),

而∑ni=1(yi-yi^)(yi^-y)=∑ni=1(yi-yi^)(a+bxi-y)

=a∑ni=1(yi-yi^)+b∑ni=1(yi-yi^)xi-y∑ni=1(yi-yi^),

由Qa=0,Qb=0,得

∑ni=1(yi-yi^)=0,

∑ni=1(yi-yi^)xi=0,

即∑ni=1(yi-yi^)(yi^-y)=0。

由此推出s總=∑ni=1(yi-yi^)2+∑ni=1(yi^-y)2,

即s總=Q+u。

同時ns2yδ2=s總δ2=∑ni=1(yi-yi^δ)2+∑ni=1(yi^-yδ)2,

nsy2δ2~χ2(n-1),

而∑ni=1(yi^-yδ1)2=∑ni=1(a+bxi-yδ)2

=∑ni=1(-yδ)2=n(-yδ)2~χ2(1),

即∑ni=1(yi-yi^δ)2~χ2(n-1-1)=χ2(n-2)。

在回歸方程的顯著性檢驗時,主要是列出方差分析表(見表412)。

表412一元回歸方程的方差分析表

變差來源平方和自由度方差F檢驗

回歸(因素x)U = b Lxy1Su= U\/1

剩餘(隨機因素)Q=Lyy-b Lxyn-2SQ= Q\/(n-2)

總和S總 = Lyyn-1F=U\/1Q\/(n-2)

② 相關係數檢驗法

根據相關係數r進行檢驗。

由相關係數的定義r2=L2xyLxx·Lyy可知,

u=∑ni=1(yi^-y)2=∑ni=1(a+bxi-a-bx)2

=b2∑ni=1(xi-x)2=b·∑ni=1(xi-x)(yi-y)∑ni=1(xi-x)2·∑ni=1(xi-x)2

=b∑ni=1(xi-x)(yi-y)=bLxy

Q=∑ni=1(yi-y^i)2=Lyy-bLxy

即r2=L2xylxx·Lyy=Lxy·LxyLxxLyy=b·LxyLyy=uLyy

u=r2Lyy

Q=s總-u=Lyy-r2Lyy=(1-r2)Lyy

由u=r2Lyy,Q=u-1-r2Lyy

可推知,r越大,回歸平方和u越大,剩餘平方和Q越小, 回歸效果越好。

三、 多元回歸分析

1. 概念

多元線性回歸(multiple linear regression)是分析一個隨機變量與多個變量之間線性關係的最常見的統計方法。用變量的觀測數據擬合所關注的變量和影響它變化的變量之間的線性關係式,檢驗影響變量的顯著程度和比較它們的作用大小,進而用兩個或多個變量的變化解釋和預測另一個變量的變化。

在回歸模型中,研究人員以規定因變量和自變量的方式確定研究變量之間的因果關係,加以量化描述,並根據實測數據求解這一模型的各個參數,評價回歸模型是否能夠很好地擬合實測數據,檢驗各自變量的作用是否符合預先的構想。如果模型能夠很好地擬合實測數據,回歸模型還可以用於預測。事實上,這些變量之間,由於缺乏嚴格的時間先後順序,不能看成因果關係。

2. 多元回歸模型的一般形式

設隨機變量y與一般變量x1,x2,…,xp的線性回歸模型為

y=β0+β1x1+β2x2+…+βpxp+ε,

其中β0,β1,…,βp為待定係數,β0為回歸常數,β1,β2,…,βp為回歸係數。

當p≥2,則上式稱為多元線性回歸模型。

假設E(ε)=0,

var(ε)=δ2,

稱E(y)=β0+β1x1+β2x2+…+βpxp為理論回歸方程。

3. 回歸參數的估計

回歸參數的估計依然采用最小二乘法。

即尋找β^0,β^1,…,β^p滿足

Q(β^0,β^1,…,β^p)=∑ni=1(yi-β^0-β^1xi1-β^xi2-…-β^pxip)達到最小。

根據微分求極值原理,β^0,β^1,…,β^p應滿足

Qβ0β0=β^0=-2∑ni=1(yi-β^0-β^1xi1-β^2xi2-…-β^pxip)=0,

Qβ1β1=β^1=-2∑ni=1(yi-β^0-β^1xi1-…-β^pxip)xi1=0,

……

Qβpβp=β^p=-2∑ni=1(yi-β^0-β^1xi1-…-β^pxip)xip=0。

當存在一個βi(i=0,1,…,p)時,

稱y^=β^0+β^1x1+β^2x2+…+β^pxp為經驗回歸方程。

4. 回歸模型的顯著性檢驗

采用方差分析方法,分析方法同一元回歸方程的檢驗相同,隻是自由度不同。

F=ukQ(n-k-1),其中k為自變量個數。

F≥Fα(k,n-k-1), 回歸效果顯著。

F

【例4.6】某省為預測木材生產指數Y,選取以下三個因子,即森林蓄積量指數(X1)、木材價格指數(X2)、運輸距離指數(X3)。

表413某省木材生產指數及相關因子

年份X1X2X3Y

195295.584.730.488.4

1953102.1103.762.099.7

195497.7110.982.195.4

1955100.0100.0100.0100.0

1956105.2100.6114.0107.9

1957101.5114.7125.2108.7

195899.3113.9140.2105.5

軟件運算指導4.7——利用SPSS進行多元線性回歸分析

當在數據窗中建立或讀入了一個數據文件後,進行線性回歸分析的步驟如下。

1. 在主菜單中單擊“分析(Analyze)”,從下方拉菜單中依次選擇“回歸:線性(Regression: Linear)”,彈出線性回歸對話框。

2. 在左側的源變量框中選擇一數字變量作為因變量進入“因變量(Dependent)”框中,選擇多個變量作為自變量進入“自變量(Independent[s])”框中。

3. 在“方法(Method)”:框中選擇一種變量分析方式“進入(Enter)”。

4. 單擊“確定(OK)”執行統計分析。

【例4.7】國際旅遊外彙收入的影響因素包括自然、文化、社會、經濟、交通等多方麵。本例研究第三產業的投入對旅遊外彙收入的影響。《中國統計年鑒》把第三產業分為12個組成,分別是X1(農林牧副服務業)、X2(地質勘測水利管理業)、X3(交通運輸倉儲和郵電通信業)、X4(批發零售貿易和餐飲業)、X5(金融保險業)、X6(房地產業)、X7(社會服務業)、X8(衛生體育和社會福利業)、 X9(教育文化藝術和廣播)、X10(科學研究和綜合藝術)、X11(黨政機關)、X12(其他行業)。選取我國31個省、市、自治區的數據,以國際旅遊外彙收入(百萬美元)為因變量y,以12個行業的投入(億元人民幣)作為自變量進行多元線性回歸。

表414庫全國各地區的國際旅遊外彙收入及影響因素數據表

地區

X1X2X3X4X5X6X7X8X9X10X11X12Y

北京1.94.515420724627713530110805114.02384

天津0.36.413312712011481143516272.9202

河北6.117.13133862032047932791412842.1100

山西5.39.3123122101963413375633.138

內蒙古3.74.21069527223414284359.5126

遼寧11.28.12715331641231875890318411.6262

吉林2.83.61091305262382144254814.238

黑龍江8.611.4160246109115683458137221.1121

上海3.66.6244412459512160438948487.01218

江蘇30.019.0435724376381210711502318819.6529

浙江6.26.3321665157172147527810.9939.4361

安徽4.18.815225883857526635472.651

福建5.85.634733215717211533778798.2651江西6.76.81451439710043175156218.243

山東10.811.74426654114291158714521187110.220

河南4.1622.52993161321398453841211610.3101

湖北4.67.651953731611801015880211005.188

湖南7.0810.92162911191254748971213916.6156

廣東16.324.1688827271268331711462314516.52942

續表

地區

X1X2X3X4X5X6X7X8X9X10X11X12Y

廣西4.014125243523147255546013.6156

海南0.82.03560293020412190.2796

重慶4.422.178138687379184320480.788

四川11.29.41963282041441014374159011.084

貴州2.012.0256940362713262256.748

雲南6.436.08817088893329518404.8261

西藏1.910.95110.71.71.9250.970.133

陝西5.499.9115947653472256144838.1247

甘肅3.977.839994150118156167.030

青海1.313.0131818183.1381141.23

寧夏1.12.116191716436173.11

新疆4.5810.39210349502811374393.582

通過計算,y對12個自變量的線性回歸方程為:

Y=-205.179-0.428X1+2.930X2+3.367X3-0.978X4-5.541X5+4.068X6+3.985X7-14.531X8+17.380X9+9.435X10-11.008X11+1.320X12

這一回歸方程還是比較理想,從SPSS計算結果的“ANVOA”表中看出,Sig為0.000,明顯小於0.05,或者從計算的F值(F=10.49>F0.05(12,18)=2.34),可以推斷出回歸係數檢驗具有顯著性。

四、 地理要素的逐步回歸分析

在進行多元回歸分析時,雖然進行了顯著性檢驗之後,並不能說明這個回歸方程中所有自變量都對因變量y有顯著影響。這就存在著如何挑選出對因變量有顯著影響的自變量問題。

我們把由因變量與所有的自變量構成的回歸模型稱為全回歸模型。把由m個自變量中挑選出p個自變量所組成的回歸模型稱為選模型。如果應該用全模型去描述實際問題的,我們用選模型,將使建模時丟失一些有用的變量。如果應該用選模型去描述實際問題的,我們用全模型,即把一些不必要的變量引進了模型,兩者都會引起建模的精確性。因此,自變量的選擇有重要的實際意義。

對於m個自變量分別采用1-p個自變量,含有2p-1個方程。當p相當大時,我們不能一一比較2p-1個方程。因此,人們提出了一個最佳的挑選最優方程的方法——“逐步回歸”、“前進法”、“後退法”,其中“逐步回歸”是吸取了“前進法”和“後退法”的優點,克服不足,把兩者結合起來。

1. 前進法(Forward)(隻進不出法)

前進法的基本思想:把自變量由少到多引入,每次增加一個自變量,直到沒有可引入的變量為止。

具體做法:(1) 首先將p個自變量,分別對因變量Y建立p個一元線性回歸方程,並分別計算這p個方程的回歸係數的F檢驗值,記為{F11,F12,…,F1p},選其最大者記為F1j=max{F11,F12,…,F1p},給定顯著水平α,若F1j≥Fα(1,n-2),則將xj引入方程。為了方便,我們假設xj就是x1。

(2) 對因變量Y分別與(x1,x2)、(x1,x3)…(x1,xp)建立p-1個二元線性回歸方程,對這p-1個方程中的回歸係數進行F檢驗,計算F值,記為{F22,F23,…,F2p},選其最大者F2j=max{F22,F23,…F2p},若F2j≥Fα(1,n-3),即接著將xj引入回歸方程。

(3) 依上述方法做下去。直至所有未被引入方程的自變量的F值均小於Fα(1,n-p-1)為止。這時得到的回歸方程就是最終確定的方程。

2. 後退法(Backward)(隻出不進法)

後退法與前進法相反。

(1) 用全部p個變量建立一個回歸方程。對m個回歸係數計算偏F值,記求得的偏F值為{Fm1,Fm2,…,Fmp}。選其最小者Fmj=min{Fm1,Fm2,…,Fmp},給定量著水平α,若Fnj≤Fα(1,n-p-1),即將xj從回歸方程中剔除。為方便,假設xj就是xm。

(2) 對剩下的m-1個自變量建立回歸方程,按上述方法,剔除一個變量xj,直至方程中所剩餘的p個自變量的偏F檢驗值均大於Fα(1,n-p-1)。這時,得到的回歸方程就是最終確定的方程。

3. 逐步回歸法(stepwise)

將變量一個一個引入,每當引入一個自變量後,對已選入的變量要進行逐個檢驗。當原引入的變量由於後麵變量的引入而變得不再顯著時,要將其剔除。引入一個變量或從回歸方程中剔除一個變量,都為逐步回歸的一步,每一步都要進行F檢驗。

在逐步回歸中要注意,α進<α出。

如果α進≥α出,將導致死循環。

軟件運算指導4.8——利用SPSS進行逐步回歸分析、前進法和後退法分析

當在數據窗中建立或讀入了一個數據文件後,進行線性回歸分析的步驟如下。

1. 在主菜單中單擊“分析(Analyze)”,從下方拉菜單中依次選擇“回歸:線性(Regression: Linear)”,彈出線性回歸對話框。

2. 在左側的源變量框中選擇一數字變量作為因變量進入“因變量(Dependent)”框中,選擇一個或多個變量作為自變量進入“自變量(Independent[s])”框中。

每次選擇的自變量都會自動地保存在第n個自變量塊中。如果以同一個因變量選擇不同的自變量建立回歸方程,則可以利用Previous與Next按鈕來選擇某一組已經保存好的自變量。

3. 在“方法(Method)”:框中選擇一種變量分析方式“逐步(Stepwise)”。

4. 在左側的源變量框中選擇一數字變量作為選擇變量進入“選擇變量(Selection Variable)”框中,單擊“規則(Rule)”圖標按鈕,彈出規則對話框。通過該對話框來選擇參與分析的觀測量範圍。

在“值(Value)”下麵的矩形框中輸入選擇變量值,在左邊矩形框的下拉列車表中指定一種選擇方式:等於、不等於、小於、小於等於、大於、大於等於。

5. 在左側的源變量框中選擇一變量作為標簽變量進入“個案標簽(Case Labels)”框中。

6. 根據需要進行以下選擇設置,單擊相應的圖標按鈕即可。

(1) WLS:為了獲得加權最小平方解法設置一個加權位置,利用加權最小平方法給予觀測量不同的權重值,它或許可以用來補償采用不同測量方式時所產生的誤差。這與利用觀測值加權而改變有效樣本的大小是不同的。對於加權殘差分析,將殘差與預測值各自保存為新變量,然後將那些新變量與所設置的加權變量的平方根相乘。

先在左側的源變量,再單擊向右箭頭按鈕即可。被選擇的自變量與因變量不能作為加權變量,加權變量中含有零、負數或缺失值的觀測量將會被剔除。

(2) 統計量(Statistics):選擇不同的選項,進行相關參數的統計。

(3) 繪製(Plots):繪製殘差散布圖、直方圖、奇異值圖或正常概率圖。通過對變量的選擇可以確定與Y軸和X軸相應的變量。為獲得更多的圖形可以通過單擊Next 按鈕來重複此操作過程,一次最多可以確定9個圖形。

(4) 保存(Save):每項選擇都會增加一個或更多的新變量進入原始數據文件,包括預測值、殘差等相關統計量。

(5) 選項(Options):改變用於進行逐步回歸(Stepwise Methods)時內部數值的設定以及對缺失值的處理方式。

7. 單擊“確定(OK)”執行統計分析。

8. 對於前進法、後退法隻是第三步:在Method框中選擇一種變量分析方式,分別為“向前(Forward)”和“向後(Backward)”,其餘相同。

【例4.8】對例4.7進行逐步回歸法等多種回歸方法的比較。

解:(1) 前進法的計算結果:

Y=-140.625+3.910 X7-1.997 X4+18.431 X10+5.090 X3-7.442 X11。

(2) 後退法的計算結果:

Y=-184.763+4.321 X3-20.202 X8+17.365 X9+11.618 X10-13.005 X11。

(3) 逐步回歸法的計算結果:

y=-117.497+21.479 X10+4.975 X3-11.264 X11。

(4) 模型比較(見表415)。

表415 多種回歸模型比較

全模型前進法後退法逐步回歸法

複相關係數(R)0.9350.9080.9230.889

複決定係數(R2)0.8750.8240.8520.791

調整的複決定係數(Rα2)0.7910.7890.822

0.768

五、 地理要素的非線性回歸分析

1 常見的非線性回歸模型

(1) 雙曲線

基本形式為y=xαx+β

(2) 冪函數曲線

基本形式為y=αxβ

(3) 對數曲線

基本形式為y=α+βlnx

(4) 指數曲線

基本形式為y=αeβx

2 非線性回歸模型轉換為線性回歸模型

一元地理回歸模型的判斷方法主要有:圖解法(散點圖)、差分法、曲度法等,在這裏,我們講述最簡易圖解法。

(1) 將地理要素(x、y)的數據點繪在普通方格紙上的散點圖呈直線,則這地理回歸模型為直線型(y=ax+b)。

(2) 如果將地理要素(x、y)的數據繪在雙對數格紙上呈直線,則一元地理回歸模型為冪函數型(y=axb)。橫軸為lnx,縱軸為lny 。

(3) 將地理要素(x、y)的數據繪製在單對數格紙上,其橫坐標取對數分格,縱坐標取普通分格時呈直線,則這回歸模型為對數型(y=aebx)。

(4) 若將地理要素(x、y)的數據點繪製在單對數格紙上,而其橫坐標為普通分格,其縱坐標取對數分格時呈直線,則這地理回歸模型為指數型(y=a+blnx)。

(1) 為線性回歸,(2)、(3)、(4)為非線性回歸。即回歸曲線,可以直線化,即(2)、(3)、(4)可轉換為(1)類型。

表416線性與常見非線性不同模型的表示

模型名稱

回歸方程

相應的線性回歸方程

Linear(線性)

Y=b0+b1t

Quadratic(二次)

Y=b0+b1t+b2t2

Compound(複合)

Y=b0(b1t)

Ln(Y)=ln(b0)+ln(b1)t

Growth(生長)

Y=eb0+b1t

Ln(Y)=b0+b1t

Logarithmic(對數)

Y=b0+b1ln(t)

Cubic(三次)

Y=b0+b1t+b2t2+b3t3

S

Y=eb0+b1\/t

Ln(Y)=b0+b1 \/ t

Exponential(指數)

Y=b0 * eb1*t

Ln(Y)=ln(b0)+b1t

Inverse(逆)

Y=b0+b1\/t

Power(冪)

Y=b0(tb1 )

Ln(Y)=ln(b0)+b1ln(t)

Logistic(邏輯)

Y=1\/(1\/u+b0b1t)

Ln(1\/Y-1\/u)=ln(b0+ln(b1)t)

3 非線性回歸模型計算分析

軟件運算指導4.9——利用SPSS的“曲線估計”進行非線性回歸

1 散點圖分析和初始模型選擇

在SPSS數據窗口中輸入數據,然後插入散點圖(選擇Graphs→Scatter命令),由散點圖可以看出,該數據配合線性模型、指數模型、對數模型和冪函數模型都比較合適。

2 在主菜單中單擊“分析(Analyze)”,從下拉菜單中依次選擇“回歸:曲線估計(Correlate:Curve Estimation)”,彈出主對話框。

3 在左側的源變量框中選擇一數字變量作為因變量進入“因變量(Dependent)”框中,選擇一個或多個變量作為自變量進入”自變量(Independent[s])”框中。

4 在“模型”中選擇相應的模型類型

類型如表416所示。

5 在“顯示ANOVA表格”的複選框中打勾

6 單擊“確定(OK)”提交係統運行。

軟件運算指導4.10——利用SPSS的“非線性”進行非線性回歸

1 在主菜單中單擊“分析(Analyze)”,從下拉菜單中依次選擇“回歸:非線性(Correlate:Nonlinear)”,彈出主對話框。

2 在左側的源變量框中選擇一數字變量作為因變量進入“因變量(Dependent)”框中。

3 點擊“參數(Parametere)”設置相應的“模型表達式”的參數。

4 在“模型表達式”中輸入相應的模式表達式。

5 單擊“確定(OK)”提交係統運行。

1. 對某個縣抽取了個鄉鎮,進行可持續發展戰略的開展和生態環境改善狀況相關程度調查(如下表),試測定它們的相關程度(rs臨界值為0.893)。

ABCDEFG

可持續發展戰略開展狀況較重視最重視不重視較不重視最不重視極端重視重視

生態環境改善狀況最好較好最不好不太好不好極好一般

2. 對下表求出相關係數。

xiyixi2yi2xi yi

12142

23496

12142

244168

31913

421648

31913

2522510

31913

244168

∑10i=12325618153

3. 從某地區抽取10個區域的人口居住麵積(x)和國民生產總值(y)資料計算出如下數據:

∑10i=1x=6525,∑10i=1y=9801,∑10i=1xy=7659156,∑10i=1y2=5668539

試建立國民生產總值y隨人口居住麵積x變化的直線回歸方程。

4. 某區域生產某種農產品的產量和單位成本資料如下:

月份1 2 3 4 5 6

產量(kg)4 6 8 7 8 9

單位成本(元\/kg)224355

試分析判斷產量和單位成本之間是否存在相關關係?其相關程度如何?

5. 試根據下列資料編製直線回歸方程yc=a+bx,並計算相關係數r。要求寫出公式和計算過程, 結果保留四位小數。

xy=146.5,x=12.6,y=11.3,x2=164.2,y2=134.1。

6 某單位研究一種植物高生長(y)與施肥量(x)的相關關係,在恒溫大棚中計算相關係數為R,在大棚外抽取樣本數據,同時進行氣溫(T)的測定,分別計算了植物高生長(y)與施肥量(x)的相關係數rxy、高生長(y)與氣溫(T)的相關係數ryT、施肥量(x)與氣溫(T)的相關係數rxT,試分析這四個相關係數是否存在何種關係。

7 某研究者調查80個區域,建立了回歸模型:y=12.46+1.25x1+0.56x2+4.30x3+1.33x4+3.62x5+0.28x6+7.26x7+2.88x8,通過回歸模型顯著性檢驗,求得F值為1.023,研究者感覺達不到要求,於是去掉一些地理要素(變量),建立的模型為y=2.66+7.11x1+1.33x2+4.15x5+3.52x7+12.02x8,算出F值為6.33。試問:(1) 建立的八要素的全模型,是否如研究者所認為的那樣,真的達不到要求;(2) 去掉一些地理要素(變量)建立的模型效果如何,為什麼會出現這種情況。

8 對於某數學老師與其爺爺、父親、兒子、孫子的身高,從高到低的順序為兒子、孫子、數學老師本人、爺爺、父親,試分析父子身高的相關性。

第五章地理係統的分類評價

第五章地理係統的分類評價

地理係統是指各自然地理要素通過能量流、物質流和信息流的作用結合而成的,具有一定結構和功能的整體。地理係統評價,需要較充分掌握區域地理要素信息,用特征歸納、分類等方法進行評價。分類問題是各個學科領域都普遍存在的問題。地理係統分類是按照該係統屬性的相似性和差異性劃分成類型係統。地理係統分類依照一定的標準、閾值、屬性或功能所劃分的地理係統組合或地理係統範疇,應體現出某些強調的本質特征。分類的方法很多,多元統計數學中的聚類分析、判別分析與主成分分析,是根據事物特征值的相似性和差異性進行類型劃分的數學方法。

第一節地理係統的聚類分析

聚類分析,又稱群分析、點群分析,是研究多要素事物分類的數量方法。主要是根據樣本自身的屬性,用數學方法按照某些相似性或者差異性指標,定量地確定樣本之間的親疏關係,並按某親疏關係進行聚類。聚類分析的大部分應用都屬於探測性研究,最終結果是產生研究對象的分類,通過對數據的分類研究,還能產生假設。

聚類研究可以用來對案例進行分類,也可以用來對變量進行分類。對案例(記錄)的分類稱為Q型聚類,對變量的分類稱為R型聚類。在實際應用中,聚類分析更多地用來對案例進行分類。

一、 聚類要素的數據處理

在聚類分析中,被聚類的對象常常是多個要素構成的,不同要素的數據往往具有不同的單位和量綱,因而其數據的差異性可能很大,這樣會對分類結果產生影響。因此,聚類分析必須要進行數據處理。

假設有m個聚類對象,每個對象都有x1,x2,…,xn個要素指標,其數據表示為矩陣形式。

要素指標

聚類對象x1x2…xj…xn

1x11x12…x1j…x1n

2x21x22…x2j…x2n

………………

ixi1xi2xijxin

……………

mxm1xm2xmjxmn

在聚類分析中,對上述數據的處理方法主要有以下幾種。

(1) 總和標準化

分別求出各聚類要素指標的總和,以各要素的數據除以該要素數據的總和,

x′ij=xij∑mi=1∑nj=1xij,i=1,2,…,m;j=1,2,…,n

標準化後,數據∑mi=1∑nj=1x′ij=1。

(2) 標準差的標準化

x′ij=xij-xjsj,i=1,2,…,m;j=1,2,…,n

式中,xj=1m∑mi=1xij, sj=1m∑x2ij-(∑xij)2m

標準化後的數據xij,各要素的平均值為0,標準差為1。

(3) 極大值標準化

x′ij=xijmaxi{xij},i=1,2,…,m;j=1,2,…,n

標準化後,各要素的極大值為1。

(4) 極差的標準化

x′ij=xij-mini{xij}maxi{xij}-mini{xij},i=1,2,…,m;j=1,2,…,n

標準化後,各要素的極大值為1,極小值為0。

二、 聚類分析的統計量計算

聚類分析的統計量,主要利用各地點要素或變量間的相似性或差異性作為分類依據。差異性測度計算各類對象之間的距離,相似性測度計算各類對象之間的相似係數。

1. 距離的計算

把每一個分類對象的n個聚類要素看成n維空間的n維坐標軸,則每一個分類對象的每個聚類要素看作是n維空間的一個點,k為n維空間,k=1,2,…,n。其差異性可用點之間的距離表示。

常用的距離有:

(1) 絕對距離:dji=∑nk=1xik-xjk(i,j=1,2,…,m)

(2) 歐氏距離:dji=∑nk=1(xik-xjk)2(i,j=1,2,…,m)

(3) 明科夫斯基距離:dij=∑nk=1(xik-xjk)p1p(i,j=1,2,…,m)

(4) 切比雪夫距離:dij=maxkxik-xjk

2. 相似係數的計算

常見的相似係數是夾角餘弦和相關係數。

(1) 夾角餘弦

rij=cosij=∑nk=1(xikxjk)∑nk=1x2ik∑nk=1x2jk(i,j=1,2,…,m)

-1≤cosij≤1

(2) 相關係數

rij=∑nk=1(xik-xi)(xik-xj)∑nk=1(xik-xi)2∑nk=1(xjk-xj)2(i,j=1,2,…,m)

式中:xi和xj分別為聚類對象i和j各要素標準化數據的平均值。

三、 聚類的步驟

1. 選擇變量

聚類分析是根據所選定的變量對研究對象進行分類,所選定的變量叫聚類變量。聚類變量應具有以下特點:

(1) 不同研究對象在變量值上有明顯差異。

(2) 變量之間不要有高相關:使用高相關的幾個變量等於隻用了一個聚類變量,並給了這個變量較大的加權。

(3) 和聚類分析的目標密切相關。

(4) 反映了分類對象的特征。

2. 計算相似性

聚類是根據變量之間相似程度、親疏程度對研究對象分類的。因此要計算研究對象之間的相似性。

3. 聚類

選定聚類方法,確定類別數。

4. 聚類結果的解釋和證實

對聚類結果進行解釋是希望對各個類的特征進行準確的描述,給每個類取一個合適的名稱。

四、 地理係統中主要聚類方法

1. 直接聚類法

直接聚類法是根據距離或相似係數矩陣的結構一次並類得到結果,是一種簡便的聚類方法。它先把各個分類對象單獨視為一類,然後根據距離最小或相似係數最大的原則,依次選出一對分類對象;如果一對分類對象正好屬於已歸的兩類,則把這兩類歸為一類。每一次歸並,都劃去該對象所在的列與列序相同的行。那麼,經過m-1次就可以把全部分類對象歸為一類,這樣,就可以按歸並順序做出聚類分析的譜係圖。

D=01.5203.102.7002.191.471.2305.866.023.644.7704.724.461.862.991.7805.795.532.934.060.831.0701.320.882.241.295.143.965.0302.621.661.200.514.843.063.321.400

第一步:在距離矩陣中,除對角線以外,D49=D94=0.51為最小,故將第4區與第9區並為一類,劃出第9行與第9列。

第二步:餘下的元素中,除對角線以外,D75=D57=0.83為最小,合並第5區與第7區,劃出第7行與第7列。

第三步:D82=D28=0.88最小,合並2,8區,劃去8行8列。

第四步:D43=D34=1.23,合並3,4區,劃去4行4列。此時,第3,4,9區已歸並為一類。

第五步:D21=D12=1.52,合並1,2區,劃去2行2列。此時,第1,2,8區已歸並為一類。

第六步:D65=D56=17.8,合並5,6區,劃去6行6列。此時,第5,6,7區已歸並為一類。

第七步:D31=D13=3.10,合並1,3區,劃去3行3列。此時,第1,2,3,4,8,9區已歸並為一類。

第八步:餘下的元素中,D51=D15=5.86,合並1,5區,劃去5行5列。此時,第1,2,3,4,5,6,7,8,9區已歸並為一類。

根據上述步驟,先畫出草圖,再做出聚類過程的譜係圖。

圖51直接聚類譜係圖

2. 最短距離聚類法

最短距離聚類法是在原來的m×n距離矩陣的非對角元素中劃出dpq=min{dij},把分類對象Gp和Gq歸作一新類Gr,然後按計算公式

drk=min{dpk,dqk}(k≠p,q)

計算原來各類與新類之間的距離,這樣就得到一個新的(m-1)階距離矩陣;再從新的距離矩陣中選出最小的dij,把Gi與Gj歸並成新類;再計算各類與新類的距離。這樣一直下去,直至所有歸並為一類為止。

還是以上例D9×9距離矩陣來分析。

第一步,在9×9階矩陣中,非對角元素中最小者d94=0.51,故將第4區與第9區合並,記為G10,即G10={G4,G9},分別計算G1,G2,G3,G4,G5,G6,G7,G8,G10之間的距離。

d1,10=min{d14,d19}=min{2.19,2.62}=2.19

d2,10=min{d24,d29}=min{1.47,1.66}=1.47

d3,10=min{d34,d39}=min{1.23,1.20}=1.20

d5,10=min{d54,d59}=min{4.77,4.88}=4.77

d6,10=min{d64,d69}=min{2.99,3.06}=2.99

d7,10=min{d74,d79}=min{4.19,3.62}=3.32

d1,10=min{d14,d19}=min{2.19,2.62}=2.19

這樣,新的矩陣為

G1G2G3G5G6G7G8G1001.5203.102.7005.866.023.6404.724.461.861.7805.795.532.930.831.0701.320.882.245.143.965.0302.191.471.204.772.993.321.290

第二步,在上一步驟中所得到的新的8×8階距離矩陣中,非對角元素中最小者為d57=0.83,故將G5與G7 歸並為一類,記為G11,即G11={G5,G7}。再分別計算G1,G2,G3,G6,G8,G10與G11之間的距離,可得到一個新的7×7階距離矩陣。

G1G2G3G6G8G10G11

G1G2G3G6G8G10G110

1.520

3.102.700

4.724.461.860

1.320.882.243.960

2.191.471.202.991.200

5.795.532.931.075.033.320

第三步,在第二步所得到的新的7×7階距離矩陣中,非對角線元素中最小者為d28=0.88,故將G2 與G8 歸並為一類,記為G12,即G12={G2,G8}。再分別計算G1,G3,G6,G10,G11與G12之間的距離,可得到一個新的6×6階距離矩陣。

G1G3G6G10G11G12

G1G3G6G10G11G12

0

3.100

4.721.860

2.191.202.990

5.792.931.073.320

1.322.243.961.205.030

第四步,在上述新矩陣中,D6,11=1.07最小,合並G6,G11,G13=G6,(G5,G7),產生新矩陣。

G1G3G10G12G13

G1G3G10G12G1303.1002.191.2001.322.241.2004.721.862.993.960

第五步,在前四步所得到的新的5×5矩陣中,最小因元素為D3,10=1.2,合並G3,G10,G14=G3,G10=G3,(G4,G10),產生新矩陣。

G1G12G13G14

G1G12G13G1401.3204.723.9602.191.202.990

第六步,最小者D12,14=1.20,合並G12,G14,G15=G12,G14,產生新矩陣。

G1G13G15

G1G13G1504.7201.322.990

第七步,最小者D1,15=1.32,合並G1,G15,G16=G1,G15=G1,G2,G8,G3,(G4,G9),產生新矩陣。

G13G16

G13G1602.990

第八步,將G13,G16合並為一類。

綜上所述過程,可以做出最短距離聚類譜係圖。

3. 最遠距離法

最遠距離聚類法與最短距離聚類法的區別在於計算原來的類與新類距離時采用的公式不同。最遠距離聚類法所用的是最遠距離來衡量樣本之間的距離。最遠距離法同最短距離法區別在於采用計算新距離的公式:drk=maxdpk,dqk。

對上例的計算如下:

第一步,在ρ×ρ距離矩陣中,非對角元素最小者為d94=0.51,將G4,G9歸並為一類,記類G10,即G10=G4,G9。按照公式分別計算G1,G2,G3,G5,G6,G7,G8與G10的距離,可以得到一個新的8×8階距離矩陣。

G1G2G3G5G6G7G8G10

G1G2G3G5G6G7G8G10

0

1.520

3.102.700

5.866.023.640

4.724.461.861.780

5.795.532.930.831.700

1.320.882.245.143.965.030

2.621.661.234.843.064.061.400

第二步,在第一步所得到的新的8×8階距離矩陣中,非對角線元素中最小者為d57=0.83,故將G5與G7歸並為一類,記為G11,即G11={G5,G7}。再分別計算G1,G2,G3,G6,G8,G10與G11之間的距離,可得到一個新的7×7階距離矩陣。

G1G2G3G6G8G10G11

G1G2G3G6G8G10G11

0

1.520

3.102.700

4.724.461.860

1.320.882.243.960

2.621.661.233.061.400

5.866.023.641.785.144.840

第三步,在第二步中所得到的新的7×7階距離矩陣中,非對角線元素中最小者為d28=0.88,故將G2與G8並為一類,記為G12={G2,G8}。再分別計算G1,G3,G6,G10,G11與G12之間的距離,可得到一個新的6×6階距離矩陣。

G1G3G6G10G11G12

G1G3G6G10G11G12

0

3.100

4.721.860

2.621.233.06 0

5.863.641.784.840

1.522.704.461.666.020

第四步,在第三步中得到的新的6×6階距離矩陣中,非對角線元素中最小者為d3,10=1.23,故將G3和G10歸並為一類,記為G13,即G13={G3,G10}={G3,(G4,G9)}。再分別計算G1,G6,G11,G12與G13 之間的距離,可得到一個新的5×5階距離矩陣。

G1G6G11G12G13

G1G6G11G12G13

0

4.720

5.861.780

1.524.466.020

3.103.064.842.700

第五步,在第四步中所得到的新的5×5階距離矩陣中,非對角線元素中最小者為d1,12=1.52,故將G1和G12歸並為一類,記為G14,即G14={G1,G12}={G1,(G2,G8)}。再分別計算G6,G11,G13 和G14之間的距離,可得到一個新的4×4 距離矩陣。

G6G11G13G14

G1G11G13G14

0

1.78 0

3.064.840

4.726.023.100

第六步,在第五步中所得到的新的4×4階距離矩陣中,非對角線元素中最小者為d6,11=1.78,故將G6與G11 並為一類,記為G15,即G15={G6,G11}={G6,(G5,G7)}。分別計算G13,G14和G15之間的距離,可得一個新的3×3階距離矩陣。

G13G14G15

G13G14G15

0

3.100

4.846.020

第七步,在第六步中所得到的新的3×3階距離矩陣中,非對角線元素中最小者為d13,14=3.10,故將G13和G14 歸並為一類,記為G16,即G16={G13,G14}={(G3,(G4,G9)),(G1,(G2,G8))}。再計算G15與G16之間的距離,可得到一個新的2×2階距離矩陣。

G15G16

G15G16

0

6.020

第八步,將G15與G16歸並為一類。

此時,各個分類對象均已歸並為一類。綜合上述各聚類步驟,可做出最遠距離聚類的譜係圖(同直接聚類譜係圖)。

【例5.1】為了研究各國森林資源的分布規律,共抽取了21個國家的數據,每個國家4項指標,原始數據見下表,試用該數據對國別進行聚類分析。

表51

國別森林麵積(萬hm2)森林覆蓋率(%)蓄積量(億m3)草原麵積(萬hm2)

中國1197812.593.531908

美國2844630.4202.023754

日本250167.224.858

德國102828.414.0599

英國2108.61.51147

法國145826.716.01288

意大利63521.13.6514

加拿大3261332.7192.82385

澳大利亞1070013.910.545190

蘇聯9200041.1841.537370

捷克45835.88.9168

波蘭86827.811.4405

匈牙利16117.42.5129

南斯拉夫92936.311.4640

羅馬尼亞63426.711.3447

保加利亞38534.72.5200

印度674820.529.01200

印度尼西亞218084.033.71200

尼日利亞149016.10.82090

墨西哥485024.632.67450

巴西5750067.6238.015900

軟件運算指導5.1——利用SPSS進行聚類分析

1. 在主菜單中單擊“分析(Analyze)”,從下拉菜單中依次選擇“分類:係統聚類(Classify:Hierarchical Cluster)”菜單項,彈出分層聚類主對話框。

2. 在對話框中部的“分群(Cluster)”矩形框中選擇聚類類型。

(1) “個案(Cases)”:觀測量聚類。

(2) “變量(Variables)”:變量聚類。

3. 指定參與分析的變量:將選定的變量通過向右箭頭按鈕移入“變量(Variable[s])”矩形框中,將標識變量移入“標注個案(Label Cases by)”下麵的框中。

4. 如果參與分析的變量量綱一致,不必對數據進行標準化,而其他選項全部選擇係統默認值,則此時就可以單擊OK提交係統執行了。

如果參與分析的變量量綱不一致,或者不使用係統默認值,則應根據需要選擇執行下述某些步驟。

5.確定聚類方法:在主對話框中單擊“方法(Method)”圖標按鈕,展開分層聚類的方法選擇對話框。

在對話框中根據需要指定聚類方法、距離測度方法、標準化數值方法和對測度的轉換方法。

(1) 聚類方法(Cluster Method):聚類方法選擇

① 組間連接(Betweengroups linkage):係統默認選項。

② 組內連接(Withingroups linkage)

③ 最近相隔法(Nearest neighbor)

④ 最遠相隔法(Furthest neighbor)

⑤ 重心聚類法(Centroid clustering)

⑥ 中位數聚類法(Median clustering)

⑦ Ward法(Wards method):離差平方法。

(2) 度量標準(Measure):對距離的測度方法選擇

① Interval(適用於等間隔連續變量)。可選擇:

● 歐氏距離(Euclidean disatnce):係統默認選項。

● 歐氏距離平方(Squared Euclidean distance)。

● 相似性測度(Cosine)。

● 皮爾遜相關係數(Pearson correlation)。

● 車比雪夫距離(Chebychev)。

● 波洛克距離(Block)。

● 明考斯基距離(Mincowski):選擇本項後,激活一個輸入框,輸入乘方(即開方)的次數p。

● 設定距離(Customized):選擇本項後,激活兩個輸入框,左麵一個應輸入乘方次數,右麵一個應輸入開方次數r。

② 計數(Count):適用於計數變量,即離散變量,可選擇

● 卡方測度(Chisquare measure)。

● φ2係數(Phisqare measure)。

③ 二分類(Bimary):適用於二值變量,可選擇

● Euclidean distance:二值歐氏距離。

● Squared euclidean distancd:二值歐氏距離平方。

● Size difference:值差測度。

● Pattern difference:值差測度。

● Variance:方差測度。

● Lance and Williams:萊茨威廉測度。

(3) 轉換值(Transform Values):對數據進行標準化的方法,可選擇

● None:不進行標準化(係統默認狀態)。如果參與分類的個體量綱一致,就不需對數據進行標準化處理。

● Z scores:把數值標準化到Z分數。

● Rang -1 to 1:把數值標準化到[-1,1]範圍內。

● Maximum magnitude of 1:把數值標準化到最大值為1。

● Range 0 to 1:把數值標準化到均值為1。

● Standard deviation of 1:把數值標準化到單位標準差。

(4) 轉換變量(Tranform Measures):測度的轉換方法,可選擇

● 絕對值(Abolute values):絕對值標準化。

● 更改符號(Change sign):把相似性(或不相似性)測度值轉化為不相似性(或相似性)測度值。

● 重新標注到0~1全距(Rescale to 0~1 range):去掉最小值後再除以範圍,使距離標準化。

6.選擇要求輸出的統計量。在主對話框中單擊“統計量(Staistics)”圖標按鈕,展開選擇輸出統計量對話框。其中包括:

(1) 合並進程表(Agglomeration schedule ):凝聚狀態。凝聚狀態表可顯示每一步的類或觀測量的合並情況,各類或觀測量之間的距離以及最終聚類後各觀測可加入各類的類水平。因此,可以根據此表跟蹤聚類的合並過程。

(2) 相似性矩陣(Proximity matrix):顯示各類之間的距離或相似性測度值。

(3) 聚類成員(Cluster Membership)

① 無(None ):不顯示類成員表(係統默認選項)。

② 單一方案(Single solution):顯示確定分類的解。要求輸入確定的分類數,如輸入數字“3”輸出將顯示分類數為3時的類成員表。

③ 方案範圍(Range of solution):顯示分類數在一個確定範圍的解。要求輸入分類的最小值和最大值。

7. 選擇要求輸出的統計圖表。在主對話框中單擊“繪製(Plot)”圖標按鈕,展開選擇輸出統圖表對話框。其中包括:

(1) 樹型圖(Dendlrogram)。

(2) 冰柱(Icicle):冰柱圖。

① 所有聚類(All clusters ):全過程聚類。可從圖中查看聚類的全過程,但如果參與聚類的個體很多,會造成圖形過大。

② 聚類的指定全距(Specified range of clusters):規定聚類範圍。要求輸入三個數字,從左側到右依次為聚類過程的起始步數、中止步數與步長。

③ 無(None):不顯示柱圖。

8. 生成新變量的選擇項。聚類分析的結果可以用新變量名保存在數據文件中。在主對話框中單擊Save 圖標按鈕,展開新變量選擇對話框。

(1) 無(None):不建立新變量(係統默認選項)。

(2) 第一方案(Single Solution):隻生成一個新變量,表示每個個體在聚類結果後最後所屬的類別。

(3) 方案範圍(Range of Solution):生成若幹個新變量,每個變量對應一種分類數。

第二節地理係統的判別分析

一、 判別分析概述

判別分析又稱“分辨法”,是在分類確定的條件下,根據某一地理對象的各種特征指標或多種信息來分辨或判別其類型歸屬問題的多變量統計分析方法,對某地地理類型的劃分和區界的判定具有重大的理論意義和現實意義。

在當前大量地理研究工作中,都存在著對類型的判別問題。例如,在農業區別、土地類型劃分、國土整治以及各種地理要素的分類和區劃中,都需要判別某一地點的類型應歸屬於哪一類的問題和確定各類型之間的地理界線。

判別分析的地理研究內容有兩方麵:一是已知一些地點(或樣本)的類型,然後根據多要素特征值確定某一地點(或樣本)應屬哪一類的問題;二是根據某地多要素特征進行合理分類和確定區域界線。由此可見,判別分析兼有判別與分類的兩種性質,但以判別為主。判別分析與聚類分析不同之點在於:判別分析必須事先已知分幾類為前提。聚類分析則不必事先確定類型,而類型的形成是聚類分析的結果。判別分析的作用,可概括為以下三點:① 對已分好的類型進行合理性檢驗;② 判別某地地理類型的歸屬問題和確定區域界線;③ 評價各要素特征值在判別分析中貢獻率的大小。

判別分析的類型可按不同的分類標準進行分類:① 按判別的級數來區分,有兩類判別分析和多類判別分析;② 按區分不同總體的所用的數學模型來分,有線性判別和非線性判別;③ 按判別時所處理的變量方法不同,有逐步判別和序貫判別等;④ 從不同角度提出問題,因此有不同的判別準則,如馬式距離最小準則、費歇爾準則、平均損失最小準則、最小平方準則、最大似然準則、最大概率準則等等。本教材主要學習費歇爾準則和貝葉斯準則兩類判別。