第五章 數理統計

一、熟知考綱考點

1(1)理解總體、簡單隨機樣本、統計量、樣本均值、樣本方差及樣本矩的概念.

(2)了解產生x2變量、t變量和F變量的典型模式;理解標準正態分布、x2分布、t分布和F分布的分位數,會查相應的數值表.

(3)掌握正態總體的抽樣分布.

2(1)理解參數的點估計、估計量與估計值的概念;了解估計量的無偏性、有效性(最小方差性)和相合性(一致性)的概念,並會驗證估計的無偏性;會利用大數定律證明估計量的相合性.

(2)掌握矩估計法(一階、二階矩)和最大似然估計法.

(3)掌握建立未知參數的(雙側和單側)置信區間的一般方法;掌握正態總體均值、方差、標準差、矩以及其其相聯係的數字特征的置信區間的求法.

(4)掌握兩個正態總體的均值差和方差比及相關數字特征的置信區間的求法

3(1)理解“假設”的概念的顯著性檢驗的基本思想,掌握假設檢驗的基本步驟;會構造簡單假設顯著性檢驗.

(2)理解假設檢驗可能產生的兩類錯誤,對於較簡單的情形,會計算兩類錯誤的概率.

(3)了解單個和兩個正態總體參數的假設檢驗.

二、本章知識串講

(一)數理統計的基本概念

1總體

在數理統計中,把所研究對象的全體稱為總體,它是一個隨機變量,用X表示如果X的分布函數為F(x),稱F(x)為總體X的分布函數組成總體的每一個元素稱為個體

2樣本

在一個總體X中,抽取n個個體X1,X2,…,Xn,稱為總體X的一個容量為n的樣本

設X1,X2,…,Xn是取自總體X的樣本,且它們相互獨立與總體具有相同分布,則稱X1,X2,…,Xn為簡單隨機樣本(簡稱為樣本)

3統計量

設X1,X2,…,Xn是總體X的樣本,f(x1,x2,…,xn)為一n元連續函數如果f(X1,X2,…,Xn)中不包含任何未知參數,則f(X1,X2,…,Xn)稱為一個統計量

4常用統計量

設X1,X2,…,Xn是來自總體X的簡單隨機樣本,則有下麵的常用統計量:

樣本均值X=1n∑ni=1Xi;

樣本方差S2=1n-1∑ni=1(Xi-X)2;

樣本原點矩Ak=1n∑ni=1Xki,k=1,2,…;A1=X;

樣本中心矩Bk=1n∑ni=1(Xi-X)k,k=1,2,…

5統計推斷中常用的幾個分布

(1)χ2分布,設X1,X2,…,Xn是來自總體N(0,1)的樣本,則稱隨機變量χ2=X21+X22+…+X2n服從自由度為n的χ2分布,記作χ2~χ2(n)

χ2分布的密度函數的圖形如右圖:

若對於給定的α(0<α<1),存在χ2α(n),使∫+∞χ2α(n)f(x)dx=α,則稱χ2α(n)為χ2分布的上α分位數,它的數值可查表求得

χ2分布具有下列性質:

①若χ2~χ2(n),則Eχ2=n,Dχ2=2n;

②若χ21~χ2(n1),且χ22~χ2(n2),且χ21和χ22相互獨立,則χ21+χ22~χ2(n1+n2)

(2)t分布:設X~N(0,1),Y~χ2(n)且X與Y相互獨立,則稱隨機變量T=XYn服從自由度為n的t分布,記作T~t(n)

t分布的密度函數的圖形關於y軸對稱,如右圖:

t分布的分位數點tα(n)由P{T>tα(n)}=α,查t分布表可得

t分布的性質

①t1-αα=-tα(n);

②當n足夠大時,t分布≈N(0,1)分布

(3)F分布:設X~χ2(n1),Y~χ2(n2),且X,Y相互獨立,則稱隨機變量F=X/n1Y/n2服從第一自由度n1、第二自由度n2的F分布,記作F~F(n1,n2)

F分布的密度函數的圖形如右圖:

F分布的分位點Fα(n1,n2)可由P{F>Fα(n1,n2)}=α查F分布表得到

F分布的性質:

①若W~F(n1,n2),則1W~F(n2,n1);

②F1-α(n1,n2)=1Fα(n2,n1)

(4)正態總體的某些常用統計量的分布

設X1,X2,…,Xn是取自總體N(μ,σ2)的樣本,則

①X~Nμ,σ2n,X-μσ/n~N(0,1);

②(n-1)S2σ2=1σ2∑ni=1(Xi-Xi)2~χ2(n-1);

③X-μS/n~t(n-1)

(二)參數估計

1點估計

設θ是總體X的未知參數,用統計量=(X1,X2,…,Xn)來估計θ,稱是θ的估計量求θ的估計量稱作點估計

2估計量的評選標準

(1)無偏性:如果E=θ,則稱是θ的無偏估計量

(2)有效性:設1和2都是θ的無偏估計量,若D1<D2,則稱1比2有效

(3)相合性(一致性):如果對於任意的ε>0,limn→∞P{|-θ|≥ε}=0,則稱是θ的相合估計量(一致估計量)

相合性保證當樣本容量n很大時,以很大的概率接近θ當樣本容量n不大時,無偏性是點估計的基本要求

3求估計量的兩種常用方法

(1)矩估計,即用樣本矩作為總體矩估計的一種方法

設總體X的均值為E(X),方差為D(X),則用X=1n∑ni=1Xi估計E(X);用B2=1n∑ni=1(Xi-)2或S2=1n-1∑ni=1(Xi-X)2估計D(X)

(2)最大似然估計設總體X的概率密度函數為f(X;θ1,θ2,…,θm)[離散型時,X的分布律為p(X;θ1,θ2,…,θm,)]θ1,θ2,…,θm是待估參數設x1,x2,…,xn是來自X的隨機樣本的觀測值,其概率密度函數為

f(x1,x2,…,xn;θ1,θ2,…,θm)=Πni=1f(xi;θ1,θ2,…,θm);

離散型時,其分布律為

p(x1,x2,…,xu;θ1,θ2,…,θm)=∏ni=1p(xi,θ1,θ2,…,θm);

稱它為樣本的似然函數,記為L(θ)若L(θ)在=(1,2,…,m)達到最大值,則稱為θ的最大似然估計量這種估計方法稱為最大似然法

求最大似然估計量的步驟:

(1)寫出似然函數L(θ)=Πni=1f(xi;θ1,θ2,…,θm)(或L(θ)=Πni=1p(xi;θ1,θ2,…,θm)離散型);

(2)解方程Lθi=0,或lnLθi=0,(i=1,2,…,m),求出使L(θ)達到最大值的1,2,…,m;

(3)用1,…,m作為參數θ1,…,θm的估計量,用1,…,m的函數作為θ1,…,θm同一函數的估計量

4區間估計

參數的區間估計就是由子樣給出參數的估計範圍,並使未知參數在其中具有指定的概率

(1)置信區間與置信度

設總體X的分布中含有未知參數θ,對於給定的值α(0<α<1),若統計量1和2滿足P{1<θ<2}=1-α,則稱隨機區間(1,2)是θ的(1-α)的置信區間1和2分別稱為置信下限和置信上限,概率1-α稱做置信度

(2)正態總體參數的區間估計

待估參數條件抽樣分布置信區間μσ2已知U=X-μσn~N(0,1)X-uα2·σn,X+uα2·σn

P{|U|≥uα2}=ασ2未知T=X-μS/n~t(n-1)X-tα2·Sn,X+tα2·Sn

P{|T|≥tα2}=α

續表

σ2μ已知W=1σ2∑ni=1(Xi-μ)2~χ2(n)∑ni=1(Xi-μ)2χ2α2(n),∑ni=1(Xi-μ)2χ21-α2(n)

P{W≥χ2α2(n)}=P{W≤χ21-α2(n)}=α2μ未知W=(n-1)S2σ2~χ2(n-1)(n-1)S2χ2α2(n-1),(n-1)S2χ21-α2(n-1)μ1-μ2σ21,σ22已知U=(X1-X2)-(μ1-μ2)σ21n1+σ22n2

~N(0,1)(X1-X2)-uα2·σ21n1+σ22n1,

(X1-X2)+uα2·σ21n1+σ22n2

P{|U|≥uα2}=α已知σ21=σ22

=σ2

但σ2未知T=(X1-X2)-(μ1-μ2)SW1n1+1n2

~t(n1+n2-2)

S2W=(n1-1)S21+(n2-1)S22n1+n2-2(X1-X2)-

tα2(n1+n2-2)·SW1n1+1n2,

(X1-X2)+tα2(n1+n2-2)·SW1n1+1n2

P{|T|≥tα2}=ασ21σ22F=S21σ21S22σ22~F(n1-1,n2-1)1Fα2(n1-1,n2-1)·S21S22,Fα2(n2-1,n1-1)·S21S22

P{F≥Fα2(n1-1,n2-1)}=α2

P{1F≥Fα2(n2-1,n1-1)}=α2

(三)假設檢驗

1假設檢驗的基本思想

假設檢驗是統計推斷的另一個基本問題假設檢驗的前提是假設小概率事件在一次試驗中不會發生

在H0成立的假設下,樣本值落入否定域的概率為α,這是小概率事件,不應發生因此若試驗結果落入否定域,則拒絕H0而接受與H0相反的結論H1,否則接受H0上述概率α稱為顯著水平

2假設檢驗的一般步驟

(1)確定所要檢驗的基本假設H0;

(2)選取統計量,並知道其在一定條件下的分布;

(3)在給定的顯著水平α下,查相應的概率分布表找出臨界值進而確定否定域;

(4)由樣本觀測值計算統計量,並判斷是否接受H

3假設檢驗的兩類錯誤

第一類錯誤:H0成立,而試驗結果落入否定域,從而得出H0不成立的錯誤結論犯第一類錯誤的概率記為α

第二類錯誤:H0不成立,但試驗結果未落入否定域,從而得出H0成立的錯誤結果犯第二類錯誤的概率記作β

4單個正態總體的均值和方差的假設檢驗

(1)σ2已知,檢驗假設H0:μ=μ0;

取統計量U=X-μ0σ/n~N(0,1);

在顯著水平α(0<α<1)下,查標準正態分布表找出使P{|U|>uα2}=α成立的臨界值uα2;

由樣本觀測值計算出U,如果|U|>uα2,則否定H0;否則接受H0

(2)σ2未知,檢驗假設H0:μ=μ0;

取統計量T=X-μ0S/n~t(n-1);

在顯著水平α下,查t分布表找出臨界值tα2,使P{|T|>tα2(n-1)}=α

如果由樣本觀測值計算出數|T|>tα2(n-1),則否定H0;否則接受H0

(3)σ2未知,檢驗假設H0:μ≤μ0;

取統計量T=X-μ0S/n~t(n-1);

對給定的顯著水平α,查t分布表,找出臨界值tα(n-1):P{T>tα(n-1)}=α

由樣本觀測值計算出T0,若T0>tα(n-1),則否定H0,否則接受H0

(4)μ未知,檢驗假設H0:σ2=σ20;

取統計量χ2=(n-1)S2σ20~χ2(n-1);

對給定的顯著水平α,查χ2分布表,找出臨界值χ2α2(n-1),χ21-α2(n-1),使

P{χ2>χ21-α2(n-1)}=1-α2及P{χ2>χ2α2(n-1)}=α2,

從而H0的拒絕域:(0,χ21-α2(n-1))∪(χ2α2(n-1),+∞)

由樣本觀測值計算統計量χ20=(n-1)S2σ20=∑ni=1(Xi-X)2σ20

如果χ20落入拒絕域中,則拒絕H0;否則接受H0

(5)μ未知,檢驗假設H0:σ2≤σ20;

選取統計量χ2=(n-1)S2σ20~χ2(n-1);

對給定的顯著水平α,查χ2分布表確定臨界值χ2α(n-1),使P{χ2>χ2α(n-1)}=α;

由觀測值計算χ20=(n-1)Sσ20,若χ20>χ2α(n-1),則拒絕H0;否則接受H0

5兩個正態總體的均值和方差的假設檢驗

(1)σ21,σ22已知,檢驗假設H0:μ1-μ2=δ,

≤δ,

≥δ;

當μ1-μ2=δ時,

取統計量U=X1-X2-δσ21n1+σ22n2~N(0,1);

在顯著水平α下,H0的拒絕域為|U|>uα2,

U>uα,

U<-uα

(2)σ21,σ22未知但σ21=σ22,檢驗假設H0:μ1-μ2=δ,

≤δ,

≥δ

當μ1-μ2=δ時,取統計量

T=X1-X2-δS1n1+1n2~t(n1+n2-2)

其中:S2=(n1-1)S21+(n2-1)S22n1+n2-2