我們所講的抽樣誤差不是指實際誤差,是專門指抽樣平均誤差。它反映了樣本代表性的大小。抽樣誤差越大,表明樣本對總體的代表性越小,抽樣調查的結果越不可靠。反之,抽樣誤差越小,說明樣本對總體的代表性越大,抽樣調查的結果越準確可靠。
(二)影響抽樣誤差大小的因素
1.抽樣單位數目的多少
在其他條件不變的情況下,抽樣單位的數目越多,抽樣誤差越小;抽樣單位數目越少,抽樣誤差越大。
2.總體各單位之間的差異程度大小
差異程度在統計學上稱為標誌變異程度,通常用標準差來表示。在其他條件不變的情況下,標誌變異程度越小,抽樣誤差越小。標誌變異程度越大,抽樣誤差越大。抽樣誤差和標誌變異程度成正比關係。
3.不同的抽樣方式和抽樣方法
一般來說,等距抽樣和分層隨機抽樣的抽樣誤差要小於單純隨機抽樣和分群隨機抽樣。不重複抽樣的誤差要小於重複抽樣的誤差。
(三)抽樣誤差的計算
單純隨機抽樣是隨機抽樣的基礎。下麵著重介紹簡單隨機抽樣條件下的抽樣誤差計算。
1.平均數指標抽樣誤差的計算
(1)重複抽樣條件下,簡單隨機抽樣平均數抽樣誤差計算公式是:
ux=σn
式中:ux——抽樣平均數的抽樣誤差;
σ——總體標準差;
n——樣本單位數。
由於在實際調查中,總體標準差σ往往不知道而無法計算抽樣誤差ux。一般常用樣本標準差S來代替σ進行計算。樣本標準差S可以根據抽樣結果來計算,計算公式為
S=∑(Xi-X—)2n-1
式中:Xi——樣本觀察值;
X———樣本平均值。
所以,在重複抽樣條件下,抽樣平均誤差的計算公式為
ux=σn=Sn
(2)不重複抽樣條件下,簡單隨機抽樣平均數抽樣誤差計算公式是:
ux-=σ2n(1-nN)
2.成數指標抽樣誤差的計算
(1)重複抽樣條件下,簡單隨機抽樣成數抽樣誤差計算公式是:
up=P(1-P)n
(2)不重複抽樣條件下,簡單隨機成數抽樣誤差計算公式是(總體單位數很大時):
up=P(1-P)n(1-nN)
【例5-5】假定某街道有8000戶居民,用單純隨機抽樣法抽取200戶,調查居民對食用油的月均需求量。調查結果表明,每戶居民食用油月均需求量為800克,標準差為100克。求抽樣平均誤差是多少?
已知:n=200,S=100
抽樣平均誤差為:
ux=σn=Sn=100200=7.1(克)
此次抽樣調查的抽樣平均誤差為7.1克。
在實際的抽樣調查時,從總體中抽取樣本時采用不重複抽樣,計算抽樣誤差時采用重複抽樣的抽樣誤差公式。因為,不重複抽樣比重複抽樣的誤差要小,重複抽樣的抽樣誤差公式比不重複抽樣的抽樣誤差公式簡單。
(四)必要樣本數目的確定
在進行抽樣調查之前,需要確定抽樣數目。樣本過多使調查所需成本費用提高,樣本過少使調查結果存在較大誤差。因此,科學地確定必要的抽樣數目,可以使抽樣誤差控製在預先規定的範圍內。所謂必要的抽樣數目,就是在事先給定的抽樣誤差範圍內所確定的、能夠達到對調查結果精確度要求的樣本單位數。
影響合理的必要抽樣數目的因素:
(1)總體各單位之間的差異程度大小。
(2)允許誤差的大小。
(3)不同的抽樣組織方式和抽樣方法。
允許誤差也稱極限抽樣誤差。根據概率原理,用一定的概率可以保證抽樣誤差不超過某一給定範圍Δ,這個給定的範圍就是極限抽樣誤差。允許誤差是用概率度與抽樣誤差之積求得,用ΔX表示。在其他條件一定的情況下,允許誤差小,抽樣數目應該多一些;反之,允許誤差大,抽樣數目就可少一些。應當取多大的允許誤差,要根據調查的目的要求、調查經費和時間來確定。
置信度用符號F(t)表示,概率度用t表示。概率度需要通過置信度求得。當置信度為95.45%,概率度為2;當置信度為98.76%,概率度為2.5;當置信度為99.73%,概率度為3。
重點介紹簡單隨機抽樣方式條件下,重複抽樣條件下,平均數抽樣數目的計算。
n=(t·σΔX)2=(t·SΔX)2
ΔX=t·ux
式中:σ、S分別代表總體標準差和樣本標準差。
【例5-6】某市調查職工每月食品消費支出情況。已知職工平均每人月食品消費支出標準差為40元,若要求允許誤差為3元,置信度達95.45%,求樣本數目需要多少人?若其他條件不變,置信度提高到99.73%,樣本數目又需要多少人?
已知:ΔX=3,σ=40,置信度F(t)=95.45%=0.9545,查正態分布概率表t=2,置信度F(t)=99.73%=0.9973,查正態分布概率表t=3。
解:當F(t)=95.45%時,
n=(tσΔX)2=(2×403)2=711(人)
這說明當允許誤差為3元,置信度為95.45%時,要抽711人來調查。當F(t)=99.73%時,
n=(tσΔX)2=(3×403)2=1600(人)
這說明當允許誤差為3元,置信度上升到99.73%,需抽1600人調查。
從以上計算可以看出,對抽樣調查結果置信度要求越高,樣本的數目就要越多。
四、推算調查總體總量指標
抽樣調查的目的是用抽樣指標來推斷總體指標。用抽樣指標來推斷總體指標,是指不僅要用樣本平均數推算總體平均數,用樣本成數推算總體成數,而且還要用樣本指標來推算總體的總量指標。推算總體總量指標的方法主要是直接推算法。點估計、區間估計是直接推算法的兩種具體方法。
(一)點估計
點估計是指用樣本平均數或樣本成數,直接代替總體平均數或總體成數的推算方法。
【例5-7】某市有居民5萬戶,隨機抽取500戶居民,對其月生活費進行調查,計算得到500戶居民月平均生活費支出為350元。采用點估計,可以認為5萬戶居民月均生活費月支出也是350元,則總生活費支出為1750萬元。
點估計方法簡便,但由於未考慮抽樣誤差和可靠程度等因素,因而無法說明推算的準確程度和把握程度。
(二)區間估計
區間估計是指根據樣本指標和極限誤差,來推算調查總體的總量指標的可能範圍。
區間估計法的具體步驟:
(1)利用極限抽樣誤差,推算總體平均數或成數的可能範圍。
(2)利用總體平均數或成數的可能範圍,推算總體總量指標。
常見的區間估計是用樣本平均數去推斷總體平均數的置信區間,其公式如下:
x--tux≤X—≤x-+tux
式中:X———總體平均數;
x-——樣本平均數;
tux——抽樣平均數誤差範圍。
從上述公式中,可以看出,區間估計與樣本平均數、抽樣誤差和概率度三個因素有關。
【例5-8】某市有5萬戶居民,抽選500戶做樣本,調查居民人均月生活費支出為350元,抽樣誤差為15元,請推斷置信度為95%條件下,該市居民人均月生活費支出的置信區間。
解:根據題意可知:
x-=350(元)ux=15(元)
F(t)=95%,查正態分布表t=1.96
x--tux≤X—≤x-+tux
350-1.96×15≤X—≤350+1.96×15
350-29.4≤X—≤350+29.4