第78章軍事預防醫學中常用統計學方法
]
第一節概述
醫學統計學(medical statistics)是運用概率論與數理統計的原理及方法,結合醫學實際,研究數字資料的收集、整理、分析與推斷的一門學科。
醫學統計學在軍事醫學中有著廣泛的應用,已形成專門的軍事醫學統計學(military medical statistics)研究方向。該方向使用的方法和基本內容與醫學統計學相同,但突出了軍隊是武裝集團的特點,其主要作用是及時準確地反映部隊衛生工作情況的各種統計資料和統計分析結果,為各級軍政首長和衛勤領導製定衛生工作規劃、考核指導工作及科學管理和決策提供統計學依據。
一、
醫學統計學在軍事醫學
中的基本應用
(一)平時衛生統計
該方麵應用研究是最基本的內容,已形成一套完整的製度,有嚴格的規定。其中主要有:①反映軍隊人員健康水平的健康統計;②反映軍隊人員疾病發生及其危害情況的疾病統計;③反映軍隊開展預防工作和健康教育情況的衛生防疫統計;④反映軍隊衛生資源利用和衛生力量狀況的衛生業務統計等。
(二)醫院衛生統計
它的主要內容是:①醫院衛生資源統計,目的是了解衛生資源(含人員、設備、經費與信息等)的投入、分配及利用是否合理與有效;②醫療工作數、質量統計,目的是了解工作量以及工作量與人員配備是否相適應,能否及時作出診斷與診斷是否正確,治療是否有效、及時和徹底,搶救危重患者是否成功,護理技術操作是否正規、熟練,服務是否優質等;③醫院綜合效益統計,分社會效益與經濟效益,前者是了解醫療、科研、人才培養以及為部隊、為地方群眾服務工作的情況,後者是了解醫療費用的收支和對上級撥款的使用情況等。
(三)戰時衛生統計
主要內容有:①部隊減員統計,以反映指戰員因傷、因病減員情況;②戰傷救治工作統計,以反映各級救治機構的床位展開、救治效果及傷病員轉運等情況;③傷員的傷情統計,以反映負傷的類別、部位及其原因等情況。
二、軍醫掌握統計知識的重要性
醫務人員既是衛生統計工作的執行者,又是受益者。軍醫掌握統計知識的重要性主要體現在以下幾個方麵:①醫生的正確判斷,如患者的病情診斷、治療方法的選擇與預後分析等,在很大程度上取決於統計信息的積累。②臨床和衛生防疫中的許多觀察數據具有不確定性,如患者的各項檢查、化驗數據,某一單位不同時期的患者數等。沒有一定的統計知識就不能正確地解釋和評價這些數據。③大量的外界信息,如各種傳播媒介、科技文獻和情報資料,都伴隨有直接或間接的統計信息,沒有一定的統計常識,就無法正確理解和迅速吸收新知識。④軍隊衛生統計的許多第一手資料產生於軍醫之手,如門診登記、體格檢查記錄、病曆等。軍醫應該清楚如何從這些資料中提取出統計信息,並使之發揮更大的作用。⑤具備一定的統計知識,能對科研數據進行基本的統計分析,是每個醫學科學研究者應具備的基本素質。
第二節常用的基本統計學方法
一、統計資料的類型
(一)計量資料
計量資料(measurement data)又稱定量資料(quantitative data),或數值變量(numerical variable),為測定每個觀察單位某項指標量的大小,經整理後而獲得的資料。其變量值是定量的,表現為數值大小,一般有度量衡單位。如調查某地某年7歲正常男童的身體發育狀況,以人為觀察單位,每個人的身高(cm)、體重(kg)、血壓(kPa)、坐高指數(%,坐高/身高)等均屬此類資料。
(二)計數資料
計數資料(enumeration data),又稱定性資料(qualitative data)或無序分類的分類變量(unordered categorical variable),為將觀察單位按某種屬性或類別分組計數,分組彙總各組觀察單位數後得到的資料。其變量值是定性的,表現為互不相容的屬性,而且一般是非數字的,例如性別的男女,試驗結果的陽性陰性,家族史的有無等等。分兩種情形:
1二項分類如檢查某小學學生大便中的蛔蟲,以每個學生為觀察單位,結果可報告為蛔蟲卵陰性或陽性;如觀察某藥治療某病患者的療效,以每個患者為觀察單位,結果可歸納為治愈與未愈兩類。兩類間相互對立,互不相容。
2多項分類如觀察某人群的血型分布,以人為觀察單位,結果可分為A型、B型、AB型與O型,為互不相容的四個類別。
(三)等級資料
等級資料(ranked data),又稱半定量資料(semiquantitative data)或有序分類的分類資料(ordinal categorical variable),為將觀察單位按某個指標量的大小分成等級或按某種屬性的不同程度分成等級後分組計數,分類彙總各組觀察單位數後而得到的資料。其變量值具有半定量性質,表現為等級大小或屬性程度,如觀察某人群某血清反應,以人為觀察單位,根據反應強度,結果可分-、±、+、四級;又如觀察用某藥治療某病患者的療效,以每名患者為觀察單位,結果可分為治愈、顯效、好轉、無效四級等。
實際上,資料類型的劃分,是根據研究目的而確定的,而統計分析方法的選用,又是與資料類型密切聯係的。在資料分析過程中,根據需要在有關專業理論指導下,各類資料間可以互相轉化,以滿足不同統計分析方法的要求。例如,以人為觀察單位觀察某人群脈搏數(次/min),屬計量資料;若根據醫學專業理論,定義脈搏數在60次/min~100次/min為正常,<60次/min或>100次/min為異常,按“正常”與“異常”兩種屬性分別清點人數,彙總後可轉化為計數資料;若進一步定義脈搏數<60次/min為緩脈,>100次/min為速脈,按“緩脈”,“正常”與“速脈”三個等級分別清點人數,彙總後可轉化為等級資料。以上的例子是先獲取計量資料後向計數資料或等級資料的轉化。隻要能在專業理論的支持下,確定不同屬性或不同等級的數量界限,這種轉化是不難實現的,這提示我們在研究設計中,對於能測量的指標,盡可能設計為定量指標,這將為分析中的資料轉化帶來方便;另一方麵,對於那些原本為計數或等級的資料,在資料分析過程中,為滿足某些統計分析方法的要求(如各類回歸分析的要求),有時要在有關理論和實踐的指導下設法轉化為計量資料,稱為資料或指標的量化。
二、計量資料的基本統計分析方法
(一)集中位置統計描述——平均數
平均數(average)是描述一群同質變量值集中位置的特征值,用以說明某現象或事物數量的中等水平。對計量資料,常用平均數包括算術均數、中位數、幾何均數等。
1算術均數簡稱均數(mean),符號為x(相應的總體均數記為μ)。均數反映一組觀察值在數量上的平均水平,定義公式為:
x=∑x n(公式1)
例1某市10名7歲男童體重(kg)分別為:173,180,194,206,212,218,225,232,240,255。求其平均體重。
將數據代入公式1得:
x=173+180+…+255 10=2135(kg)
算術均數適合於分布均勻的數據量較小的小樣本數據或近似正態分布的數據量較大的大樣本數據。
2中位數中位數(median)是將一批數據從小至大排列後位次居中的數據值,符號為M。定義公式為:
M=x(n+1)/2 n為奇數
(xn/2+x1+n/2)/2 n為偶數
(公式2)
式中的下標表示數據從小到大排列後的順序號。
例2以例1的數據為例,先將10個數據由小而大排列如下:
順序號 (1) (2) (3) (4) (5) (6) (7) (8) (9) (10)
數據值 173 180 194 206 212 218 225 232 240 255
本例n=10,n/2=5,(n/2+1)=6,x5與x6的數值分別為212、218,故M=212+218 2=215(kg)。
中位數適合各種類型的資料,但尤其適合於大樣本偏態分布的資料。
3幾何均數幾何均數(geometric mean)是n個變量值x的連乘積的n次方根,符號為xg或G,定義公式為
G=n x1·x2……xn(公式3)
G=log-1∑logx n
(公式4)
例35人的血清滴度為:1∶2,1∶4,1∶8,1∶16,1∶32,求平均滴度。
本例先求平均滴度的倒數。代入公式4得:
G=log-1log2+log4+log8+log16+log32
5=8
故平均滴度為1∶8。此例的算術均數為1∶124,顯然不能代表滴度的平均水平。
幾何均數適合於觀察值為等比級數的資料。此外,平均增長速度、傳染病發病的平均潛伏期等習慣上也用幾何均數表示。一般情形下,同一資料的幾何均數小於算術均數。
(二)離散程度統計描述——變異指標
變異指標又稱離散指標,用以描述一組計量資料各觀察值之間參差不齊的程度,觀察值之間差異愈大,變異指標越大,說明平均數的代表性就越差;反之亦然。現介紹幾種常用的變異指標。
1極差極差(range)即全距,符號為R。它是一批數據中最大值(xmax)與最小值(xmin)之差,反應了數據散布範圍的大小,即
R=xmax-xmin(公式5)
極差計算簡單,應用頗廣,如用於表達傳染病或食物中毒的最短與最長潛伏期等。但應用極差反映變異程度較為粗略,因為:①隻考慮了最大值與最小值,不能反映在該範圍以內的其他數據的離散度;②樣本含量越大,遇到較大或較小極端值的機會也加大,極差就可能隨之增大,故各樣本含量大小懸殊時,不宜比較其極差;③即使樣本含量不變,極差的抽樣誤差也較大,不夠穩定。因此極差僅適用於對未知分布的小樣本資料作粗略的分析。
2方差與標準差方差(variance)分為樣本方差和總體方差。樣本方差符號為s2,相應的總體方差符號為σ2。樣本方差的定義公式為:
s2=∑(x-x)2 n-1
(公式6)
樣本方差的平方根就是樣本標準差(standard deviation),記為s(總體標準差記為σ)。顯然:
s=∑x2-(∑x)2/n n-1
(公式7)
例4計算例1中數據的方差與標準差。
n=10,∑x=2135,∑x2=461943
s2=461943-(2135)2/10 10-1=680(kg)2
s=680=261(kg)
方差或標準差屬同類變異指標,它們多用來描述均勻分布或近似正態分布的資料,大、小樣本均可,其中以標準差的應用最廣。因為標準差除了保持了方差的優點外,其單位與觀察值單位一致,更便於對實際資料的表達與應用。比如在許多醫學研究報告中常用x±s的形式表達資料。
必須明確:在同質條件下,當樣本含量逐漸增多時,標準差將趨於相應的總體標準差,故同類事物的標準差常有一定的實際範圍。
3變異係數變異係數(coefficient of variation)亦稱離散係數,符號為CV,計算公式為:
CV=s x×100%(公式8)
變異係數為標準差與均數的比值。因此,變異係數可用於不同類型資料間變異程度的比較,如比較兒童的身高與體重的變異,比較同性別、同年齡的正常人的血壓與血脂的變異等;也可用於均數相差懸殊時同單位資料間變異程度的比較,如不同年齡段同性別兒童的體重變異大小比較等;在評價儀器測量精度或穩定性時,也常用變異係數。
例5某部隊幹部體檢得到體脂的均數和標準差分別為189%和58%,血清膽固醇的均數與標準差分別為484mmol/L和103mmol/L,試比較兩者的變異情況。
由於體脂和血清膽固醇是兩個不同的觀察指標,不能直接比較其標準差大小,而應比較變異係數。對本例:
體脂變異係數:
CV1=58 189×100%=3069%
血清膽固醇變異係數:
CV2=103 484×100%=2140%
顯然,體脂變異大於血清膽固醇變異。
(三)計量資料的統計推斷方法
這裏僅介紹t檢驗,因為該方法屬最常用的統計推斷方法。但該方法有兩個要求:①方差齊性,即參與比較的兩個組方差不能相差太大;②正態分布,即兩樣本所屬總體是正態分布或近似正態分布。
1配對t檢驗配對t檢驗又稱成對t檢驗(paired/matched ttest),適用於配對設計的計量資料。配對設計是將受試對象按照某些重要的非處理因素配成對子,每對中的兩個受試對象隨機地接受兩種不同的處理。在醫學研究中,配對設計主要存在以下形式:①兩個同質受試對象分別接受不同的處理;②同一受試對象分別接受不同的處理;③同一受試對象接受處理前後。
配對t檢驗實質上是檢驗同對數據之差的總體均數是否為0。如果總體均數為0,說明兩種處理之間或處理前後之間沒有差別;如果總體均數不為0,說明兩種處理之間或前後之間有差別。檢驗假設為同對數據之差的總體均數為0( H0∶μ1-μ2=μ=0),檢驗統計量為:
t=d-μ sd=d-μ sd/n,ν=n-1
(公式9)
例610名戰士在平原與高原的血氧飽和度(%)見表781,試檢驗平原與高原的血氧飽和度相差是否顯著。
表78110名戰士在平原與高原的血氧飽和度(%)
戰士編號 1 2 3 4 5 6 7 8 9 10
平原 98 99 95 96 98 95 96 96 96 97
高原 92 87 89 85 85 87 85 87 88 87
差數 (d) 6 12 6 11 13 8 11 9 8 10
H0:μ1-μ2=μ=0,H1:μ1-μ2=μ≠0,α=005
n=10,∑d=94,∑d2=936,=94 10=9400,sd=936-942/10 10-1=2413
sd=2413 10=0763,t=9400-0 0763=12320,ν=10-1=9
經查t界值表,得t0001/2,9=4781,所以t>t0001/2,9,P<0001,在α=005水準處拒絕H0,接受H1,認為μ1-μ2=μ≠0,相差有統計學意義,平原的血氧飽和度高於高原。
2兩樣本t檢驗兩樣本t檢驗又稱成組t檢驗(completely randomized design of two groups),適用於完全隨機設計兩樣本均數比較。完全隨機設計是指將受試對象完全隨機地分配到各個處理組中以接受不同的處理。
兩樣本t檢驗的目的是推斷其所來自的兩總體均數是否相同。檢驗假設為兩總體均數相同(H0:μ1=μ2),檢驗統計量為:
t=(x1-x2)-(μ1-μ2) sx1-x2,ν=n1+n2-2(公式10)
sx1-x2=s2C1 n1+1 n2(公式11)
s2C=∑(x1-x1)2+∑(x2-x2)2 n1+n1-2(公式12)
式中n1,n2分別為兩組的例數,x1,x2分別為兩組的均數,sx1-x2為兩樣本均數差數的標準誤,s2C為合並方差,s21,s22分別為兩組的方差。
例7某高原研究組將籍貫相同、年齡相同、身高體重接近的20名新戰士隨機分為甲、乙兩組,甲組為鍛煉組,每天除常規訓練外,接受中速長跑與健身操鍛煉,乙組為對照組,按常規訓練,1個月後測定肺活量(L)結果見表782。試比較兩組的肺活量有無差別。
表78220名戰士肺活量(L)
鍛煉組 4.41 4.88 4.46 3.98 4.78 4.46 3.93 4.01 4.18 4.08
對照組 3.32 4.44 4.32 3.44 3.86 3.98 3.98 3.96 4.05 3.56
H0∶μ1=μ2,H1∶μ1≠μ2,α=005
n1=10,n2=10,∑x1=4317,∑x2=3891,
∑x21=187378 3,∑x22=152570 1,
x1=4317,x2=3891,s1=0336,s2=0361
s2C=187378 3-43172/10+152570 1-38912/10 10+10-2=0121 37
sx1-x2=0121 371 10+1 10=0155 80
t=4371-3891 0155 80=2734,
ν=10+10-2=18,t001/2,18,>t002/2,18,002>P>001,在α=005水準處拒絕H0,接受H1,μ1≠μ2 ,相差有統計學意義,鍛煉組的肺活量高於對照組。
三、計數資料的基本統計分析方法
(一)統計描述——相對數
1率(rate)又稱強度相對數或頻率,它是一定時期或一定範圍內某現象的發生數與可能發生該現象的總數之比,反映某現象出現的頻率或強度。常以百分率(%)、千分率(‰)、萬分率(1/萬)、十萬分率(1/10萬)等比例基數表示。計算公式為: