簡易流行病學與生物統計學
七十二、平均數、變異數、標準差、觀測值或觀察值、不偏估計或最佳估計、樣本統計值、母群體母數
作者:吳聰賢醫師
統計學分成二個部分,敘述統計學、或稱描述統計學(descriptive statistics),及推論統計學(inferential
statistics),兩者所佔部分不成比例,敘述統計學有如一塊墊腳石,讓人跨過門檻進入深奧的推論統計學殿堂。一堆數字出現,敘述統計學會描述這些數字的一些特性,如算數平均數(arithmetic mean,簡稱平均數mean)、中位數(median)、眾數(mode)、平均差(mean deviation)、變異數(variance)、標準差(standard deviation,SD)、變異係數(coefficient of variance,CV)等,我個人認為平均差、變異數、標準差此三者最為基礎,一些千奇百怪、極端複雜、令人吐血的推論統計學,跑不了此三者;以上名詞的定義、和計算公式,請詳見一般教科書。
數字的敘述可分兩方面,一是數字的集中趨勢、或稱趨中性、中央趨勢(central tendency),另一為數字的離散趨勢(dispersive
tendency)、或稱變異性(variability),變異數屬描述變異性的一種;相關性分析(correlation analysis)、單因子變異數分析(one-way,analysis of variance,ANOVA)、雙因子變異數分析(two-way,ANOVA)、多因子變異數分析(multiple-way,ANOVA)、單因子多變量變異數分析(one-way,multivariate analysis of variance,MANOVA)、雙因子多變量變異數分析(two-way, MANOVA)、多因子多變量變異數分析(multiple-way, MANOVA)均由變異數的運算演化而來,楊志良教授說,近一、二十年統計學係針對變異數的探討為主要的發展方向。統計學家、或數學家利用概算、推估,把變異數耍出無窮盡的把戲,莘莘學子真可憐,在後猛追趕,嘔心瀝血死而後矣,最後不得不屈膝投降,把統計學家捧為圭臬。
假設彰化縣衛生局防疫課四位聘僱同仁,年齡分別20歲、30歲、40歲、和50歲,依照定義,求其平均數、變異數、和標準差:
平均數 = (20+30+40+50)/ 4 = 35
變異數 = 【(20-35)2+(30-35)2+(40-35)2+(50-35)2】/ 4
=
【(-15)2+(-52)+52+152 】】/ 4
= 125
標準差 =
一堆數字只做敘述統計,所能獲得的知識只限那堆數字,學術研究的目的是從部分樣本(samples),來推論全部、或稱整體、亦稱母群體(population),我不會單想了解防疫課四位聘僱同仁的年齡分布,我也想由此推估彰化縣衛生局所有課室聘僱人員的年齡分布,更想推估台灣地區25個北、高、及各縣市衛生局所有聘僱人員的年齡分布。推論統計必提到的母群體種類,請看「彰化縣衛生所護理人員在職訓練第4講」
代表符號
母群體的數值
X(英文字母大寫)
樣本的觀察值 x (英文字母小寫)
母群體的數值個數
N (英文字母大寫)
樣本的觀察值個數
n (英文字母小寫)
母群體的平均數
μ(希臘字母小寫,英文為mu,唸成mju,非micro-)
樣本的平均數
(英文小寫,唸成 x
bar)
母群體的變異數
σ2(希臘字母小寫,英文為sigma,唸成sigma square)
樣本的變異數 s2(英文小寫)
母群體的標準差
σ(希臘字母小寫,英文為sigma)
樣本的標準差 s(英文小寫)
|
當我把防疫課四位聘僱同仁當成一個母群體,則此四位人員的年齡計算如下:
變異數(σ2)=Σ(母群體的數據-母群體的平均數)2/ 母群體的數字個數
=Σ(X-μ)2 /
N
=
【(20-35)2+(30-35)2+(40-35)2+(50-35)2】/ 4
=
【(-15)2+(-52)+52+152 】 / 4
= 125
標準差(σ) =Σ(X-μ)2 / N,然後開根號
=
為了推論其他母群體,我把防疫課四位聘僱同仁當成樣本,則此四位人員的年齡計算如下;此20歲、30歲、40歲、和50歲,術語稱為樣本的觀測值、或觀察值(observation);如果此樣本是經由隨機抽樣(randomized sampling)獲得,不是隨意抽樣、或稱非機率抽樣(non-probability),其樣本統計值(statistic),如平均數、變異數、標準差等,稱為母群體母數(population
parameter)的不偏估計(unbiased estimation)、或稱最佳估計。用樣本來估計母群體,一樣有抽樣誤差(sampling error),詳見「在職訓練第4講」,『不偏估計』過度誇張,腦筋易打結,應該譯為『較不偏估計』,或直接稱為『最佳估計』較合乎實際。
變異數(s2)=Σ(樣本的觀察值-樣本的平均數)2/ 樣本的數字個數-1
=Σ(x-)2 / n-1
=
【(20-35)2+(30-35)2+(40-35)2+(50-35)2】/ 4-1
=
【(-15)2+(-52)+52+152 】 / 4-1
= 166.667
標準差(s) =Σ(x-)2 /(n-1),然後開根號
=
樣本的變異數(s2)、和標準差(s)的算法不同於母群體者,其數字個數變成n-1,為什麼要減1?是那個人、或那個國家規定要減1?不減1可不可以?減0.5、或1.5、或2可不可以?統計學老師可能不容易回答,會說明減1的目的如下;統計學只是概算,雖有深厚理論基礎,接近臨界點的P值,不同的統計方法會有不同的解釋。
1. 樣本的變異數(s2)、和標準差(s)因分母(n-1)變小,所得結果變大,變異數和標準差變大(125變166.667,變),表示樣本離散趨勢也變大,在做推論統計判定是否達統計意義時,因P值會變大,比較不容易達顯著性差異,推論結果會趨保守。
當樣本數越小時,(n-1)對變異數和標準差計算結果影響越大,推論結果會越趨保守,當樣本數越大時,其影響越小,越容易達顯著性差異,所以研究者會發現,增加樣本數會使原本不達統計意義者轉變成達統計意義;當樣本數超過120以上,減1或不減1影響接近0,可以忽略。
0 意見:
張貼留言