簡易流行病學與生物統計學 七十二、平均數、變異數、標準差、觀測值或觀察值、不偏估計或最佳估計、樣本統計值、母群體母數

簡易流行病學與生物統計學
七十二平均數、變異數、標準差觀測值或觀察值不偏估計或最佳估計樣本統計值、母群體母數
作者吳聰賢醫師
  統計學分成二個部分,敘述統計學、或稱描述統計學(descriptive statistics),及推論統計學(inferential statistics),兩者所佔部分不成比例,敘述統計學有如一塊墊腳石,讓人跨過門檻進入深奧的推論統計學殿堂。一堆數字出現,敘述統計學會描述這些數字的一些特性,如算數平均數(arithmetic mean,簡稱平均數mean)、中位數(median)、眾數(mode)、平均差(mean deviation)、變異數(variance)、標準差(standard deviationSD)、變異係數(coefficient of varianceCV)等,我個人認為平均差、變異數、標準差此三者最為基礎,一些千奇百怪、極端複雜、令人吐血的推論統計學,跑不了此三者;以上名詞的定義、和計算公式,請詳見一般教科書。
  數字的敘述可分兩方面,一是數字的集中趨勢、或稱趨中性、中央趨勢(central tendency),另一為數字的離散趨勢(dispersive tendency)、或稱變異性(variability),變異數屬描述變異性的一種;相關性分析(correlation analysis)、單因子變異數分析(one-wayanalysis of varianceANOVA)、雙因子變異數分析(two-wayANOVA)、多因子變異數分析(multiple-wayANOVA)、單因子多變量變異數分析(one-waymultivariate analysis of varianceMANOVA)、雙因子多變量變異數分析(two-way MANOVA)、多因子多變量變異數分析(multiple-way MANOVA)均由變異數的運算演化而來,楊志良教授說,近一、二十年統計學係針對變異數的探討為主要的發展方向。統計學家、或數學家利用概算、推估,把變異數耍出無窮盡的把戲,莘莘學子真可憐,在後猛追趕,嘔心瀝血死而後矣,最後不得不屈膝投降,把統計學家捧為圭臬。
  假設彰化縣衛生局防疫課四位聘僱同仁,年齡分別20歲、30歲、40歲、和50歲,依照定義,求其平均數、變異數、和標準差:
  平均數 = (20304050/ 4 35
  變異數 = 【(20352+(30352+(40352+(50352/ 4
         = 【(-152+(-52)+52152 】】/ 4
         125
  標準差 =
  一堆數字只做敘述統計,所能獲得的知識只限那堆數字,學術研究的目的是從部分樣本(samples),來推論全部、或稱整體、亦稱母群體(population),我不會單想了解防疫課四位聘僱同仁的年齡分布,我也想由此推估彰化縣衛生局所有課室聘僱人員的年齡分布,更想推估台灣地區25個北、高、及各縣市衛生局所有聘僱人員的年齡分布。推論統計必提到的母群體種類,請看「彰化縣衛生所護理人員在職訓練第4講」
                 代表符號
母群體的數值     X(英文字母大寫)
樣本的觀察值      x (英文字母小寫)
母群體的數值個數  N (英文字母大寫)  
樣本的觀察值個數  n (英文字母小寫)
母群體的平均數   μ(希臘字母小寫,英文為mu,唸成mju,非micro-
樣本的平均數     (英文小寫,唸成 x bar
母群體的變異數   σ2(希臘字母小寫,英文為sigma,唸成sigma square
樣本的變異數      s2(英文小寫)    
母群體的標準差   σ(希臘字母小寫,英文為sigma
樣本的標準差      s(英文小寫)
當我把防疫課四位聘僱同仁當成一個母群體,則此四位人員的年齡計算如下:
變異數(σ2)=Σ(母群體的數據-母群體的平均數)2/ 母群體的數字個數
=Σ(X-μ)2 / N 
             = 【(20352+(30352+(40352+(50352/ 4
             = 【(-152+(-52)+52152 / 4
             125
標準差(σ) =Σ(X-μ)2 / N,然後開根號
              
 為了推論其他母群體,我把防疫課四位聘僱同仁當成樣本,則此四位人員的年齡計算如下;此20歲、30歲、40歲、和50歲,術語稱為樣本的觀測值、或觀察值(observation);如果此樣本是經由隨機抽樣(randomized sampling)獲得,不是隨意抽樣、或稱非機率抽樣(non-probability),其樣本統計值(statistic),如平均數、變異數、標準差等,稱為母群體母數(population parameter)的不偏估計(unbiased estimation)、或稱最佳估計。用樣本來估計母群體,一樣有抽樣誤差(sampling error),詳見「在職訓練第4講」,『不偏估計』過度誇張,腦筋易打結,應該譯為『較不偏估計』,或直接稱為『最佳估計』較合乎實際。
變異數(s2)=Σ(樣本的觀察值-樣本的平均數)2/ 樣本的數字個數-1
=Σ(x2 / n1
           = 【(20352+(30352+(40352+(50352/ 41
           = 【(-152+(-52)+52152 / 41
           166.667
標準差(s) =Σ(x2 /n1),然後開根號
              
樣本的變異數(s2)、和標準差(s)的算法不同於母群體者,其數字個數變成n1,為什麼要減1是那個人、或那個國家規定要減1不減1可不可以?0.5、或1.5、或2可不可以?統計學老師可能不容易回答,會說明減1的目的如下;統計學只是概算,雖有深厚理論基礎,接近臨界點的P值,不同的統計方法會有不同的解釋。
1.  樣本的變異數(s2)、和標準差(s)因分母(n1)變小,所得結果變大,變異數和標準差變大(125166.667),表示樣本離散趨勢也變大,在做推論統計判定是否達統計意義時,因P值會變大,比較不容易達顯著性差異,推論結果會趨保守。
當樣本數越小時,(n1)對變異數和標準差計算結果影響越大,推論結果會越趨保守,當樣本數越大時,其影響越小,越容易達顯著性差異,所以研究者會發現,增加樣本數會使原本不達統計意義者轉變成達統計意義;當樣本數超過120以上,減1或不減1影響接近0,可以忽略。

0 意見:

張貼留言