簡易流行病學與生物統計學
一O三、常態分布
作者:吳聰賢醫師
常態分布(normal distribution)曲線圖有幾個特性:1. 越接近平均值,個體數越多。例如中國男性平均身高175公分,鄰近175公分身高的人,像173、174、176、177公分者較多。2. 越遠離平均值,個體數越少。像鄰近195公分、150公分者極少。3. 曲線圖呈鐘型對稱,又稱高斯型對稱(Gausian shape,高斯,1777-1855,德國數學家及物理學家)。4. 常態分布的平均數(mean)、中位數(median)、眾數(mode)三者均相同。
統計學上各種檢定,t-test、ANOVA、MANOVA等,縱然千變萬化,仍然逃不出如來佛手掌心,不外利用平均數(mean)、標準差(standard deviation)玩把戲。在常態分布(normal distribution)曲線上,平均數加上標準差的1.96倍,及平均數減標準差的1.96倍,「19.65 ±8.37 ×1.96」,圍出95%的總面積,這是統計學家最偉大的發現,沒有標準差就玩不出花樣。這項規則僅限於常態分布,如果非常態分布(non-normal distribution),統計學玩不下去。
如果非漂亮常態分布(不可以說標準常態分布standard normal distribution,平均數為0的常態分布,始稱之為標準常態分布),像偏態(skewness)分布,如偏右分布(skew to right)、偏左分布(skew to left),離常態分布越遠,誤差越大,統計結果將變成唬人。人的智商、身高、體重、年齡分布均是常態分布,性別、職業別則非常態分布。
500個大學生身高可以畫出漂亮常態分布曲線,10人、20人能畫出漂亮曲線嗎?這是統計學強調樣本數大小的原因。10或30個數據就想檢定推論,豈非矇著眼睛說瞎話?人的死亡率曲線圖,因為嬰幼兒、老年人有較高的死亡率,頭尾兩端較多,這屬雙峰分布曲線,當然非常態分布。所以,台北市與北京市兩城市死亡率的比較完全無意義,除非用年齡別死亡率,分數層做比較才有意義。
0 意見:
張貼留言