簡易流行病學與生物統計學
七十三、共變數
作者:吳聰賢醫師
共變數(covariance,cov,英文小寫)是兩個變項(variable)間共同改變的情形,依照其內涵,把『共變數』解讀為『共同改變的數』未嘗不可,但依照其計算的方式、和英文原意,共變數(covariance;con,拉丁文,英文together,中文一起的、共同的;variance變異數)應該譯為『共同的變異數』。為何兩個變項間共同改變的情形要用共變數來表示?『相關性』的探討除了共變數沒有更好的方法?
變異數可分樣本統計值、和母群體母數兩種,變異數(s2)、和變異數(σ2),共變數是不是也有此兩種?理論上應該有,教科書有提到相關係數的樣本、和母群體的假設檢定,不過在共變數的代表符號上沒有特別去區分,應該是疏忽吧?
變異數(sX2) =Σ(Xi樣本的數據-X樣本的平均數)2/
樣本的數字個數-1
=Σ(xi-
)2 / n-1

共變數(covXY)=Σ(Xi樣本的數據-X樣本的平均數)(Yi樣本的數據-Y樣本的平均數)/樣本的數字個數-1
=Σ【(xi-
)(yi-
)】/ n-1


【第一個例子】彰化市大竹區衛生所在預防注射時,隨機抽樣五位兩個月大的嬰兒(不分性別、或分男嬰、或分女嬰,某種樣本,將來就推論某種母群體;不分性別,將來就推論所有嬰兒;分男嬰,將來就限定推論男嬰;分女嬰,將來就限定推論女嬰)其體重分別5、3、6、4、7公斤,定為X變項,經過一年後,再重新測量體重,分別是10、8、11、9、12公斤,定為Y變項,請問兩個月、和一歲兩個月嬰兒體重有何『相關性』?是否兩個月體重較重、或較輕者,一歲兩個月時體重也較重、或較輕(正相關)?還是兩個月體重較重、或較輕者,一歲兩個月時體重反而較輕、或較重(負相關)?還是兩者沒有相關性(零相關)?
X變項平均數
=(5+3+6+4+7)/ 5 = 5
Y變項平均數
=(10+8+11+9+12)/ 5 =10
XY變項共變數
= 【(5-5)(10-10)+(3-5)(8-10)+(6-5)(11-10)+(4-5)(9-10)+(7-5)(12-10)】/ 5-1
=(0+4+1+1+4)/ 4
= 2.5………….共變數為正的,屬正相關
【第二個例子】彰化縣衛生局防疫課隨機抽樣五位同仁,民國88年考績成績分別為:80、82、77、76、80,定為X變項,民國89年考績成績分別為78、80、82、82、78,定為Y變項,請問88年考績、和89年考績有何『相關性』?是否88年考績較高、或較低者,89年考績也較高、或較低(正相關)?是否88年考績較高、或較低者,89年考績反而較低、或較高(負相關)?還是兩者沒有相關性(零相關)?
X變項平均數
= (80+82+77+76+80)= 79
Y變項平均數
= (78+80+82+82+78)= 80
XY變項共變數
= 【(80-79)(78-80)+(82-79)(80-80)+(77-79)(82-80)+(76-79)(82-80)+(80-79)(78-80)】/ 5-1
=
【(-2)+0+(-4)+(-6)+(-2)】/ 4
=
-3.5…………變數為負的,屬負相關
由上述兩個例子得知,所謂體重較重、或較輕,所謂考績成績較高、或較低,均與平均值做比較,『兩個月體重較重者,一歲兩個月時體重也較重』其涵義指『兩個月體重高於平均值者,一歲兩個月時體重也高於平均值』;『88年考績較高者,89年考績反而較低』其涵義指『88年考績高於平均值者,89年考績反而低於平均值』;注意!不單是個別平均值的比較,經過加總步驟,成為整體的平均值的比較。經由共變數公式逆推回去,相關性的探討稍微浮現出來,可為『相關性』補充一些概念。
其實這只是冰山一角,另有座標圖上直線相關(linear correlation)、和非直線相關(non-linear correlation)的思考模式,當兩個變項能畫出一條直線做相關分析,此稱為直線相關,如果能畫出一條曲折線、拋物線等非直線做相關分析,此稱為非直線相關,可能是多項式相關、指數相關、乘冪相關、對數相關、自然對數相關等,太複雜了,吐血算了。一般多採用直線相關,不會採用非直線相關,因為直線相關容易看出正負相關性、和相關性強弱。本來是兩個變項間的『相關』,為何扯上直線相關、非直線相關?好像跟迴歸模式撞在一起?救命啊!
以上為統計學的正確思考模式,我曾用最原始、也是最簡單的思考模式想過,誤以為是『相關性』,結果是錯的,敘述如下,相關性為何不能採用此種思考模式?沒有統計學上應用的價值,因為這只是整體Y變項比X變項增加多少、或是減少多少的問題,此種相關性不是彼相關性,差十萬八千里。我用這種錯誤的想法加強同仁對『相關性』的了解。
第一個例子:XY變項相關性 =【(10-5)+(8-3)+(11-6)+(9-4)+(12-7)】/ 5 = 5
Y變項平均比X變項增加5
第二個例子:XY變項相關性 =【(78-80)+(80-82)+(82-77)+(82-76)+(78-80)】/ 5 = 1
Y變項平均比X變項增加1
0 意見:
張貼留言