2023-01-14 17:31:39解讀統計與研究譯者

離群值對回歸分析的效用

source: http://davidakenny.net/old/series/primer.htm

David A. Kenny
November 28, 1999

如上圖 有一條完美相關係數為1的回歸線(perfect correlation line) 然後有一條沿著黑點附近所形成的直線(回歸線) 然後有一條平行線為零相關係數線(zero correlation line) 最後有一條連接黑點的鋸齒線(over-fitted line) 那麼黑點代表什麼呢? 這裡代表的是平均數 每一個黑點都是一個平均數 橫軸代表前測(pretest) 縱軸代表後測(posttest) 以常理而言 前測是獨變項(預測變項) 後測是依變項(結果變項)

我們肉眼就可以發現一個離群值 它是圖最左側的一個黑點(左下角) 因為這個黑點 使得完美回歸線與回歸線的距離拉大 可以想見 如果排除這個離群值 完美回歸線會和回歸線很貼近

有一個理論叫做回歸均值(regression to the mean) 這個理論企圖告訴我們 擺盪最終會趨近平均值 例如量血壓 會有極端值出現 但不管怎麼上上下下 最後會有趨近平均值的現象 

因此 在教育研究領域 納入離群值的回歸分析可以告訴我們 低分的同學能夠被期待會有長足進步的現象 這對教學研究是個令人興奮的訊息 但是如果排除離群值來做回歸分析 那麼我們對低分同學的預測就很盲目 

離群值的取捨著實是個藝術 研究者可以使用一些規定來排除離群值以取得更完美的模型 但就會有訊息不全面的困擾 或者研究者不踢除離群值就做統計分析 會得到不那麼完美的模型 但是解釋的訊息比較多