2012-05-19 10:43:25解讀統計與研究譯者

缺失值"一定"要處理嗎?

缺失值由於屬性的不同 主要分成兩大類:(1)可忽略 (2)不可忽略 不管是哪一類 都有發展其處理缺失值的方法

基本上 處理可忽略缺失值最常用的兩個方法是listwise deletion與pairwise deletion對於線性迴歸分析而言listwise deletion會更好(i.e.,robust)

處理不可忽略缺失值就要考慮缺失值模型 伴隨進行sensitivity analysis(無法一言道盡 需要看專書)

缺失值並不可怕 可怕的是研究者要怎麼去定位眼前缺失值屬性以及其潛藏的機制(缺失得讓人看出端倪) 如果原始資料不是研究者第一手蒐集得來 那麼要了解眼前的缺失值屬性就顯得難度更大

更可怕的是 研究者錯誤地處理了缺失值 那麼結果可想而知很可能具有無法忽略的偏誤(例如 使用imputation法低估標準誤而使得統計值被高估)

由以上論述可知 處理缺失值並不容易 因此面對缺失值的最好策略就是在一開始蒐集資料時盡量不要有缺失值 這需要研究者細心去叮嚀才能做到