2011-09-02 20:29:28解讀統計與研究譯者

缺失值(missing data)處理

進行問卷調查研究不免會有缺失值的問題 隨著缺失值定義的不同 處理的傾向也不同

如果是完全隨機缺失值(missing completely at random) 那麼如果缺失值是收入 而缺失值缺失的機率無關於收入多寡或其他變項

如果是隨機缺失值(missing at random)那麼如果缺失值是收入 在控制了其他變項之後 缺失值缺失的機率無關於收入多寡 例如收入的缺失機率有關於職業型態 而在每一個職業型態裡 收入缺失值的機率無關於收入多寡 

顯而易見的 如果使用名單去除(listwise deletion)法來處理完全隨機缺失值 那麼所得的樣本就像是能夠代表原來母體的比較小的樣本罷了(比原來的樣本要小) 但是如果使用同樣的方法來處理隨機缺失值 那麼就會有偏誤 例如所得資料僅有某職業的收入資料 那麼如果用此資料進行相關研究 就不得不考慮全距限制性(range restriction)的問題

由於完全隨機缺失值是如此地不具傷害性 所以使用成對去除(pairwise deletion)法反而比名單去除法更好 因為運用了比較多的訊息 但如果是隨機缺失值 那麼此法會劣於名單去除法

奇怪 成對去除是甚麼意思? 它的別稱(available case analysis)或許會讓讀者比較清楚 說得更明白點 就是把所得的資訊都用上 例如二變量相關分析 難免兩個變項或多或少都有缺失值 如果使用名單去除法 那麼只要其中一個變項有缺失值 另一個變項也不能用 但如果使用成對去除法 不管其中一個變項是否有缺失值 另一個變項只要有資料就把它拿來用 所以成對去除法所運用的資訊會多於名單去除法