為什麼高的預測力最後還是錯得離譜?
目前市面上有許多的家用血糖測試儀 膽固醇測試儀 使用者如果沒有仔細看看裡面的說明書 會誤導自己的飲食選擇 進而很有可能影響自己對個人健康狀況的判斷
例如血糖測試儀 有的說明書裡面沒有呈現相關係數來說明其與實驗室血漿血糖值的效度關係 只丟給你一個信賴區間(比如正負15個單位) 這實在是很不負責任的做法
比如使用者量出的血糖是107 那麼這代表你的血糖信賴區間在122至92之間 我們知道血糖值大於等於100就是糖尿病前期 大於等於126就是糖尿病 那麼這個血糖儀顯然無效 因為你的健康狀況到底是正常還是不正常呢? 實驗室血漿血糖值應該是最準確的 如果這款血糖儀與血漿血糖值的效標關聯效度高 應該不會有這麼模糊的結論
那麼看見了預測力強的模型(例如二變量回歸分析R-Squared值為0.9595 這個值為1表示完美預測力) 就可以放心了嗎?
比如家用膽固醇測量儀 說明書裡面都會給你一個很強的回歸分析模型 企圖展示這個產品是很棒的 值得信賴的 但如果是一位進入營養性生酮狀態的瘦體高反應者 (LMHR) 這類人的總膽固醇往往會高達280以上 使用家用膽固醇測量儀卻得到總膽固醇小於200的數值(200以下判定正常 以上判定不正常) 這樣的預測力準嗎?
顯然是不準的 因為做出家用儀器所使用的樣本很可能無法囊括LMHR這類小眾族群 那麼儀器在判讀的過程當中就失去了準頭
這就給了機器學習一個大展身手的機會 因為目前這類家用血液測量儀器 都是使用統計學技術所做出來的模型 其使用的樣本大概不會超過1000個 如果未來加入機器學習模型 那麼為了得到最佳預測模型 使用的訓練樣本會高達萬以上 這就很可能囊括了不少的LMHR數據 那麼這樣的儀器準確度有可能不僅提高還具備了廣度
由此可見 機器學習會加速醫學進步 甚至很可能顛覆許多目前醫學界所使用的標準
上一篇:邏輯迴歸與人工智慧