2022-02-22 22:08:49解讀統計與研究譯者

34個讓你豁然開朗的統計學小故事

34個讓你豁然開朗的統計學小故事

(政治大學傳播統計系指定用書)

(台灣大學量化分析與數學素養領域通識課程用書)

影音介紹

如何閱讀本書

樂於從事別人似乎恨之入骨的事情,感覺真的很怪。我從一堆數字當中,梳理出有助於人們過得健康長壽的知識。然而,如果我告訴朋友們,統計是我的熱愛,他們會奇怪地看著我,好像我有溝通障礙才會當個統計宅男。

    我認為,統計被教授的方式,尤其是統計教科書,使得大部分人們認為學習統計是一種虐待。統計教科書很厚又很無聊,而且很貴。因此,我跟編輯建議我要寫一本很薄又很無聊又很貴的書。他考慮了一下,但最終決定我必須要有更好的點子。所以我是這樣想的:典型的統計教科書(1)告訴你怎麼跑統計,而非了解它,(2)充斥著數學公式,以及(3)一點也不有趣。我想,是否我可以聚焦於(1)如何了解統計,(2)避免數學公式,以及(3)有趣。

    於是,我想到了要用說故事的方式,來寫這本書。十誡裡面有提到,「你不應該貪圖鄰居的房子、妻子、驢或牛。」但沒人會這樣對話。取而代之,人們會說「隔壁的草地比較綠。」假設你不知道「隔壁的草地比較綠」來自於一個古老的有關羊吃草的故事。所以,故事是這樣的,羊兒們每天快樂地在自家草地吃著綠草。有一天牠們心血來潮,抬頭張望了一下,發現隔壁橋下靠近溪水的草地比較綠,於是就跑過去吃那邊的草。吃著吃著,牠們又抬頭張望了一下,覺得還是原來吃草的草地比較綠。於是,牠們就這樣來來回回地過橋吃草,總覺得隔壁的草地比較綠。我最後一次聽見這個故事是我還在幼稚園的時候,但我現在仍然記得它的意義。十誡說的道裡一點也沒錯,但很難記住,因為它告訴你做什麼。我的意思是,故事幫助你了解事情的意義,終其一生都很難忘記。

    本書各章就像故事一樣,簡短又有趣。本書的另一個特色,討論區,稍微嚴肅了一點。討論的題目非常多樣化,通常會有一個值得深思的問題,其他的題目可視為調劑學習之用。像是,討論關於數學常數e的起源。

     如果你有一些統計基礎,大可隨意瀏覽本書。否則,你應該從頭讀到尾。前十二章涉及一些最基本的概念。例如,平均、變異、分配以及信賴區間。之後的幾章論及假設檢定與p-值。最後討論回歸分析--這也是我工作上最常使用的統計方法,以及決策--這也是統計應該扮演的角色。本書的最後三分之一內容,專注於討論各種統計常犯的錯誤,因為我認為科學就是嘗試錯誤的學習。在教學時,我會給提出蠢問題的學生特別獎勵,因為我們往往能從這些問題上面學到東西。以p-值而言,在你看過其被誤用以及思考為何會犯下這樣的錯誤之後,你才能夠真正了解p-值的意涵。最後這幾章,能真正地充實你的統計知識。

 

本書的能與不能

誠懇地希望,讀完本書之後,你將能夠掌握許多統計關鍵概念。我也希望你將能夠避免那些常犯的統計錯誤。

    因為我並沒有在本書呈現任何統計公式,所以你並不能夠確實進行計算與分析。如果你想要為你的研究或課堂作業進行統計分析,你必須查閱有公式和分析步驟的傳統教科書。此外,本書也並不能如傳統教科書一般,有專文索引能提供你查閱忘記的東西。所以,如果你的目的是跑統計分析,本書不應該成為你唯一購買的書籍(即使它很適合你買來贈送給親戚、朋友、同事、鄰居以及路人甲)。另一方面,如果你是那種不想親自進行統計計算與分析的人--這也是大部分人們的屬類,但必須了解與詮釋你遇到的統計--這部分人比你想像的要多,那麼本書也許很適合你。

 

研究設計的部分在哪裡

我是個設計取向的統計學者。舉例來說,缺失值在醫學研究裡是個大問題。統計學家已經提出許許多多處理缺失值的複雜統計技術。我個人的貢獻在於提出一個非常簡易的降低缺失值的方法,也就是在一開始的時候,電訪在家的病人並只問兩個問題以代替冗長的問卷。依照這個方法,我們把缺失值的百分率從25%降低至6%,那麼複雜的缺失值處理技術就顯得多餘了。

    因此,你也許會訝異於本書並沒有研究設計的段落。簡言之,這是因為我不認為研究設計可以獨立於統計之外並另闢章節。有專門的章節介紹回歸分析與威寇森檢定,這是因為理論上,你可以分別操作它們。然而,你並不會認為,在進行回歸分析或是威寇森檢定之時,可以完全不考慮研究設計。據此,我沒有特別寫一章節討論研究設計。相反的,研究設計的評論已然交織於本書內文當中。

 

關於本書的故事與數據

當我開始寫作的時候,編輯告訴我說:「安德魯,我要你寫出一本,到目前為止,最有趣的統計教科書。」所以我是這麼想的:「太棒了,那麼我只需要寫下一則笑話就完成啦!」

    的確,事情並不會如此簡單,但也並不是那麼遙不可及。從任何一點來看,本書的故事與數據都有助於你學習統計。這有時意味著,簡化與修飾有益於理解。在一些案例裡,我模擬數據(統計術語「模擬」就是憑空捏造的意思)。我這麼做是因為我手上的數據過於複雜,可能會讓讀者無法專注於理解統計概念。此外,你也會厭煩於一直看見前列腺癌--這是我目前主要的研究工作。

    據此,故事與數據並不會100%貼近現實。我並不認為這會有所誤導,但請不要用本書去論斷瑞典男性血球數(參看梯盤棋與血清血紅蛋白水平:常態分配的見解),前列腺癌(參看何時拜訪芝加哥:關於線性與邏輯回歸),非洲裔美國人叫一輛計程車要多久時間(參看永遠不會發生在我身上的一些事情:你為什麼不應該比較p-),或是我朋友麥克(參看回歸單身的麥克:一位條件不錯的朋友仍然單身的統計解釋)。甚至是否「恐嚇從善」計畫,有助於少年犯避免往後的犯罪生涯(參看乾牙刷的機率:p-值到底是什麼?):我說它並不奏效,但是不要照單全收我的話,你自己去查查看(參看 www.cochrane.org)。畢竟本 

書之目的是在闡述統計,而非制定什麼打擊犯罪政策。

    我確實為本書分析數據並且毫無迴避地呈現我發現的結果。你應該能夠複製我的分析。大部份的原始數據在網路上都找得到,但是如果你找不到,請讓我知道,看看我該如何幫助你。附帶一提,我使用費雪精確檢定,分析本書大部分的類目式數據。

    我想要答謝普由研究中心(www.pewresearch.org)發布其對美國大眾所做的有趣原始調查數據。對於跨宗教聯姻所持態度的數據,修改自2006年北愛爾蘭生活與時代問卷調查(www.ark.ac.uk)。美國1996犯罪統計採自於www.statcrunch.com,這是對教學很有用的數據來源(但是需要訂閱)。針灸與頭痛數據可下載自www.trialsjournal.com/content/7/1/15。前列腺癌數據(和瑞典男性血球數)來自於我和我的同事漢斯.莉亞所進行的一系列研究。在醫學數據庫「PubMed」(http://www.ncbi.nlm.nih.gov/sites/entrez),使用關鍵字「Vickers

Lilja」,可以找到更多的數據。女性產假的數據來自於珍妮.戈尼克的研究(參看Families That Work: Policies for Reconciling Parenthood and Employment. New York: Russell Sage Foundation, 2003)。

譯者序

現今,統計教學已然蔚為顯學。諷刺的是,不是因為這門學科很有趣,而是因為很難懂。老師們對於統計課程的有效教學,往往一籌莫展;學生們對於統計課程的莫名恐懼,每每澆熄了其想要做研究的熱情。統計是一種科學方法。如果一個國家的統計教育處於奄奄一息的地步,那麼這個國家的科學發展就會受阻,影響可謂深遠。

    既然要有效教學,就要從教學法著手。行為學派的教學法,強調胡蘿蔔與棍子。以統計教學而言,這根棍子打下去可不得了,因為統計學科的標準化紙筆測驗,很可能讓你得到難堪的分數,從此恨之入骨。認知學派強調輸入與輸出。老師使出洪荒之力,在黑板上寫下一堆統計公式,企圖把十年功力如醍醐灌頂般地傳授給學生,然而個個消化不良,殊不知輸入與輸出只存在於電腦世界。這些都對統計教學造成了傷害。

    要學好一件事,首先必須不能討厭它;要學好統計,首先要去除對統計的厭惡感。因此,基礎統計學課程的教學目標,反而不是汲汲營營於認知與技能方面的東西,而是要把學習情緒當作是最先要處理的課題。感謝一些統計學家注意到這方面的重要性,一些不那麼生硬的教科書應運而生,如同本書。

    本書作者有豐富的實務經驗,結合了許多趣聞,以深入淺出的方式把統計觀念介紹給讀者。我把這本書定位在統計學輔助用書,如果是正式的統計學課程,建議搭配一本有系統性內容的基礎統計學教科書。然而,請不要誤會「輔助」二字為「不重要」,這本書所探討的內容極為重要,很多地方都是基礎的衍生,甚至有一般統計學教科書所達不到的深度。如果同學們進行小組合作學習,探索討論區問題的可能答案,那麼透過這樣的訓練,漸漸地,你會發現,你的研究報告讀起來很有深度且具有個人風格,而不是只有統計數值的堆砌。

    由於作者背景的關係,書中範例偏向於醫療領域。然而,統計觀念是跨學科領域的,牛牽到北京還是隻牛;t-檢定不論用在教育學、心理學或社會學,都還是t-檢定。書中所探討的統計分析,只有一小部分是醫療領域常用的技術。這也不打緊,因為多一點點的醫療知識,其實對個人身心健康很有幫助,尤其在現今醫病關係緊張的年代。

    統計學有許多很繞口的名詞。有時候,完全相反的名稱卻是代表同一件事。例如,本書所提及的單變量回歸(univariate regression),指的就是二變量回歸(bivariate regression)。前者以獨變項作為計算單位,所以只有一個獨變項;後者是二變量相關分析(bivariate correlation analysis)的進化版,也是只有一個獨變項。有時候,多變項回歸(multivariable regression)指的就是多重回歸(mutiple regression)。如果你學習統計時發現類似的情況,請不要惱怒,因為甚至有專文探討到底名字要怎麼取。這件事實告訴我們,只要懂得其分析結構,讀者們大可以繞過這些似乎是來自於外星球的語言,逕自取名為自家寵物的名字。

    本書原價約42塊美金,換算成新台幣之後,約是一位研究所學生十天的飯錢,這實在是不小的負擔。有鑒於中文類的統計學教科書選擇性不多,引進此種風格的原文書實屬必要。「引進」的模式有一個好處,就是讓知識產權降價,造福廣大的中文讀者,這也是我翻譯統計學教科書的主要目的。這種模式,從我的第一本譯作已被兩岸四地各類型大學圖書館收藏的情況看來,已然發酵。

    最後,不論你是在書店隨手翻閱到本書,或是在統計課的建議閱讀書單上看見本書,甚或是在圖書館的書架上不小心瞄到本書,我都要說聲恭喜,因為你將以極低的代價,得到幾乎是原汁原味的東西。願展讀愉快!

序言

如何閱讀本書

1 我跟一位朋友說,我的工作比你想像中的還要有趣:統計是什麼?

 

數據的描述

2 當比爾蓋茲走進一間小餐館:平均數與中位數

3 當比爾蓋茲再次回到小餐館:標準差與內四分位距
4 斜向射門與誤判
5 你不可能擁有2.6個小孩:不同類型的數據
6 為何你的高中數學老師是對的:如何畫一張圖

 

數據的分配

7 梯盤棋與血清血紅蛋白水平:常態分配的見解

8 如果常態分配如此常見,為何我的數據從來就不是?

9 但我喜歡那件毛衣:怎樣才算是「足夠」合適?

 

研究結果的變異:信賴區間

10 長頭髮:中年大叔的標準誤
11 怎麼避開雨天婚禮:變異與信賴區間
12 統計結綁值,它指的不是領帶:進一步探討信賴區間
 
假設檢定
13 選一條騎車回家的路:p-值的功用
14 乾牙刷的機率:p-值到底是什麼?
15 麥可喬丹不會接受這個虛無假設:如何詮釋大的p-值?
16 做運動與做生意之間的差別:t-檢定與威寇森檢定
17 與朋友們聚會:樣本量,精確度,以及統計檢定力
 
回歸與決策
18 何時拜訪芝加哥:關於線性與邏輯回歸

19 我的助理今天是短髮造型:關於回歸與混淆

20 我不理睬孩子的咳嗽,我太太驚慌失措:關於特異性與敏感性
21 避開大特價:統計幫助你做決定
 
一些常見的統計錯誤,我們從中學到了什麼
22 比約翰湯米多一個:四個統計錯誤,容易被忽略但卻很重要
23 剷除無用的p-值:一個統計檢定回答一個科學問題
24 如何拍攝電視節目:不提供有意義數值的統計分析

25 山姆93歲,體重700磅,美國佛羅里達州超級老爺:回歸分析裡兩個常見的

   錯誤

26 回歸單身的麥克:一位條件不錯的朋友仍然單身的統計解釋
27 OJ辛普森,莎莉克拉克,喬治與我:關於條件機率

28 當男孩遇見女孩,女孩拒絕男孩,男孩開始多重檢定

29 永遠不會發生在我身上的一些事情:你為什麼不應該比較p-

30 如何贏得馬拉松比賽:測量與時間有關的事物所犯的一些錯誤
31 劣質統計與培根三明治之間的差異:統計有所謂的「使用規則」嗎?

32 檢視你的垃圾桶:從錯誤中學習

33 有意義的數值:連結數學與科學

34 統計與人們息息相關,即使你看不見眼淚
討論區答案
參考資料

索引