看電影學統計：p值的陷阱 (1) – p值是什麼

◎ 林澤民／美國德州大學奧斯汀分校政府系教授

※本文原發表於作者部落格，為演講內容。原文整理後已發表在《社會科學論叢》2016年10月第十卷第二期。全文請點選按此。投影片請點選按此。

菜市場政治學BOX：什麼是P值

統計學上有一個重要的觀念叫做「假設檢定」，亦即我們可以用樣本資料來驗證假說假設的正確性。邏輯上來說，就算看到再多肯定的證據，我們也很難說一個假說就絕對是「真」的、永遠成立的，有可能再下一個案例出現的時候就成為了一個假說的反例。然而，統計上來說，如果我們看到「足夠多」與該假說不一致的證據，我們就傾向於去「否證」該假說。於是，一般假設檢定的做法是將我們想否證的假說設為所謂的「虛無假說」(null hypothesis，例如，我們要檢驗兩個因素之間的關聯性，則先假設它們兩個之間沒有關聯性)，然後看有多少證據與該假說不一致，如果有足夠多證據，我們就可以拒絕它。

多少證據才叫做足夠多（或統計上顯著）呢？一個方便法門是看p值，p值就是在「虛無假設成立」下，樣本的結果出現的機率。如果p值很小（自從Sir R. A. Fisher之後一般都用0.05當作慣用的分界值），我們就能否證這個假說，這樣的約定成俗使用方式普遍運用在現代科學研究當中。然而，對於p值「是什麼」以及「不是什麼」的討論，近幾年方興未艾，美國統計學會（ASA）在2016年發表了一份正式聲明，其中提到「科學的結論，還有在商業上、政策上的決策，不應只靠p值來決定。」而且特別提到說p值其實並不能告訴我們研究結果的重要程度，也不是一個很好的檢驗虛無假設或研究假設的指標。本文帶大家從生活中的例子和電影片段，來討論p值。

圖片來源：C.C. by clemsonunivlibrary

院長、陳老師，各位老師、各位同學，今天很榮幸能夠到政大來，和大家分享一個十分重要的課題。我今年回來，今天是第六個演講，六月中之前還有兩個，一共八個，其中四個是談賽局理論，四個是談p值的問題。賽局理論的部分，題目都不一樣，譬如我在政大公行系講賽局理論在公行方面的應用，而我第一個演講在台大地理系，談賽局理論在電影裏的應用。我在台大總共講了三部電影，一部是「史密斯任務」，講男女關係、夫妻關係；第二部是「少年pi的奇幻漂流」，講少年和老虎對峙的重覆性賽局；第三部電影是最新的電影：「刺客聶隱娘」，講國際關係賽局。今天談的當然是不一樣的題目，雖然它是一個很重要、很嚴肅的題目，但我希望大家可以輕鬆一點，所以也要放兩部電影片段給大家看，一部是「玉蘭花」，另一部則是「班傑明的奇幻旅程」，這兩部電影都有助於我們來瞭解今天要談論的主題：p值的陷阱。

科學的統計學危機

為什麼要談論p值的問題？因為在近十多年來，不只是政治學界，而是很多學門，特別是在科學領域，有很多文章討論傳統統計檢定方法、尤其是p值統計檢定的問題，甚至有位很有名的統計學者，Andrew Gelman寫了篇文章，叫作The Statistical Crisis in Science–「科學的統計學危機」，說是危機一點都不言過其實。這就是為何我說：今天要討論的其實是很嚴肅的問題。

投影片上這些論點，大部分是說我們在傳統統計檢定的執行上，對p值有各種誤解跟誤用。現在很多人談到「p值的危險」、「p值的陷阱」、「p值的誤用」、還有「p值的誤解」。甚至有些學術期刊，也開始改變他們的編輯政策。像這本叫作Basic and Applied Social Psychology的心理學期刊，已經決定以後文章都不能使用p值，大家能夠想像嗎？我們作計量研究，都是用p值，各位一直用，在學界用了將近一百年，現在卻說不能用。甚至有些文章，說從前根據p值檢定做出來的研究成果都是錯的，有人更宣告p值已經死了。所以這是一個很嚴重的問題。在這本期刊做出此決定後，美國統計學會(ASA)有一個回應，表示對於p值的問題，其實也沒這麼嚴重，大部分是誤解跟誤用所造成，只要避免誤解與誤用就好。可是在今年，ASA真的就發表了正式聲明，聲明裡面提出幾點，也是我今天要討論的主要內容，包括p值的真正的意義，以及大家如何誤用，換句話說就是：p值到底是什麼？它又不是什麼？(圖一) 今天除了會深入探討這些議題之外，也請特別注意聲明的第三點提到：科學的結論，還有在商業上、政策上的決策，不應只靠p值來決定。大家就應該了解這問題影響有多大、多嚴重！

圖一：美國統計學會(ASA)關於p值的聲明。

我舉個例子，最近在台灣，大家都知道我們中研院翁院長涉入了浩鼎案，浩鼎案之所以出問題，就是因為解盲以後，發現實驗的結果不顯著。我今天不想評論浩鼎案，但就我的了解，食藥署、或者美國的FDA，他們在批准一項新藥時，一定要看實驗的結果，而且實驗結果必須在統計上要顯著。可是ASA卻告訴我們說，決策不該只根據統計的顯著性，大家就可想像這影響會有多大。甚至有其他這裡沒有列出來的文章，提到為何我們使用的各種藥物，都是經過這麼嚴格的p值檢定出來、具有顯著性，可是在真正臨床上，卻不見得很有用。其實很多對p值的質疑，都是從這裡出來的。

有關p值的討論，其實並非由政治學門，而是從生命科學、例如醫學等領域所產生的。ASA聲明的第四點說：正確的統計推論，必須要「full reporting and transparency」，這是什麼意思呢？這是說：不但要報告p值顯著的研究結果，也要報告p值不顯著的研究結果。但傳統方法最大的問題是：研究結果不顯著，通通都沒有報告。在英文有個詞叫cherry-picking，摘櫻桃。什麼叫摘櫻桃？摘水果，水果熟的才摘，把熟的水果送到水果攤上，大家在水果攤上看到的水果，都是漂亮的水果，其實有很多糟糕的水果都不見了。我們在統計上也是，大家看到的都是顯著的結果，不顯著的結果沒有人看到。可是在過程中，研究者因為結果必須顯著，期刊才會刊登、新藥才會被批准，所以盡量想要擠出顯著的結果，這之中會出現一個很重大的問題：如果我們作了20個研究，這20個研究裡面，虛無假設都是對的，單獨的研究結果應該是不顯著。可是當我們作了20個統計檢定時，最少有一個結果顯著的或然率其實很高。雖然犯第一類型錯誤的或然率都控制在0.05，可是20個裡面最少有一個顯著的，或然率就不是0.05，大概是0.64。如果就報告這個顯著結果，這就是cherry-picking。ASA給的建議是：實驗者必須要full reporting and transparency，就是一個研究假如作了20個模型的檢定，最好20個模型通通報告，不能只報告顯著的模型。ASA這個聲明是今天要討論的主要內容。

p值是什麼

p值是什麼？我想在座有很多專家比我都懂，但是也有一些同學在場，所以還是稍微解釋一下。p值是由Ronald Fisher在1920年代發展出來的，已將近一百年。p值檢定最開始，是檢定在一個model之下，實驗出來的data跟model到底吻合不吻合。這個被檢定的model，我們把它叫做虛無假設（null hypothesis），一般情況下，這個被檢定的model，是假設實驗並無系統性效應的，即效應是零，或是隨機狀態。在這個虛無假設之下，得到一個統計值，然後要算獲得這麼大(或這麼小)的統計值的機率有多少，這個或機率就是p值。

舉一個例子，比如說研究ESP–超感官知覺–時會用到比例（proportion）這個統計值。我們用大寫的P來代表比例, 不要跟小寫的「p值」的p混淆。在p值的爭論裡，有一篇研究ESP的心理學文章被批評得很厲害。文章中提到了一個實驗，讓各種圖片隨機出現在螢幕的左邊或者右邊，然後讓受測者來猜圖片會出現在哪邊。我們知道如果受測者的猜測也是隨機的，也就是沒有ESP的效應，則猜對的或然率應該是一半一半，算比例應該是差不多 P=0.5，這裡比例P=0.5就是我們的虛無假設。但這個實驗–實驗者是一位知名心理學教授–他讓受測者用各種意志集中、力量集中的辦法，仔細地猜會出現在左邊還是右邊。結果發現，對於某種類型的圖片–不是所有圖片，而是對於某些類型的圖片，特別是色情圖片–受測者猜對的比例，高達53.1%，而且在統計上是顯著的。所以結論就是：有ESP，有超感官知覺。

這裡p值可以這樣算：就是先做一個比例P的sampling distribution–抽樣分配。如果虛無假設是對的，平均來講，P=0.5。0.5就是P的抽樣分配中間這一點，這個比例就是我們的虛無假設。在受測者隨機猜測的情況之下，P應該大約是0.5的。可是假如真正得到的P是 0.531，抽樣分配告訴我們：如果虛無假設是對的，亦即如果沒有任何超自然的力量，沒有ESP存在，大家只是這樣隨機猜測的話，則猜對的比例大於或者等於0.531的機率，可以由抽樣分配右尾的這個面積來算。作單尾檢定，這面積就是所謂的p值。如果作雙尾檢定的話，這值還要乘以2。以上就是我們傳統講的p值的概念。

我們得到p值以後，要作統計檢定。我們相約成俗地設定一個顯著水準，叫做α，α通常都是 0.05，有時候大家會嚴格一點用0.01，比較不嚴格則用0.10。如果我們的 α=0.05，則若p<0.05，我們就可以拒絕虛無假設，並宣稱這個檢定在統計上是顯著的，否則檢定就不顯著，這是傳統的p值檢定方法。如果統計上顯著的話，我們就認為得到實驗結果的機會很小，所以就不接受虛無假設。為什麼說p值很小，就不接受虛無假設？我個人的猜想，這是依據命題邏輯中，以否定後件來否定前件的推論，拉丁文稱作modus tollens，意思是以否定來否定的方法，也就是從「若Ｐ則Ｑ」和「非Ｑ」導出「非Ｐ」的推論，這相信大家都知道。p值檢定的邏輯是一種有或然性的modus tollens，是probabilistic modus tollens。「若Ｈ₀為真，則p值檢定顯著的機率很小，只有0.05」，現在p值檢定顯著了，所以我們否定Ｈ₀。但是命題邏輯的modus tollens，「若Ｐ則Ｑ」是沒有或然性、沒有任何誤差的餘地的。「若Ｈ₀為真，則p值檢定不可能顯著」，這樣p值檢定顯著時，你可以否定Ｈ₀，大家對此都不會有爭議。問題是假如容許或然性，這樣的推論方法還是對的嗎？舉一個例子：「若大樂透的開獎機制是完全隨機的，則每注中頭獎的機率很小，只有1/13,980,000」，現在你中獎了，你能推論說大樂透開獎的機制不是隨機的嗎？p值的問題，便是在於我們能不能夠因為p值很小，小到可能性很低，我們就用否定後件的方法來否定前件。我們用命題邏輯來作統計推論，但其實我們的推論方法跟命題邏輯卻不完全一樣，因為我們的α絕對不可能是零，如果α是零的話，就不是統計了。

再來就是看電影時間，電影很有趣，可以幫助我們了解什麼是p值，也可以再接著討論為什麼用p值來作統計推論會有錯。這部電影叫做Magnolia「玉蘭花」，是1999年的電影，已經很舊了，可能在座年輕的朋友就沒看過。網路上在Youtube有這一段，請大家觀賞。

電影Magnolia「玉蘭花」短片連結

相信大家應該都看得懂這短片的用意。玉蘭花這部電影，雖然裡面有講一些髒話，但是其實是一部傳教的影片。它的推論方式，其實就是我剛剛講的p值的推論方式，它有一個虛無假設，就是說事情發生沒有什麼超自然的力量在作用，都是隨機發生的，是by chance，不是by design，可是它發生了，竟然有這麼巧合的事情。大家可以想一下，如果事情的發生都是by chance，都是隨機的，那麼像這種事件發生的機率有多少？很小很小，0.0…01，幾乎不可能發生。所以假如是隨機發生的，就幾乎不可能發生，可是它發生了，我們就以否定後件來否定前件，推論虛無假設–by chance的這個假設–是不對的。既然不是by chance，它是什麼？就是by design，是設計出來的。這是基督教的一種論證上帝創造世界的方法。在美國，有些學區還在爭論，生物是創造的還是進化的？創造論的主張者都會用這樣的論證，說你看我們人體，它是這麼複雜的一個系統，這種系統可能是隨機發生的嗎？若是隨機發生，機率有多少？是0.0…01，所以它不可能是隨機發生，因此是創造的。這個理論叫做intelligent design–智慧的設計–即我們這個世界都是上帝創造、是上帝很有智慧地依照藍圖設計出來的。我今天也不想爭辯這種推論對不對，我只是舉例來說明這種推論的邏輯。

〈系列2文章連結：p值不是什麼〉
〈系列3文章連結：「摘櫻桃」問題〉

看電影學統計：p值的陷阱 (1) – p值是什麼

Tagged on: p值研究方法統計

◎ 林澤民／美國德州大學奧斯汀分校政府系教授

菜市場政治學BOX：什麼是P值

科學的統計學危機

p值是什麼

電影Magnolia「玉蘭花」短片連結

Leave a Reply Cancel reply