看電影學統計：p值的陷阱 (3) – 「摘櫻桃」問題

◎ 林澤民／美國德州大學奧斯汀分校政府系教授

※本文原發表於作者部落格，為演講內容。原文整理後已發表在《社會科學論叢》2016年10月第十卷第二期。全文請點選按此。投影片請點選按此。

〈系列1文章連結：p值是什麼〉
〈系列2文章連結：p值不是什麼〉

「摘櫻桃」問題

再來我們講到「摘櫻桃」問題，如同剛剛所提到，研究假設的先驗機率是如此重要，我們要如何去判定？要怎麼知道它是多少？我們必須要做文獻的分析、要建構我們的理論，在這種情況之下，會出現摘櫻桃的問題。這裡就是要呈現給大家看，譬如我們作20個統計檢定，從作第一個開始，本來有一個model，但是p值不顯著，我們就改一下model，加一個變數、減一個變數，或是把一個變數平方，或是把一個變數取log，或者把樣本除去一些，增加一些，這樣慢慢去試驗，最後終於得到一個顯著的結果了！但這裡告訴你，做了20個這樣的檢定，我們以為每一個檢定的Type I error 控制在0.05，可是20個裡面最少有一個顯著的或然率是多少？是 0.64。（圖八）

圖八

為了讓大家能夠進一步了解這個問題，再給大家看一部電影，這部電影是「班傑明的奇幻旅程」。

電影「班傑明的奇幻旅程」短片連結

讓大家看這部電影，我們可以注意到，這部電影所講的，跟上一部「玉蘭花」很類似，也在討論是這樣發生車禍到底是by accident還是by design。它的議論應該是：這種車禍的發生，其實有一連串的因果鏈，只要這因果鏈其中有一個環節稍微不一樣、或是沒有發生的話，可能車禍就不會發生。因此它的敘述者暗示說其實是by design，而不是by accident。然而現在要跟大家說明，這個結論是錯的。電影要說明這是by design而不是by accident的話，是完全錯誤的。為什麼？大家只要想想看，我們政大門前有條交通繁忙的馬路，你一邊跳舞一邊過街，看會不會被車撞上，不是極有可能會嗎？為什麼？因為說車禍是by accident，它是說被某一輛特定車子撞到的機率很低，譬如是0.05，可是如果有20輛車子經過的話，被其中最少一輛撞到的機率就會很大，剛才已經算給各位看，所以電影是錯誤的。

類似這種問題，其實我們日常生活中所在多有。再以大樂透為例：你買了一注大樂透，你中頭獎的機率是1/13,980,000。如果你自己中獎，你也許會說這是命運，不是機率，因為中獎的機率近乎0。但全台灣賣了5,000,000注的大樂透，最少有一注中頭獎的機率其實是0.30。你不能舉出有人中獎的事實就否定大樂透開獎的隨機機制。

這就是cherry-picking，只抓住發生的事件，就來說因為有這麼多因果鏈，如果稍微有一點不一樣，這種事情就不會發生，這是錯誤的，因為它有很多其他的可能性同時存在。現在在統計學裡面，很多人很不在意這個問題，甚至主張這種問題不存在，而其實它可能比p值的誤用還要嚴重。這種問題叫做叫多重假說檢定(multiple hypothesis test)、多重比較(multiple comparison)，我有同事對這種問題的反應十分強烈，主張所有的研究都必須要事先登記，什麼叫做事先登記？並非申請研究經費、寫一個研究計畫這麼簡單，所謂事先登記（pre-registration）的觀念，就是在做任何研究之前，研究者必須要把研究計畫post在網站上，而且post上之後就不能改，現在其實已經有很多這種網站存在，將來研究者發表文章，如果跟預先登記的研究設計不一樣，其他人就可以對你發表的結果提出質疑。

小結：在多重假說檢定的情況下，即使H₀為真，「至少有一p值檢定顯著」的機率常會甚大於單一p值檢定的顯著水平α。以「摘櫻桃」的方式只報告顯著的檢定結果常會導致錯誤的統計推論。

圖片來源：C.C. by ceiling

結語

圖九是ASA建議取代p值的其它途徑，在此沒有時間細講，大致上是要用其它方法，比如貝式統計學。（圖九）這邊提到的很多方法都跟貝式統計學有關係。我們現場有貝式統計學的專家，他們懂得怎麼用貝式統計學來分析資料。但對於還沒有學到貝式統計學的朋友，這邊ASA特別提到的confidence intervals–信心區間–是傳統統計學的方法。ASA似乎認為使用信心區間比使用p值檢定要來得好。但是信心區間其實是連續性的p值檢定，如果只是看看虛無假設的理論值有沒有在信心區間之內，則檢定的結果跟p值檢定是一樣的。但如果把信心區間畫出來，至少有一個好處，它會清楚呈現出效應的大小，讓你不但能看出檢定結果的統計顯著性(statistical significance)，也能看出估計值的實質顯著性或重要性(substantive significance)。我們使用信心區間，總比只用一顆星兩顆星來標明統計顯著性要好。

圖九

如果一定要用幾顆星的話，大家就不要再用α=0.10了；p<0.10就不要再加星星了。我知道AJPS–American Journal of Political Science–已經不接受α=0.10這個顯著水準的統計檢定了；不管是單尾檢定或是雙尾檢定，用 α=0.10已經不被接受了。0.05還可以，最好能用0.01，審稿人對你較難有所批評。

但是最重要的，如果我們不得不用傳統的統計方法，我們必須要增強我們的理論論述和脈絡描述，因為增強理論論述和脈絡描述，即會增強研究假設的先驗機率。當研究假設的先驗機率比較高時，其後驗機率–偽陽性的反機率–就會比較低。這好比你健康檢查某種疾病的篩檢出現陽性時，好的醫生會從你的性別、年齡、生活習慣、飲食作息、家庭病史、乃至於居住環境等脈絡來判斷你是否有充分的病因，以之來詮釋篩檢的陽性結果。這其實就是貝氏更新的道理。

我讀這些文獻後的想法是：統計學很快就會有很重大的改變，傳統的作法、用p值來作統計檢定的作法，大概再過幾年，就不容易再存在。所以大家必須要應變，這也是我在回國來，希望能夠提醒大家注意的一個問題。

Q&A時間

Q 1：林老師您好，謝謝您今天很精彩的演講，也很謝謝上禮拜六參加計劃時，您給我們的文章有很大的啟發與提升。今天聽了這個演講以後，我覺得我們對於p-value的使用可能要有心理準備，未來就算不是被全部淘汰，大部分也要被丟到另外一邊去。我在想的一個問題是，因為老師提到使用confidence intervals，我們在寫作時，有一個習慣是會比較傾向去解釋那些在p-value上顯著的變數，如果說未來使用confidence intervals的話，我們是不是應該在文章裡面，每一個變數都要去解釋它對dependent variable的重要性？或是說應該怎樣去作結果的討論以及處理？謝謝！

林澤民：我想你的自變數應該也有所謂的解釋變項與控制變項吧。我覺得如果控制變項不是麼重要的話，也許就不用太費勁去討論，就著重在解釋變項。解釋變項就是不管作傳統的統計顯著或不顯著，都要加以討論。不只是討論統計的顯著性，更要討論實質的顯著性，而實質的顯著性或重要性是比較能從confidence intervals看出來的。其實p值的問題是兩面刃，說不定對我們也有好處，就是將來得到不顯著的結果，說不定都可以publish，都可以呈現在你的論文裡面，而不用怕被人家說：明明就不顯著為什麼還要報告。

Q 2：林老師您好，我是經濟系的學生，謝謝林老師今天很精彩的說明，但這邊至少有兩個點想跟林老師請教，以及跟大家分享。第一個就是如您剛才所說，我們在作實證研究的時候，不管是我們自己或是長期的訓練，或是目前的期刊的要求，關切的都比較是顯著的結果。所以過去在經濟學界也有對這方面的討論，談到為什麼要去關切那些不顯著的結果。同樣的道理，那些不顯著的結果要被期刊接受的機會也是非常非常低。你唯一可以被接受的理由大概就是，我們看到這個人所作的東西，以後就不要再作了，大概就是樣子。我第一點要說的是，我們目前有這樣的困境。您剛提到一個很好的論點，未來也許大家會有一個共識，就是不顯著的結果反而是更重要的。我的第二點是一個問題：您剛剛提到，確實在醫學或自然科學部分，要去找到一些理論上的基礎，可能相對來講比較容易。在社會科學裡面，如果要去找到一些所謂的因果關係，或是比較扎實的理論，可能比較困難，因為人的行為無法像自然科學的實驗室般重複去作，且控制到所有條件都一樣。針對此部分，您剛認為要加強理論的論述，好讓prior來的比較solid一點，就社會科學部分不知道有沒有更好的一些方法，或至少不會差自然科學太多？這部分確實對我們社會科學的人來講比較困擾一點。

林澤民：我先從第二個問題來回答。我不敢說整個社會科學啦，但在政治學界大概很多人會跟你說：你可能要用賽局理論。美國政治學在過去十幾年來有一個概念叫作EITM–Empirical Implications for Theoretical Models。名稱有點奇怪，但它的用意是把統計分析跟理論結合，講EITM的人特別強調的就是形式理論，特別是賽局理論。就是作一些對人性的基本假設，然後用賽局理論的數學分法去deduce，用邏輯去導出一些結果出來，然後再把這些結果用統計方法加以檢定。這在政治學過去十幾年來，已經變成一個很普及的概念。這有它的好處，就是在形式理論部分，只要基本假設大家能接受，它的邏輯都是沒有爭議的。嚴格來講，形式理論只要大家接受你的假設和邏輯推演，就要接受你的結果，用統計來檢定結果是多餘的。但是我們知道，比如假設行為者是理性的，然而真實的人不一定理性，所以經驗檢定還是重要的。EITM用形式理論來增強理論的先驗機率，我想這是很不錯的。

你前面第一點提到關於不顯著的結果，當然我也不是說將來學術期刊會大量接受不顯著的檢定結果，我想也不至於，可能只是要求你把這些不顯著的結果都post在網頁上。然而對於教授升等，這些作品算不算也不一定。但是我想某種程度上這是合理的預期，一旦不需要使用幾顆星的話，不顯著的結果也可以放進文章裡去。期刊會衡量從整篇文章的研究設計、立論、方法、和結果，來決定到底能不能發表，而不會斤斤計較是一顆星、兩顆星，還是沒星星。所以我對這點倒是有點樂觀。其實，現在已經有很多期刊採取「預約接受刊登」(pre-acceptance)的編輯政策，也就是審查你的研究計劃就可以決定要刊登你計劃執行後的完稿，條件是不論經驗資料支持不支持你的研究假設，完稿都不得改變當初的研究設計，包括model specification。這就是說不顯著的結果也要刊登了。

其實可以跟大家預告一下，八月四日在中央研究院政治學研究所，為了慶祝所慶，有一個學術討論會。討論會的主題是「甚麼是研究發現」？引言人有朱雲漢、吳玉山兩位院士跟我三個人。我的任務就是報告p-value的問題。傳統來講，統計上顯著的結果才叫做findings，不顯著的結果是non-findings，但是這觀念可能要有所改變了。這等到八月四日再專門來講。

Q 3：謝謝林老師很深入淺出的演講，之前在上統計課的時候，雖然有講到p-value的問題，但每次在上大學部課程時，我常常都沒辦法把這一塊講得這麼清楚。在我還是研究生的時候，我們就有很多這方面的討論，而這幾年這問題特別地被突顯，我認為很大的原因，大概是電腦技術越來越好、作testing的困擾已經越來越少；另一方面，如果你相信Bayesian的話，你應該相信所有的parameters都該是probability term，而不是deterministic term，說它是顯著還是不顯著。我也有一個問題想請教林老師，您如今在基礎統計的教學裡面，對p-value是用傳統frequentist的講法，還是像現在等於把它推翻？因為我常有這樣的困擾，就是在初級的課用frequentist的方式講，然後到了進階的課，再拿Bayesian的approach去推翻自己原本以前講的。我不知道林老師您目前在授課時，是用什麼樣的方式？特別是針對frequentist的邏輯。

林澤民：我想你對p值問題的了解應該比我更早。我是這幾年來才慢慢地逐步了解這個問題。在教學上要採取立即的改變，其實很不容易，我完全了解。我們有一個同事後來就在抱怨，ASA為什麼要發表這個東西？他說現在所有的journal articles，還有教材、教科書，全部–至少百分之九十幾–都是傳統的統計學，你怎麼來教大學生新的東西？所以這是很困難的。今天我在這裡演講，如果有一點點是我自己觀察來的結果，而不是完全從文獻上得到的，我想是關於prior–H_A的prior–怎樣去影響到偽陽性的反機率，這我覺得很重要。我目前教學仍是會用傳統方法，畢竟要把一本教科書重新編輯、作講義，是很大的工程。此外，我自己跟你不一樣，我是frequentist，你來教Bayesian比我容易多了。我以前會放電影，跟學生講p值是什麼。我現在也放電影，跟學生講p值有什麼問題，讓他們了解。然後我會對他們說，在還沒學習貝式統計學之前，要比較強調prior。也就是你用傳統的統計方法作研究，如果研究假設沒有很高的prior的話，也許你就不要作了。

Q 3（接續）：我只是有時候會有點精神錯亂，之前跟學生講過的東西，在比較進階的課程時就要把它推翻掉。

林澤民：在座如果有老師教統計學，請你不要說：林老師今天講的就代表我上課講的都錯了。學生也不要說我上課學的都錯了。不是這麼一回事，這不是我的用意。因為p值本身它並沒有錯，錯的是大家對它的誤解誤用。至於傳統的教學方法要怎麼改，我們要慢慢試，但是我們要了解這個問題的存在。我自己到最近教學還是用傳統方法，如果今天請我的學生來聽我演講，他們會說：老師你以前教的都錯了。但事實上，不只是我們教書的，有多少科學、商業或政策上的決定，都是奠基於p值檢定的結果之上，我們能說他們都錯了嗎？我想不能說他們都是錯的，可是我們要改變。

Q 4：林老師好，我是理學院資科系的老師。非常謝謝林老師，很高興今天上老師的課。關於剛剛幾位老師的討論，我覺得在我們資科系，很多人的直覺，一個方法要嘛是對、要嘛是錯。你們搞機率的卻是：它可能百分之八十對、百分之二十錯。我覺得應該講清楚的是，就prior來講，只要prior夠強，過去p-value的方法大概是對的。這應該有range，大部分問題，只要prior在range裡面，或許p-value的方法是相當可靠的。我不會推翻過去的教學方法，說一切都是錯的，其實沒有麼嚴重。在大部分的問題裡面，過去的方法也許是可用的，只是今天我們面對一些方法，單獨的p-value並不是麼可靠。也就是一個漸進式的改變，這樣我們不會打自己嘴巴。

林澤民：對，我完全同意。這就是為什麼我做了這三個圖表，可以看到雖然影響偽陽性反機率的因素包括prior和power，但其實主要是prior。即使power低到0.50，只要prior也有0.50，偽陽性的反機率也不過是0.09。如果你願意用0.10的顯著水準，0.09還是顯著的！要給一個可接受的range，我覺得prior大於0.50的話，其實都還好。最怕的就是prior很低很低，像ESP這種研究假設。這也是為什麼在p-value問題的討論上，那一篇知名心理學家對ESP作的研究會被拿出來討論，因為它的prior幾乎是零。但是這只能夠很粗略的估計。

Q 5：老師，這邊有一個小問題是：假設現在有十篇從舊到新的文章，它們的先驗機率都不太一樣，我如果要寫一篇文章，我要用最新一篇的先驗嗎？還是由自己發展出來、自己認定？

林澤民：當然你說先驗機率不太一樣，它為什麼會不一樣？是因為理論根本不一樣嗎？還是說因為時間的關係，大家有越來越多的研究發表，先驗機率就會逐步改變？如果已經有一個文獻，通常是建議你要作後設研究，叫meta-analysis，就是把過去發表的文章統一起來作一個研究。但坦白說我個人也沒有作過這種meta-analysis，可能可以在這方面的文獻去看一下。Eric，你可以就meta-analysis這點再作補充？

俞振華：嘗試把各種不同的model的係數，最後統整，變成有點類似老師您剛提的，試很多的model的specification，然後組成一個結果。

林澤民：對，我讀的這些p-value的文獻裡面，其實有些文章就是作meta-analysis。

Q 6：我有兩個關於寫作的問題。因為從老師的演講得到非常多心得，其中有個問題是，如果能強調理論先驗機率的強度，老師剛有提到用EITM看能不能夠結合形式理論的一些邏輯去增強強度，此外，我在思考是否有可能，至少就我自己在寫作時，會提出一些案例，然後再稍微說明，我有些案例，當然這些案例可證的是少數，因為全世界有一百多個國家，我們只有一兩個案例而已，說服力有限，但多多少少還是有些用處。我在想這樣作是否Okay？這是為了提升理論先驗機率的說服力，而提出一些案例來作討論。第二，剛剛老師提到有關non-findings，這些發現，相信以後應該越來越多人至少在文中會提到，可能一段、或幾句話。就老師的想法來說，要提是要怎麼提？是跟目前為止像跟大家講的一樣，要提的話就只能說，結果顯示並不是statistically significant，就這樣子很平鋪直敘的描述？還是要稍微把重點放在跟理論的連結，即便結果沒有很顯著，但也不代表我的理論是錯的。我不曉得能不能這樣講，也許不行，因為太武斷。只是不曉得未來大家在強調沒有統計顯著水準的結果時，是要怎麼表達？是要平鋪直敘地講，還是要有些焦點？有些要強調、有些不一樣？

林澤民：我想先講第二個問題，而其實這在Bayesian根本就不是問題，Bayesian就把posterior distributions畫出來就好，你根本也不需要去提是否顯著，因為「顯著」的概念本來就是frequentist的概念，它不是Bayesian的概念。所以要是你看過一些Bayesian的文章，你會看到它畫很多圖，每個圖都很小，一小格就一個圖，然後圖就畫上posterior distributions，甚至連credible intervals也不一定要畫出。

俞振華：但是為了要跟frequentist對話，現在還是會有95%的credible intervals。

林澤民：對，不過需要95%的嗎？因為我最近寫一篇文章，合作者說68%就可以。所以我想可能就不需要去談什麼顯著不顯著，你就把圖畫出來就好。你若不是Bayesian，就用confidence intervals，然後你去畫圖，每一個變數的係數你就把confidence intervals畫出來。至於0有沒有在confidence intervals裡面，我想不必然是唯一的重要標準。當然就實際情況來說，仍要看你的reviewers有沒有接受你的結果。我必須要強調，在網路上你還是可以找到一些文章，它們要替p-value辯護。要是碰到這樣的評論者，可能就必須要小心。你第一個問題是說，提出實質案例而不一定是理論，我覺得也可以，我個人會接受，因為所謂文獻，除了理論之外，還有這種實質的知識、地方性的知識。我個人認為這些知識可以幫助我們加強prior，特別是當這些案例能夠增加我們了解自己研究假設的脈絡時。ASA的聲明特別提到脈絡(context)的重要性，我剛剛也有提到醫生詮釋陽性反應時，通常要參考病人所處的脈絡。但是我必須要說，我今天特別強調prior的重要性，我不知道在座是否有其他學者可以肯定我這一點，我覺得我個人強調prior，可能與文獻上的這些在講p-value的危險性的articles相較時，我強調的可能比較多一點。我不能保證所有的統計學者都會同意我的看法，所以要是碰到我來評審你的文章就好了。但是我希望我講的還是有點說服力吧？要是你研究假設的prior夠強，可能p-value的問題就不是這麼大。

Q 7：聽了很多同仁的問題，還有老師的回答以後，我這邊另外的問題是，因為在一開始，老師提到一個期刊─Basic and Applied Social Psychology，也講了ASA在今年提出的聲明，我想問，ASA它的官方期刊─JASA，是否已經有接受，或是應該說拒絕這種只報p-value的文章？還是說他們政策現在是做一個調整，同時都接受兩種？

林澤民：很抱歉，JASA的文章我不是經常在看，我不能回答你的問題。但是我剛剛已經講了，BASP在他們政策制定之後，ASA有一個回應，不是那official statement，是在發表official statement之前的一個回應。那個回應只說ASA正在籌擬一個official statement。而最後這official statement其實跟BASP的決定是不一樣的。因為ASA的official statement，第一點在說明p-value是什麼，它並沒有說p-value錯誤。它只是把p-value的正確意義講出來。換句話說，只要是使用正確的意義，p-value並沒有問題，只是不要去誤用它。不要只是著重在統計顯著性，因為model對錯的機率跟p-value不一樣。要使用p-value作檢定，要把它跟α來做比較，所以問題不只是p-value，而是α。界定了α之後，才知道結果是不是顯著。當得到一個顯著的結果以後，必須再來衡量偽陽性反機率的問題，也就是model後設機率的問題，這就不是p-value可以告訴你的。

看電影學統計：p值的陷阱 (3) – 「摘櫻桃」問題

Tagged on: p值研究方法統計

菜市場政治學

看電影學統計：p值的陷阱 (3) – 「摘櫻桃」問題

◎ 林澤民／美國德州大學奧斯汀分校政府系教授

「摘櫻桃」問題

電影「班傑明的奇幻旅程」短片連結

Q&A時間

Leave a Reply Cancel reply