◎王宏恩/內華達大學拉斯維加斯分校政治系助理教授
書名:Regression and Other Stories
作者:Gelman, Andrew, Jennifer Hill, and Aki Vehtari.
出版:Cambridge University Press
這次在菜市場政治學要介紹一本2020年底推出的新書,這是一本統計學的書,但是作者們開宗明義就說是替社會科學的學生準備的,而且裡面使用的範例也絕大多數是政治學、公衛、與社會學的實際例子。
更重要的是,本書第一作者Andrew Gelman,哥倫比亞大學政治系教授,是在社會科學界赫赫有名的大咖。他專精統計,而過去常在個人部落格挑選社會科學或心理學頂級期刊裡做量化研究的文章,挑出裡面的統計錯誤大肆批評,因此被學術同儕稱為「方法論恐怖份子」。這種作法容易起爭議,原因之一是因為他只發在自己部落格,不像期刊文章至少有通過同儕審查,只是Gelman認為這樣再經過同儕審查太浪費時間也太慢。無論如何,Gelman在政治學界大力推動量化方法、因果關係、effect size與power、回歸模型、以及貝氏統計,都十分出名。這也因此這本由Gelman擔任第一作者的新教科書出爐(上一本是十幾年前),會受到政治學界的矚目,而出版社也是政治學界最好的Cambridge University Press。
對於菜市場政治學的讀者來說,這本書接下來的介紹會有點困難,主要討論內容都是有上過統計、方法論的同學會比較看得懂。但是假如你是對政治系碩博班有興趣的讀者,這本書可以代表你之後碩班或博班必修課會碰到的東西。假如你是其他領域的讀者,也可以看看政治系跟其他領域在統計學習上的範圍差異。
整體來說,這本書的涵蓋範圍大概是政治系碩博士班第一到第二學期之間。這本書是直接從回歸模型(regression model)開始講,從簡單回歸一路講到依變數為二分變數(binary)、有序多分(ordinal)、無序多分(multinomial),然後在後半部講因果推論,包括簡單的實驗設計、power、Regression discontinuity、propensity score matching等。使用的語法主要是R以及Stan。使用Stan的主要目的,是在每一個章節提到各種模型時,都會順帶提一下這模型要如何用貝式統計(Bayesian)來估計。
從內容來看,許多美國政治系的第二學期方法論課會非常的Econometrics,會全力主攻回歸模型,尤其是各種回歸模型的檢定(diagnose),例如針對殘差項(residual)的檢定、空間時間自相關等,準備讓學生在未來也用跨百國跨千年的資料進行大規模分析。但這本Gelman的課本完全沒有涵蓋到時間序列(time series)、regression diagnose、或是各種大型的panel data、fixed effect、random effect、Heckman等。
另一方面一個有趣的是,這本書裡面沒有微積分、也只出現過一次線性代數。是的,本書幾乎沒有在擔心模型是否收斂、iteration要從哪開始、penalty function要如何設計等等。但取而代之的是,這本書講每一個模型都會教導要如何用R來進行simulation。作者們自稱simulation是本書的一大特色,也就是先產生一組我們已知分布與函數、可以控制的假資料庫,然後用各種模型套用在這資料庫,看看模型能夠多麼抓到本來的資料產生函數長什麼樣子,藉由前後比較而進而得知各種模型的優缺點。而在simulation後作者也提供了各種資料視覺化(黑白的、沒有用ggplot2)的方式以及思考。
當然,不提微積分這種作法會有明顯的缺點,就是有時書中沒說清楚,例如為何有時是t distribution、為何logit跟probit有差異,作者都只有文字稍微說明,而沒有完整的推導過程,這好壞見仁見智。
圖片來源:beyondtheory.co
本書最大的賣點,不是這些統計學的知識,而是”other stories”。作者在書中提供了非常大量的實務型的小技巧與思考方式,讓讀者在學到這些模型後要拿來實戰時,可以更順暢跟有把握。舉例來說,作者提到power analysis的慣用門檻是80%,因為80%是業界願意贊助你研究會顯著的門檻。Effect size根本沒有假設怎麼辦呢?假設10%。假如matching有些變數動輒得咎怎麼辦呢?可以考慮把一堆變數都交互作用一下丟進去,通常結果會更好。殘差項檢定的X軸為何要放fitted value?用一系列simulation來說明。Matching時假如有共變數跟treatment高度相關怎麼辦呢?把該變數在概念上當成treatment的一部份。作者在每一個章節、每一個模型都列了非常多實務上、過去學界、業界處理上的know how,這大概也是作者為何要在書的標題強調「other stories」的原因吧!
值得一提的是,作者很討厭一些線性回歸模型隨便把自變數當作treatment的因果關係解釋方法,尤其是「X增加時就會讓Y增加多少」。畢竟這只有在用實驗法時、或者樣本本身特性差不多時才成立。在大多數的時候使用回歸模型分析時,作者強調回歸模型是拿來比較樣本的,也就是解釋應該是「資料分布當有兩群樣本的X差距幾單位時,平均而言這兩群樣本的Y會差距幾單位」。
總之,這本應該算是社會科學量化研究的稍微進階的書籍,各種量化方法都談了一輪、也有基礎的應用跟討論跟R code,在結論章節也快速提到大數據的各種方法,關鍵字都有,只是要進一步深入研究的話都還要另外再依關鍵字搜下一本書或課程。