文章專區

2023-12-15陷入「p值陷阱」的科學研究?《科學的假象》 504 期

Author 作者 史都華‧利奇(Stuart Ritchie)

有一個古老的哲學問題是這樣問的:「為什麼是有而不是無?」我們也可以對科學研究問一樣的問題:「為什麼科學研究總能發現一些東西,而不是無功而返?」如果你曾經閱讀過報章雜誌上的科學版,大概就不難理解為何大眾的觀念就是,科學家的預測總能被成功驗證、實驗結果永遠支持他們提出的假設;而做不出什麼有趣結果的研究,反而罕見如鳳毛麟角。這很合理,畢竟新聞報紙所報導的內容就是必須要「新」,而不是要把「所有發生過的事情都記下來」。但是科學期刊則不同,科學期刊就是應該記下所有發生過的科學事件,不過它現在卻有著跟新聞一樣的偏見,傾向記載新奇而有趣的故事。今天我們打開科學期刊,只會看到一篇接著一篇正面的結果(科學家的預測成功了,或是找到了什麼新東西),但是卻幾乎看不到什麼無效的結果(研究人員空手而回)。等一下我們就要來談談「正面的」結果跟「無效的」結果,在技術上以及統計學上面的意義為何。現在你只需要知道,科學家所追尋的實驗結果,通常是前者;而後者則總是讓研究人員大失所望。
 
有人曾經研究過當今科學文獻到底有多麼正面:二○一○年統合科學家法奈里在一份研究中,調查了橫跨各學門領域總共兩千五百份論文,計算有多少篇論文對於裡面所提出的首要假設,獲得了正面的結果。他發現不同領域的論文,有著不同程度的正向結果。但是即使是比例最低的領域,也就是太空科學,也有高達百分之七十.二的論文報告了正面的結果;而你大概已經猜到了比例最高的學門就是心理學/精神醫學,有百分之九十一.五的論文都報告了正面結果。不消說,要解釋心理學論文裡面這麼驚人的成功率,以及心理學這麼低迷的可信度,是件相當棘手的事情。
 
你可能會覺得有點奇怪,為什麼科學研究不應該有高度的成功率呢?畢竟,科學家對於自己的專業領域有著豐厚的知識,而他們的假設也都是根據經驗提出而非瞎猜的不是嗎?不過除非科學家都是超能力者,否則要看到法奈里報告中那樣高比例的正面結果,幾乎是不可能的事。有些很聰明的想法,但是卻無法在實驗中被證實,結果是死路一條,這些實驗結果都跑哪裡去了呢?那些試誤實驗中的「誤」,都跑哪裡去了呢?那些僅僅因為運氣不好,結果就算是假設正確,但是仍只得到假陰性結果的研究,又都跑哪裡去了呢?換句話來說,當今科學文獻中的正面結果,不只是高,而是高得離譜。
 
關於這件事,其實有一個很簡單但是卻很糟糕的解釋:科學家是根據他們的結果而決定要不要發表實驗成果。在一個理想的世界裡,科學的研究方法才應該是最重要的事:在一次設計良好的研究中,如果眾人皆同意測試該假設的方法十分合理恰當,那麼該研究結果就應當被發表。這才是默頓規範中「無私利性」的真義,根據這條規範,科學家不應在乎個別的實驗結果(科學家若有「自己所偏愛的理論」這套想法,那就跟這條規範產生了正面衝突),只應該在乎他們的研究是否夠嚴謹。
 
但是事實上,真實世界的運作方式卻與之相去甚遠。寄往各期刊的論文草稿裡面所記載的,幾乎都是支持個別理論的研究結果,而那些讓人氣餒的「失敗」之作(這就是一般對於無效結果的看法),則被悄悄地丟到垃圾桶中,然後科學家再繼續做下一個實驗。而這也不只有研究人員這樣做,期刊編輯與審稿人也是根據論文中的發現有多新鮮有趣,來決定是否要接受與發表這篇論文,而研究者在發現這些結果的方式有多嚴謹,則不必然是考量之一。這種做法自然會回饋到科學家身上,於是讓整件事情產生了惡性的循環:既然無效的結果幾乎沒有被發表的機會,那又何必費心將這樣的論文拿去投稿呢?
 
這是所謂的發表偏差,或者一個比較過時的用法稱之為「檔案櫃問題」,因為以前的人認為科學家會把那些無效的結果藏在檔案櫃裡,不給人知道。這有點像是「歷史是由勝利者所書寫」的概念,不過是套用在科學文獻的發表上;或者也可以想像成「如果你沒有什麼正面的結果可以發表,那就別發表吧。」這樣的意思。
 
在理解實務上如何出現發表偏差之前,我們要先詳細解釋一下科學家怎樣決定哪些結果是「正面的」,哪些結果又是「無效的」;也就是說,他們怎麼分析跟解讀資料。在上一章中我們在討論假資料集的時候曾經講過:數字往往充滿雜訊。每一次測量或每一次採樣,必定伴隨著隨機出現的變異。這些變異不只讓人難以偽造數據,它們也讓科學家難以從中找出真正有意義的訊號。這些數據雜訊三不五時就會跑出一些離群值或是例外值,讓原本可能沒有意義的數據,看起來像有某種模式似的,結果誤導實驗方向。比如說,雜訊可能讓你覺得在服用新的止痛劑的那群病人,看起來跟服用安慰劑的那群病人之間有些不一樣,但其實這差異完全是隨機造成的。又或者在兩種測量之間看起來似乎有某些關聯性,但其實這只是碰巧出現在你這次測量中;如果你再重複一次實驗的話,很可能就看不到了。又或者你可能覺得在粒子加速器中看到了某個高能訊號,但其實只是隨機的波動造成的而已。我們該怎麼區別自己真正有興趣的效應,跟變幻無常的隨機誤差呢?大部分的科學家都會回答:去計算p值。
 
這個p值是哪裡冒出來的?p值其實是「機率值(probability value)」的英文縮寫。它的意思是什麼呢?舉例來說,如果我們今天想要檢驗一個假設:蘇格蘭男人比蘇格蘭女人要高。當然事實上我們知道這個假設是真的,因為一般來說全世界男人的平均身高都比女人高。但是同時我們也知道,並不是每個男生都比女生高,畢竟大家也很容易可以舉出反例。現在我們先假裝不知道蘇格蘭男生跟女生的身高是不是真的有差異好了。儘管蘇格蘭只有五百五十萬人,我們還是不可能真的去測量每一個人的身高,因此在這次的研究中,我們將會隨機選取一些樣本,並且將數量控制在能處理的範圍內。假設我們沒有太多經費,只能找十個男人跟十個女人參與測量,雜訊就會在這種時候出現。因為每個人的身高差異其實滿大的,因此很可能因為運氣不好,或者用我們之前學過的專業術語來說,出現了抽樣誤差,我們選到了一群特別高的女生跟一群特別矮的男生。除此之外,因為我們無法完全避免測量誤差,所以也不可能把每個人的身高量得完全準確(還記得在上一章說過,有時會出現被測的對象可能剛好縮了一下,量尺可能滑了一點點之類的問題)。
 
現在假設我們測量的這群女生,平均身高比男生矮了十公分。那我們怎麼知道,這十公分所反映的,是整個族群真正的差異(也就是說我們量到了真正的結果),還是只是雜訊(也就是說這只是碰巧出現的數字)而已呢?我們必須透過正式的統計方法,來比較這兩群人的身高。統計學上有許多方法 可以用,像是Z檢定、t檢定、卡方檢定或是概度比檢定等等,要用哪一種方法,端視你手上的資料性質而定,再加上一些其他的考量。不過今日要做統計,基本上只需要把這些數據輸入電腦,用軟體去計算就好。當電腦運算完畢,在輸出的資料中,除了許多很有用的數字以外,也會包含相關的p值。
 
雖然p值是科學上最常用到的統計數字之一,但是它卻有個極容易被誤解的定義。最近有一份調查,在抽樣檢查了許多心理學導論教科書後發現,總共有高達百分之八十九的教科書把p值的定義解釋錯了,在這裡我會盡量避免重蹈它們的覆轍。這個p值其實是說,假設你所感興趣的效應其實並沒有出現,但是測量結果卻顯示有,甚或是測出更大的效應,這樣的機率有多大。記住,這個p值並不是說你的結果有多大機率是真的(不管它的意義為何),也不是說你得到結果有多重要。p值只是在回答一個問題:「如果在真實世界中,你的假設不是真的,那你所得到的結果有多大的機率其實是雜訊?或是雜訊有多大的機率給你一個看起來很強烈的效應?」
 
現在回到我們剛才舉的身高例子,假設我們得到的p值是○.○三。這個意思是說,如果在真實世界中,蘇格蘭的男生跟女生之間的身高並沒有不同,那如果我們重複剛剛的採樣步驟無限次,將只有百分之三的機率會得到男女身高差了十公分,甚或是十公分以上的結果。而如果我們根據這百分之三的例子,就逕自宣稱蘇格蘭男生的平均身高比女生高,這就是錯的。不過反過來這也就是說,如果蘇格蘭男生跟女生的身高沒有差異,那麼要測到像我們那組樣本的身高差異(或者測到更大的差異),其機率將會非常的小(雖然也不是不可能)。
 
因此在大部分的例子裡,p值愈小愈好。不過p值要小到多少,我們才有信心說我們的結果並非來自雜訊呢?或者換個角度來說,我們可以容忍假陽性的機率到多高的程度呢(所謂假陽性,也就是在沒有差異的情況下,我們卻判斷它有差異)?為了幫科學家做決定,一九二○年代的統計學先驅費雪認為,應該訂一個閾值,當p值超過這個閾值的時候,所得到的結果應該被當成是無效的(因為它看起來實在太像是什麼事情都沒有發生時會得到的結果了); 而當小於這個閾值的時候,應該被認為「在統計上具有顯著性」。
 
就是這句話造成了極大的誤解。聽在許多現代人的耳中,「顯著性」這個詞好像是在說,某件事的效應或效果十分明顯或是強烈。但是一如我們剛才所解釋過的,不管這個p值有多小,它都不是這個意思。一個講的是這個效果的規模(在我們的例子裡,效果指的是蘇格蘭男生比女生高了多少,而它的規模是十公分);而另一個講的,則是即使原來的假設不成立,但是卻看到這種規模的效果,這樣的機率有多大,這兩者是完全不同的事。舉例來說,有的時候即使一個藥物對某個疾病的療效十分微弱,但是我們仍然可以肯定地說,這個效果並非假陽性─也就是雖然微小,但是在統計上卻有顯著性,這是完全有可能的事。回到費雪寫下這些東西的年代,當時大家對「顯著性」這個詞的理解跟今日略有不同:在當時顯著性的意思暗示著實驗結果 表明了數據中有些東西不太一樣;但它的意思可不是說,不管發生了什麼都值得大書特書。
 
不管怎樣,費雪原本建議這個「統計上的顯著性」閾值應該設在○.○五,也就是說在每次的檢驗中,假陽性的機率如果超過百分之五,那就不應該被接受(記住,這也就是說在我們的身高調查中,因為p值是○.○三,因此是一個統計上有顯著性的實驗結果)。一九二六年,費雪在一篇極具影響力的論文中寫道:「只有當一個設計良好的實驗,很少達不到如此的顯著性時,我們才能說這個科學事實已經透過實驗驗證了。」
 
不過這個○.○五完全是人為武斷決定的數字。它有點像那個知名的蘇格蘭天氣網站tapsaff.co.uk,這網站會查看全英國的天氣狀況,然後逕行宣布任何一個氣溫超過攝氏十七度(大概是華氏六十三度)的地區作為「打赤膊」地區,因為該地的氣溫已經夠溫暖,紳士們可以合法地光著上身在戶外漫步。十七度雖然是個合理的溫度,但卻也是個武斷的數字:有些人可能要等氣溫到了二十度才願意露出身體,也有些意志堅強的人覺得十五度就可以。準此邏輯,費雪後來也說道,不同的研究人員或許會想根據自己所研究的主題,去訂定不同的顯著性標準。比如說,歐洲核子研究組織的物理學家,在二○一二年發現了希格斯玻色子之後所提到那個有名的「五個標準差的證據」,其實只是用一種花俏的說法,來描述他們在研究這個極為關鍵的實驗結果時,採用了一個極度嚴格的p值:「五個標準差」相當於把p值的閾值訂在大約○.○○○○○○三。既然科學家都已經在大型強子對撞機上面花了大把的資源,他們當然不願意像瞎子摸象一樣,受到數據中的雜訊誤導,因此他們設了一個非常高的標準,來檢驗證據是否合格。
 
不過希格斯玻色子的實驗畢竟是個例外,在其他的地方,○.○五這個閾值因為合適、因為傳統以及因為科學家怠惰等種種原因,仍然是至今最被廣泛使用的標準。科學家會在他們的統計圖表上熱切地搜尋任何低於○.○五的p值,以便可以宣稱自己的實驗結果具 有統計上的顯著性。大家都很輕易地忘了這數字的武斷性。
 


書 名|科學的假象:造假、偏見、疏忽與炒作,如何阻礙我們追尋事實
作 者|史都華‧利奇(Stuart Ritchie)
譯 者|梅苃芢
出版社|貓頭鷹
出版日期|2023年11月
 
知識是如何產出,又是如何出錯的?
科學是我們認識世界的方法,但不論是國際社會或是台灣學界,不論是自然科學又或者社會科學,論文造假的新聞滿天飛。
倫敦大學國王學院講師史都華.利奇在本書中盤點現今科學的重大問題:造假、偏見、無知與過度期待。
作者指出,現今的學術資助語研究審查系統不但無法改善,反而讓學術環境更加惡化。這些問題影響了醫藥、物理、營養、遺傳學與經濟學界,也深深地撼動了世界對科學的信任。
作者在本書中為科學方法辯護,反對導致科學家違規的壓力和不當激勵因素。本書最後也提供了如何看穿可疑研究,以及對抗學術壓力與扭曲誘因的方法,並指出了可能使科學重新具有可信性的改革方向。