2010年7月30日

錯誤的因果律

曾經有人費了很大的勁想找出在大學生中,吸煙的人的成績是不是低於不吸煙的。結果證明果然如此。許多人為此很高興,把這結果廣為宣揚。看來,如果要成績好的話,是非戒煙不可了。而且,進一步推想,吸煙多半使人腦筋遲鈍。

我相信這項研究本身不會有什麼問題:抽樣的人數足夠多,抽取的過程很仔細,沒有玩什麼花巧,吸煙與成績的相關性也的確很高,等等。

問題出在對統計數字的解釋和推理。簡單地說,這推理的公式是:假如乙事在甲事之後發生,則甲是造成乙的原因。這種錯誤,自古就有,可是裝飾在現代的大堆統計數字後頭,又別有一番惑人的風味。在上面舉的這個吸煙例子裡,研究的人假設說,因為吸煙和低分數同時發生,香煙就是造成不及格的原因。這樣的假設,毫無根據。我們同樣可以把解釋完全顛倒過來,會不會是因為學生的成績不好,只好藉煙解愁?歸根結底,第二種結論跟第一種一樣可能。當然對主張戒煙的人來說,第二種解釋是毫無用處。

不過,還有第三種更可能的解釋,就是抽煙既不是不及格的原因,不及格也不會促成學生抽煙,而是二者都由一個第三種因素促成。譬如說,會不會是那一類喜歡社交和活動的學生,他們不喜歡讀書,可是喜歡抽幾根煙。也有人曾經證明過低分數與外向性格相關。那麼會不會是因為外向的人比內向的人喜歡抽煙?要點是,當一個問題有好幾個合理的解釋時,你沒有道理挑出一個最合你味口的堅持不放。但實際上許多人都在這樣做。

這種錯誤的因果推理,常會使你到頭來相信一些錯誤的事。要避免這樣的錯誤,每一項關於因果的解釋都要詳加檢查。精確的相關係數看上去似乎證明了甲是乙的原因,實際上卻有好幾種可能。

其中一種就是純由機會造成。你作試驗時會碰到一組數字,能證明最不可能的事。可是假如你再試一次,就很難再證明了。我們以前曾經介紹過防止蛀牙的牙膏廣告,你只要把不合意的結果丟掉,繼續做試驗,總能碰到你要的結果。只要樣本的數目很小,你能證明任何兩件事之間的相關性。

另一種可能就是兩個變數的確相關,可是你不知道那一個是因,那一個是果。有的時候,因果會隨時間改變,甚至,二者會同時又是因又是果。譬如一個人的收入與股票之間就可能是這種關係。你賺的錢越多,就買越多股票;而股票越多,收入也越多。你不能說倒底誰是因誰是果。

最麻煩的一種是兩件事同時發生,可是實際上彼此毫不相干。有不少人靠它來玩花招。不及格和抽香煙之間就是這種關係。許多醫學上的統計也是如此。它們證明了兩件事同時出現,可是二者之間的因果關係只不過是臆測罷了。且舉一個最荒謬的例子:有人發現美國長老會牧師的薪水和古巴甜酒的售價同時上漲。

誰是因誰是果?是牧師們在做甜酒生意發財不成?這樣的解釋簡直匪夷所思,似乎不值一顧。事實上,不少因果的解釋除了更巧妙些以外,跟它差不了多少。牧師和甜酒的巧合其實不難解釋,就是歷史上,全世界經常發生的事:物價上漲罷了。

且看另一項統計:一年之中六月自殺的人最多。那麼自殺和六月新娘有什麼關係?是因為在六月自殺的人多,所以許多人決定在六月結婚呢,還是因為六月的婚禮太多,刺激了鰥寡孤獨之輩?也許較好的解釋(雖然一樣缺乏證據)是一些人在冬天時特別感覺沮喪,總把希望寄托在來春,等到了六月仍然一樣糟糕,就不免完全絕望了。

還有一件要注意的事,根據相關性推出的結論可能會超出原來的證據範圍之外。譬如,我們很容易證明一個地區的下雨量越多,稻穀長得越好,收穫量越多。看來雨真是農民的福氣。可是,一季之中雨量太多就可能把稻穀淹死。超過了一定的限度,雨下得越多,收穫越少。本來是正的相關係數只在某種範圍以內有效,一超過了限度,就立刻變成負數。

譬如我們發現教育程度與收入的關係如下:高中畢業的人比沒有畢業的人賺的錢多,大學生又要比高中生多,而且每多唸一年大學,收入也就多一些。結論呢?是不是讀書越多,賺錢越多?注意,這項統計並不包括大學程度以上的人。那些博士碩士們通常都變成了大學教授。我們都知道教授的收入高不到那裡去。

相關係數只是表明一種傾向,並不表示兩件事之間一定是一比一的理想關係。高的男孩平均來說總比矮的要重,所以身高與體重之間是正相關。可是你不難找到一個身高五尺的胖子比一個身長六尺的瘦子重,所以說二者之間相關的係數0.7,〔註一〕。負相關的意思是說,當一個變數增加時,另一個變數相應減少。在物理裡稱為反比例。譬如:距離燈泡越遠,你書本上的亮光越小。也就是說,距離與亮度成反比。在這一類的物理或自然現象裡,我們常能找到相當完全的相關性,可是商業、社會學或醫學的統計裡,就很少有這樣乾淨俐落的事。即使教育真能增加收入,我們還是能找到身無片畝,學富五車的書呆子來。我們要記住一個相關性也許的確存在,並且的確代表一種因果關係,可是在決定一件事該怎樣做時,可能對我們毫無幫助。

「書中自有黃金屋」,是我們中國的古話。現代的許多統計數字也在證明大專教育對賺錢的重要。我並不反對這些作這樣證明的人的動機。當然我贊成每個人都應該受大學教育,而且基本統計該列入必修的課程。問題是這項統計的結論對不對?進大學的人賺的錢一定比沒進大學的人多嗎?當然,我們知道有很多例外,可是這種傾向是很強且很清楚的。

這些數字和事實都沒問題,問題在結論。在這裡我們能看到把相關當做因果解釋的最高技巧表現。結論告訴我們,經過統計証明,在未來四年中,如果你(或你的兒子女兒)去讀大學的話,你將來賺的錢要比你在這四年中做任何別的事都要多。這個結論基於一項未經證實的假設:既然大學生賺的錢比別人多,他們所以能多賺錢,是因為他們進過大學的關係。事實上我們可以作一個相反的假設說:這一批賺錢多的人,不管進不進大學,總是會多賺。理由如下。大學生中,不外兩種人:聰明的或是有錢的〔註二〕。聰明的也許不需要大學教育也一樣能賺大錢。有錢的呢,顯然錢本身就能生錢。有錢的子弟,不管有沒有唸大學,很少有窮的。

中國還有句古話,叫做「書中自有顏如玉」。大學教育到底對婚姻有什麼影響?下面一段話,是從一本著名的新聞雜誌一字不易照抄來的:

問:到底受大學教育對一個人結不結婚有什麼影響?

答:假如你是女的,一進大學則做老處女的機會就大為增加。是男的呢,影響剛好相反,你做王老五的機會會大為減低。美國的康乃爾大學曾經對1500位中年的大學畢業生調查。在男子中,93%都已結婚(同年紀的美國男子結婚率是83%)。可是中年的女畢業生中,只有65%已結婚。如果跟全國同年紀的女子作比較,大學畢業生中老處女的比例三倍於後者。

且說余美麗小姐,芳齡二八,讀到這則報導以後,不免要為自己的終身大事盤算一下。要進大學,就得準備做一輩子老處女。文章顯然是這樣說的,並有統計數字為證。統計數字是不錯,至於支不支持文章的結論,確值得商量一下。

這又是老例子,一個正確的相關性被解釋成不一定可靠的因果關係。說不定其中的因果關係剛好顛倒呢:這些女孩也許天生就不喜歡結婚,不管她們進不進大學。甚至,進了大學,反而增加了她們結婚的機會。這樣的解釋,不見得比上面那篇文章的作者高明,但至少正確性相等,因為半斤對八兩,兩邊都在瞎猜。

事實上我們還能舉出一些證據來支持我們的猜想。已去世的性心理學家金賽博士曾經發現某一些性心理特性跟教育程度有關,這些心理特性都是在入大學以前的年歲裡就已確定的,也就是說,某一類有老處女傾向的女孩特別會進大學唸書。假如這發現可靠,我們對大學教育與結婚的關係就更要重加考慮。

余美麗小姐請注意,那篇文章的說法不見得可靠!

曾經有一項醫學統計報告發現喝牛奶越多,得癌症的機會越多。報告發現在許多大量生產並消耗牛奶的地方,如瑞士、美國的新英格蘭地區,明尼蘇達和威士康新州等地方,癌症都顯著增加;可是在像錫蘭這樣很少有牛奶的地方,癌症就很少。報告還指出,英國的婦女的患癌比率要比日本婦女高十八倍,前者喝牛奶很多,後者則否。

我們只要稍加調查,就能發現有好幾種解釋這些數字的方法,我們只舉出其中最清楚的一個因素。患癌症的,最多的是中年以上的人。上面舉出的瑞士及其他美國地區的人口壽命,都要比別的地方長。而且,在這個報告調查的那一年,英國婦女的平均壽命要比日本的長十二年。

把共變關係看成因果關係,常會弄出大笑話來。譬如我們查一下二十年前關於中國婦女的統計數字,會發現腳掌與年歲的奇怪關係:年歲越大,腳的尺寸越小。這是怎麼回事?是腳掌太小,使人易老?自然這太荒謬。那麼是人的年歲越大,腳越縮小?

這樣的結論還是毫無根據。真正要知道婦女的腳是否越長越小,只能就一組抽樣選出的婦女,記錄她們一生中腳掌尺寸的變化,才能求得正確的結論。我們上面發現的奇怪相關性,其實不難解釋。我們曾祖母輩的婦女很多是裹足的,祖母輩的少些,母親輩的更少些。腳掌與年歲之迷,不過如此。(圖三)

很多在相關性上所作的文章,都屬於這一類。共變之所以形成,常由於不同時間的潮流或時尚而來。在我們這個時代,很容易在下述任何一對數目中找出相當顯著的正相關係數:大學就讀人數,精神病院病人數,香煙消費量,感冒病人數,X光機器使用數,假牙生產量,國校教師人數,酒家客人數等等。我們如果假設其中任何一對有什麼因果關係,自然是很愚蠢的事。不過,每天都有人在做這樣的事。

讓統計手法和具有催眠性的小數點數字來混淆因果關係,是現代人的迷信,常常導人於歧途。新希伯利德的土著們相信虱子有益於身體健康,因為根據他們數百年的觀察經驗,身體好的人都有虱子,只有生病的人身上沒有。這項觀察結果,就像許多其他的古老經驗一樣,顯然是很準確可靠的。不過由此而推論:虱子使人健康,每個人都該有一些,就有點問題。(圖四)

許多現代的專門醫學報告,比這虱子的觀察還要缺乏證據,只因它們經過統計處理,竟使常識判斷失去作用。虱子的事,後來總算被一些較有經驗的人弄清楚了。他們發現在新希伯利德地方差不多每個人都長虱子。可是當有人生病發燒的時候(很可能就是由虱子導致的疾病),因為體溫太高,虱子們便喬遷他去,另覓佳宅。在這個例子裡,我們看到因與果歪曲,顛倒,混淆在一塊,再也分不清楚。

〔註一〕相關係數有正有負,在+1與-1時,稱為完全相關。等於0時,稱為不相關。相關係數總在+1與-1之間。它在統計學裡的符號是r。相關性又叫做共變性。

〔註二〕如果大專聯考的制度辦理公正,有錢人家聘請的槍手絕跡,似乎錢的因素並不重要。但實際上,有錢的好處不只在能請人代考。譬如有錢的子弟能請得起好的家庭教師,能專心單獨指導,不須要幫助家務或做其他的工作,能有好的營養,及時就醫,維持身體健康,能跑到香港澳門,以僑生資格錄取,等等。

沒有留言: