決斷中的偏差揭示了在不確定條件下思考問題的某些歸納法。
阿莫斯.特沃斯基 丹尼爾.卡尼曼
許多決策的制訂是基於對不確定事件(例如某次大選的結果、被告是否有罪,或者美元未來的價值)發生的可能性的信念。這些信念通常用"我認為……"、"有可能……"、"……是不可能的"等等陳述語句表示。對不確定事件的信念偶爾也用幾率或主觀概率等數位形式表示。是什麼決定了上述信念?人們如何估測某一不確定事件的概率,或某一不確定數值的價值?本篇文章表明,人們依靠有限的幾種歸納法的法則,把估測概率與預測價值這樣的複雜工作簡化為比較簡單的決斷工作。總的來說,這些歸納法非常實用,但是它們有時也會導致嚴重的系統誤差。
對概率的主觀估測類似於對距離或尺寸這樣的物理量的主觀估測。這些決斷均是基於準確性有限的資料,而這些資料是按照歸納法的法則進行處理的。例如,某一物體直接觀察到的距離部分地是由其清晰度所決定的。物體的輪廓越清晰,它就顯得越近。這項法則具有一定的準確性,因為在任何給定的情景中,距離較遠的物體沒有距離較近的物體的輪廓清晰。然而,對這項法則的依賴會導致了在估測距離時產生系統誤差。尤其是當清晰度較差時,距離通常被高估,這是因為物體的輪廓變得模糊。反過來,當清晰度較好時,距離通常被低估,這是因為物體的輪廓分明。因此,依賴清晰度做為距離的指示器會導致常見的偏差。這類偏差也可以在對概率做出直觀決斷時看到。本文將描述三種應用於估測概率和預測價值的歸納法。我們將列舉這些歸納法所導致的偏差,並將討論觀察結果在實用上和理論上的意義。
注:本文系統地闡述了不確定條件下進行決策時三種基本的歸納法,即代表性(Representativeness)、有效性(Availability)、錨定(Anchoring)及其造成的偏差。本文發表於1974年,兩位作者當時均供職於以色列耶路撒冷的希伯萊大學心理學系。其中,丹尼爾.卡尼曼獲得2002年度諾貝爾經濟學獎。
代表性(Representativeness)
許多為人們所關心的概率問題屬於以下類型中的一種:對象A隸屬於群體B的概率是多少?事件A源自於過程B的概率是多少?過程B將導致事件A的概率是多少?在回答這些問題時,人們普遍地依賴代表性歸納法。在代表性歸納法中,人們根據A對B的代表性的程度(即A與B相似的程度)來評估概率。例如,當A高度代表B時,A源自於B的概率就判定為高。反過來,如果A與B不相似,A源自於B的概率就判定為低。
為了說明通過代表性所做的決斷,我們來考慮一個人。一位先前的鄰居這樣描述道:"Steve非常害羞、非常孤僻,他總是樂於助人,但是他對人類或現實世界沒有多少興趣。他性格溫順、有條不紊,凡事要求井井有條,並且非常注重細枝末節。"在所列出的各種可能性(比如:農民、銷售員、飛機駕駛員、圖書管理員或醫生)中,人們如何估測Steve從事某一特定職業的概率?人們如何對這些可能性的大小進行排序?在代表性歸納法中,比如說Steve是圖書管理員的概率,是根據他所代表的,或與人們心目中的圖書管理員相似的程度來進行估測的。實際上,對這類問題的研究表明,人們遵從同一種方式根據概率或相似性(similarity)對職業進行排序。用這種方法判定概率會導致嚴重的錯誤,因為相似性(或者叫代表性)不受一些會影響到概率判定的因素的影響。
1、對結果的先驗概率的不敏感性(Insensitivitytopriorprobabilityofoutcome)。
對代表性沒有影響但會對概率有著主要影響的因素之一,就是結果的先驗概率,或者稱為基率的頻率(base-ratefrequency)。例如,在Steve的案例中,事實上在總人口中農民要比圖書管理員多得多。在對Steve是圖書管理員而不是農民的概率進行合理的估測時都應對此加以考慮。然而,對基率的頻率的考慮,不會影響到Steve與人們心目中的圖書管理員或農民的相似性。如果人們根據代表性來評估概率,那麼,先驗概率就會被忽視。在某次先驗概率受到控制的實驗中這一現象得到了驗證。受試者得到有關幾個人的簡要的個性描述,據稱這幾位是從由100位專業人士(工程師和律師)組成的樣本群中隨機抽取的。要求受試者估測出每一種描述屬於工程師而不是律師的概率。在一種實驗條件下,受試者被告知,對描述的樣本進行抽樣的樣本群由70位元工程師和30位律師組成。在另一種條件下,受試者被告知,樣本群由30位元工程師和70位律師組成。任一特定的描述屬於工程師而不是律師的機會,在第一種條件下(工程師占多數)應比第二種條件下(律師占多數)要大。尤其,應用貝葉斯法則(Bayes'rule)可以顯示:對於每一種描述,這些機會的比率應為或者5.44。受試者嚴重違背了貝葉斯法則,他們在兩種條件下得出了基本相同的概率判定。很顯然,受試者評估某一特定描述是屬於工程師而不是律師的可能性,依據的是這一描述對兩類職業的代表程度,而極少或根本不考慮各個類別的先驗概率。
在沒有任何別的資訊時,受試者會正確地使用先驗概率。在沒有個性概述的情況下,受試者判定某一未知個體為工程師的概率在上述兩種基率條件下分別為0.7和0.3。然而,在引入某種描述後,即使這種描述毫無用處,先驗概率實際上也被忽視了。對以下描述的反應說明了這一現象:
Dick30歲,已婚,無子女。他是一位具有很高才能並有著強烈動機的人,發誓要在自己的領域中取得巨大成就。他很受同僚的喜愛。
這段描述無意傳遞與Dick是工程師還是律師這個問題有關的任何資訊。因此,Dick是工程師的概率就如同沒有給出任何描述的情況一樣,應該等於工程師在樣本群中的比例。然而,受試者不管兩個樣本群中給出的工程師的比例是0.7還是0.3,而判定Dick是工程師的概率為0.5。很顯然,在不給出任何依據與給出無價值依據時,人們的反應是不同的。在不給出任何特定的依據時,人們會正確地使用先驗概率;在給出無價值的依據時,人們就會忽視先驗概率。
2、對樣本空間的不敏感性(Insensitivitytosamplesize)。
為了評估從某特定人口中抽樣得到某一特定結果的概率,人們一般應用代表性歸納法。也就是說,人們估測某一抽樣結果的可能性(例如,隨機抽取10個男人的平均身高為6英尺,即180公分),依據的是這種結果對相應參數的相似性(即,總人口中男人的平均身高)。某個樣本統計量對某一人口參數的相似性並不依賴於樣本空間的大小。因此,如果根據代表性估測概率,那麼所判定的某個樣本統計量的概率實質上就獨立於樣本空間的大小。實際上,在受試者估測不同大小的樣本的平均身高的分佈時,他們得到相同的分佈。例如,得到某一樣本的平均身高大於6英尺的概率,對於1000個、100個或10個人組成的樣本具有同樣的價值。而且,即使將問題公式化加以強調時,受試者也不能正確評價樣本空間的作用。考慮下面的問題:
某個城鎮有兩家醫院提供醫療服務。較大的那家醫院每天大約有45名嬰兒降生,而較小的那家每天大約有15名嬰兒降生。如你所瞭解的,所有嬰兒中大約有50%是男嬰。不過,確切的百分比每天都不盡相同。有時會高於50%,有時會低於50%。
在1年期間,每家醫院記錄了新生嬰兒中男嬰的比例高於60%的天數。你認為哪家醫院記錄的天數比較多?
*較大的那家醫院(21)
*較小的那家醫院(21)
*兩家醫院大致相等(即,兩家相差5%以內)(53)
圓括號中的數值是選擇該答案的大學生的人數。
多數受試者判定,對於大醫院和小醫院得到高於60%的男嬰的概率是相同的,這大概是因為這些事件是用同樣的統計數字描述的,因此,對總人口具有同樣的代表性。與此相對,抽樣理論認為,男嬰的比例高於60%的天數的期望數字,對於小醫院比大醫院要大得多。這是因為一個大樣本較少會偏離50%。這項統計學的基本概念顯然不是人的直覺的一個組成部分。
另一種與此類似的對於樣本空間的不敏感性,在對後驗概率(posteriorprobability,從一個人群中抽樣而不是從另一個人群中抽樣的概率)的判定中已經得到報導。考慮下面的例子:
假設一隻茶壺中裝滿了小球。其中,2/3為一種顏色,1/3為另一種顏色。某人從茶壺中抽取了5只小球,發現有4只紅色的,1只白色的。另一個人抽取了20只小球,發現有12只紅色的,8只白色的。這兩個人誰應該更加確信茶壺裝了2/3的紅球和1/3的白球,而不是相反的情況?每個人應該得出怎樣的可能性?
在這個問題中,正確的後驗可能性(posteriorodds)對於4:1的樣本為8-1,對於12:8的樣本為16-1,假定後驗概率是相等的。然而,多數人感到第一個樣本為茶壺中紅球占多數的假設提供了更為有力的證據。因為第一個樣本中紅球的比例大於第二個樣本中紅球的比例。在這裏,直覺判定又一次受到樣本比例的支配,而且基本上不受樣本空間大小的影響,而樣本空間在確定實際的後驗可能性中起了決定性的作用。此外,對後驗可能性的直覺估測遠遠不如正確的數值更為激進。在這類問題中不斷觀察到對證據的影響的低估,這種現象已被稱為"保守主義(conservatism)"。
3、對隨機事件的錯覺(Misconceptionsofchance)。
人們期望隨機過程產生的事件的一個序列會反映隨機過程的本質特徵,即使該序列只是簡短的片段。例如,在拋擲一枚硬幣猜正反面時,人們認為序列"正-反-正-反-反-正"比序列"正-正-正-反-反-反"更具有可能性,後者看上去不像是隨機擲出的;也比結果"正-正-正-正-反-正"更具有可能性,後者不像是一枚完好的硬幣擲出的結果。因此,人們期望過程的本質特徵能夠在序列中得到反映,不僅是反映整個序列的整體特徵,而且還反映序列的每個部分的局部特徵。然而,某個具有局部代表性的序列會系統地偏離機會期望:它包括了太多的交替出現及太少的趨勢。局部代表性信念造成的另一個結果便是著名的賭徒謬誤(gambler'sfallacy)。例如,在觀察輪盤賭中出現一長串紅球以後,多數人會錯誤地相信黑球現在就要出現了,這可能是因為出現一個黑球比出現另一個紅球會產生一個更具有代表性的序列。隨機事件經常被認為是一個自我修正(self-corrected)的過程,在一個方向上的偏離會導致在另一個方向的偏離,以恢復均衡。事實上,正如一個隨機過程所展示的,偏離並未得到"修正(corrected)",而只是得到緩和。
對隨機事件的錯覺不只局限于天真的受試者。一項有關實驗心理學家的統計直覺的研究揭示出一個歷史悠久的可稱為"小數字法則(lawofsmallnumbers)"的信念。根據這項法則,即使是小樣本也高度代表著其所抽樣的人群。這些調查者的反應表達了對某種有充分依據的假說的期望:某個具有顯著統計結果的樣本(很少考慮樣本空間的大小)對某個人群具有代表性。由此推斷出,研究人員對小樣本的結果太過於自信,而且大大高估了結果的可重複性。在實際的研究工作中,這種偏差會導致挑選不夠大的樣本,並且對實驗的結果濫加解釋。
4、對可預測性的不敏感性(Insensitivitytopredictability)。
有時,人們需要對一支股票未來的價值、對某種商品的需求,或者一場足球賽的結果等等,做出定量的預測。做出這樣的預測通常要根據代表性。例如,假定某人得到某家公司的情況描述,並要求對該公司未來的贏利狀況做出預測。如果對該公司的描述十分有利,那麼非常好的贏利前景就顯得最具有上述描述的代表性;如果描述的情況一般,那麼業績平平就顯得最具有代表性。描述的有利程度既不受對描述的信賴度的影響,也不受所允許的預測的精確度的影響。因此,如果人們僅僅根據描述的有利與否做出預測,他們所做的預測就會對證據的信賴度不敏感,還會對期望的預測精確度不敏感。
這種決斷模式違背了常規的統計學理論----預測結果的極限值與變動範圍受制於可預測性因素。當可預測性為零時,針對任何情況下均應做出同樣的預測。例如,如果對公司的描述沒有提供任何與贏利狀況有關的資訊,那麼,同樣的數位(比如平均利潤)就應針對所有的公司做出預測。當然,如果具備完全的可預測性,預測的數字就會與實際數值相符合,而預測結果的變動範圍也會等於實際結果的變動範圍。一般來說,可預測性越高,預測數字的變動範圍就越寬。
幾項針對定量預測的研究顯示,直覺預測違背了該項原則,而且受試者很少甚至根本不考慮可預測性因素。在其中一項研究中,提供給受試者幾段文字,每段文字都描述了一位元實習教師在某次特別的實習課上的表現。要求一部分受試者用百分數評價文字所描述的課程的品質,要求其他的受試者也用百分數對每一位實習教師在實習課5年後的狀況做出預測。在這兩種條件下做出的判斷是完全相同的。也就是說,根據遙遠的標準所做的預測(一位教師5年後的成功),與根據預測的基礎資訊(實習課的品質)所做的評價是完全相同的。做出這些預測的學生無疑知道,僅僅根據5年前的一堂實習課對一位教師的教學能力做出預測,其可預測性是有限的;然而,他們所做的預測與他們所做的評價一樣極端。
5、對有效性的錯覺(Theillusionofvalidity)。
如我們所看到的,人們通常通過選擇對"輸入(input)"(比如對某人的描述)最具有代表性的結果(比如某種職業)來做出預測。他們在預測中所擁有的自信主要依賴於代表性的程度(即,依賴於所選擇的結果與輸入之間相符合的品質),而很少或根本不考慮預測精確度的限制因素。因此,在給出某個人與人們心目中的圖書管理員形象相符合的個性描述時,甚至描述是不充分的、不可靠的或者過時的,人們表現出很強的自信,預測該人是圖書管理員。因預測結果與輸入資訊之間較好的符合所產生的無根據的自信,可稱為對有效性的錯覺(theillusionofvalidity)。甚至在預測者瞭解預測精度的限制因素時,這種錯覺仍然存在。我們經常觀察到,甚至在知道大量的文獻表明選拔面談極易出錯時,主持選拔面談的心理學家在預測中也常常表現得極為自信。儘管不斷有事實證實其不適當,對選拔中臨床面談的繼續信賴足以證明這種效應的強大。
一種輸入模式的內在一致性,是人以輸入資訊為基礎的預測中擁有自信的一項主要的決定因素。例如,預測某個第一學年成績全部為B的學生的期末平均分數時,比預測一個第一學年成績中有很多A和C的學生的平均分數時,人們表現出更多的自信。當輸入變數大量過剩或者相互關聯時,常常可以觀察到高度一致的模式。因此,人們容易在以過剩的輸入變數為基礎的預測中表現得極為自信。然而,相關性統計學中一項基本的研究成果斷言,給定既定有效性的輸入變數,當幾項這樣的輸入變數彼此相互獨立,而不是過剩或相關時,以這幾項變數為基礎的預測可以取得更高的精確度。因此,即使能夠增強信心,輸入變數的過剩也會降低預測的精確度,而經常存在于預測中的自信更容易導致人們偏離正確的目標。
6、對回歸的錯覺(Misconceptionofregression)
假設有一大群孩子參加了針對某種能力兩份相當的試卷的測試。如果從兩份試卷中的一份表現最好的孩子中挑選出10個孩子,你通常會發現這些孩子在另一份試卷中的表現會有些令人失望。反過來,如果從一份試卷表現最差的孩子中挑選出10個孩子,你會發現他們在另一份試卷中的表現平均要好一些。更一般地,考慮具有相同分佈的變數X和Y。如果你挑選出平均分數為X、對均值X偏離k個單位的個人,那麼,他們的平均分數Y對均值Y的偏離通常會少於k個單位。這些觀察結果說明了一個被稱作向均值回歸(regressiontowardthemean)的普遍現象。這一現象是100多年前首先由Gallon記錄下來的。
在日常生活中,我們會遇到許多向均值回歸的事例,比如,對父子的身高、對夫妻的智力,或者對個人一連串考試成績的比較。然而,人們並沒有培養出對這種現象的正確的直覺力。首先,人們沒有預料到很多場合中確定要發生的回歸現象。其次,當人們認識到回歸現象的發生時,他們常常會臆造出不合邏輯的因果關係來解釋這種現象。我們認為,回歸現象之所以難以理解,是因為回歸現象不符合預測結果應最大程度地對輸入變數具有代表性,以及輸出參數(譯注:即predictedoutcome,預測的結果)的值應該與輸入參數的值具有同樣的偏離度這一信念。
正如下面的觀察結果所說明的,認識不到回歸的重要性會帶來危害性的結果。在一次有關飛行訓練的討論中,經驗豐富的教練們注意到,對受訓者某次異常平穩的著陸動作進行表揚,接著在下一次試飛時受訓者的著陸動作一般會較差;而對受訓者某次拙劣的著陸動作進行激烈的批評,接著在下一次試飛中受訓者的著陸動作通常會得到改進。教練們得出結論,口頭表揚不利於學習,而口頭懲罰則是有益的。這一結論恰恰與公認的心理學學說相反。由於向均值回歸的存在,這一結論是沒有根據的。如同別的重複考試的情況一樣,即使教練沒有對受訓者第一次嘗試的成績做出反應,受訓者一次進步後通常會是糟糕的表現,而一次退步後通常會是出色的表現。因為教練已經表揚了受訓者好的著陸動作並批評了差的著陸動作,於是,他們便得出懲罰比獎勵更有效這一錯誤而有潛在危害性的結論。
因此,不理解回歸效應會導致人們高估懲罰的效果,低估獎勵的效果。在社交以及訓練中典型的情況是,在表現好時進行獎勵,在表現差時進行懲罰。因此,僅僅就回歸因素來說,最可能的行為是:在懲罰後進步,而在獎勵後退步。因而,僅僅就偶然因素來說,人類的行為就是:人常常因懲罰別人而受到獎勵,並且常常因獎勵別人而受到懲罰。人們一般不知道這種偶然性。事實上,回歸在決定獎勵和懲罰的明顯的結果中所起的難以理解的作用,似乎沒有引起該領域學者的注意。
注1:據美國學者彼德.伯恩斯坦《與天為敵-風險探索傳奇》一書記載,"向均值回歸"系由英國學者弗蘭西斯.高爾頓(FrancisGalton,1822-1911)最先發現的,本文中Gallon一詞應為Galton的錯拼。
注2:extreme,本意是"離中心或起點遠",這裏譯作"偏離度"。
可得性(Availability)
在某些情況下,人們根據事例或事件的發生能夠回憶起來的難易程度來估測某一類別的頻率或某一事件的概率。例如,你會通過回憶熟人的心臟病發作來估測中年人發作心臟病的危險。與此類似,你會通過想像某一特定商業冒險活動可能遭遇到的各種各樣的困難來評估其失敗的概率。這種用於決斷的歸納法稱為可得性(availability)。可得性對於估測頻率或概率是一種有用的思路,因為大類別的事例通常能夠比小頻率類別的事例更好更快地回憶起來。不過,可得性受到其他一些因素而不是頻率和概率的影響。因而,對可得性的信賴會導致預測偏差,其中一些偏差說明如下:
1、因事例的可提取性導致的偏差(Biasesduetotheretrievabilityofinstances)。
在根據某一類別的事例的可得性來判斷類別的大小時,事例易於提取的類別會比頻率相等而事例較難提取的類別顯得數目更大。在一個對該效應的簡單說明中,主試先給受試者聽一份男女名人的名單,然後要求他們判斷名單中男性的名字是否多於女性的名字。不同的名單提供給不同的受試者群體。在某些名單中男性相比女性更為著名,而在其他名單中女性相比男性更為著名。對於每份名單,受試者都錯誤地判斷名人更多的類別(注:即性別)就是數目更大的類別。
除了相似性還有其他的影響因素,比如,鮮明性會影響事例的可提取性。例如,目睹一所房子在火中燃燒對這類事故的主觀概率所造成的影響要比閱讀本地報紙瞭解一場火災所造成的影響可能更為強烈。而且,最近發生的事件可能比較早發生的事件更容易回憶起來。當你目睹一部汽車傾覆在路旁時,你會暫時調高交通事故的主觀概率,這是一種一般的體驗。
2、因搜索體系的效力導致的偏差(Biasesduetotheeffectivenessofasearchset)
假設你從一篇英語課文中隨機抽取一個單詞(三個字母或以上)。該單詞以字母r打頭或者r為第三個字母,哪一個更為可能?人們解決這類問題的方法是,回憶以r打頭的單詞(比如road)以及r在第三位的單詞(比如car),並且根據這兩類單詞進入腦海的難易程度來估測其相對頻率。因為根據第一個字母搜索單詞比根據第三個字母搜索單詞要容易得多,多數人便斷定以某個特定的輔音字母打頭的單詞要比同一輔音字母出現在第三位元的單詞的數目更大。他們甚至還錯誤地斷定那些出現在第三位元的頻率比出現在第一位的頻率更高的輔音字母(比如r或k)也是如此。
不同的工作要求有不同的搜索體系。例如,假設要求你確定抽象名詞(思想,愛)與具體名詞(門,水)出現在書面英語中的頻率。解答這類問題的一種常用的方法是搜索單詞可能出現的上下文。提及抽象概念的上下文(愛在愛情故事中)比提及具體名詞的上下文(比如門)似乎更容易被想起。如果單詞出現的頻率是根據其出現的上下文的可得性判斷的,那麼,抽象名詞就會被斷定為比具體名詞的數目更大。這種偏差在最近的一項研究中被觀察到。該項研究顯示,所斷定的抽象名詞出現的頻率大大高於具體名詞出現的頻率(與客觀頻率相等)。抽象名詞也被斷定比具體名詞出現在更多類型的上下文中。
3、因想像力的不足導致的偏差(Biasesofimaginability)。
有時,人們需要估測其事例不存在於記憶之中、但可以根據某種特定法則生成的類別的頻率。在這種情況下,人們一般根據能夠構造相關事例的難易程度生成數個事例進而評估頻率或概率。然而,構造事例的難易程度並不總是能夠反映它們的真實頻率,而且這一評估模式容易產生偏差。為了說明這個問題,我們來考慮一個由10個人組成的群(group),這10個人中的k個成員組成一個委員會,其中,2?k?8。k個成員能夠組成多少個不同的委員會?這個問題正確的答案可根據二項式的係數求出,當k=5時,最大組合數為252。很明顯,由於任何一個由k個成員組成的委員會確定了一個由(10-k)個非成員組成的唯一的群,所以,k個成員組成的委員會的數目等於(10-k)個成員組成的委員會的數目。
不用計算的方法來解答這個問題,其途徑是在心裏構造由k個成員組成的委員會並且根據它們進入腦海的難易程度測算其數目。成員很少的委員會(比如2個)的數目比成員很多的委員會(比如8個)的數目更容易算出。構造委員會最簡單的方案是將群劃分為獨立的單元。你很快就會發現,構造5個由2個成員組成的獨立的委員會是很容易的,而生成2個由8個成員組成的獨立的委員會甚至也是不可能的。因而,如果根據想像力或者根據構造的可得性估測頻率,小規模的委員會比較大規模的委員會顯得數目更多,這恰恰與鐘形函數(bell-shapedfunction)反映的基本準則相反。事實上,當天真的受試者被要求估測不同規模的獨立的委員會的數目時,他們估測的結果是委員會規模的一個單調遞減函數。例如,由2個成員組成的委員會的數目的估測中值為70,而由8個成員組成的委員會的估測值為20(這兩種情況下正確的答案均為45)。
想像力在評估現實條件下的概率時起了重要的作用。例如,一次充滿危險的探險活動中的風險是通過設想出探險活動無法妥善應對的各種偶然性來進行評估的。儘管設想出各種災難的難易程度並不一定反映出其真實概率,但是,如果許多這類困難得到生動的描述,探險活動就會顯得異常危險。相反,如果某些可能的危險難以想像或者甚至根本沒有料及,那麼,一項任務中的風險就可能會被嚴重低估。
注1:對於窮舉有限的可能情況的問題,一般可歸結為數學中的排列組合問題。例如,計算由2個和8個成員組成的委員會的數目,由組合數性質可得,。
注2:鐘形函數(bell-shapedfunction),即正態分佈函數,其圖形稱為鐘形曲線。
4、因錯覺產生的相關關係(Illusorycorrelation)。
Chapman描述過在判斷兩個事件同時發生的頻率時存在的一種有趣的偏差。他向天真的評判者提供了有關幾位假想的精神病人的資訊,每位元病人的資料包括一項臨床診斷及病人繪製的一幅人物素描。隨後,評判者估測每項診斷(比如,妄想症或疑心病)與素描的各項特徵(比如,一雙奇怪的眼睛)相關的頻率。受試者明顯高估了正常的關聯關係(比如,疑心病與奇怪的眼睛)同時發生的頻率。這種效應被稱為因錯覺產生的相關關係(illusorycorrelation)。在根據得到的資料做出的錯誤判斷中,天真的受試者"再發現"了許多常見但尚未發現的有關畫像測試解釋的臨床經驗。因錯覺產生的相關關係效應極端排斥相對立的資料。甚至在症狀與診斷之間實際上是負相關時,這種效應仍然存在,而且妨礙評判者發現實際存在的聯繫。
可得性為因錯覺產生的相關關係效應提供了合理的說明。我們可以根據兩個事件之間關聯聯繫的強度來判斷它們同時發生的頻率。當關聯度強時,你可能會得出事件經常相伴發生的結論。因而,強度關聯會被斷定為經常同時發生。例如,按照這種觀點,疑心病與奇怪的眼睛的素描之間因錯覺產生的相關關係是由於這樣一個事實:疑心病更容易與眼睛而不是身體的任何其他部位聯繫在一起。
畢生的經驗告訴我們,一般來說,大類別的事例比頻率較小的類別的事例更準確更迅速地回憶起來;可能發生的事件比不可能發生的事件更容易聯想;當事件經常同時發生時,事件之間的關聯關係會得到強化。結果,人們便擁有了一項可以任用的程式(即,可得性歸納法),根據有關可提取的心理機制、構造或能夠展現出來關聯的難易程度,來估測某個類別的數目、某個事件的概率或事件同時發生的頻率。然而,正如先前的例子所說明的,這種有價值的估測程式會導致系統偏差。
調整與錨定(AdjustmentandAnchoring)
在很多情況下,人們進行估測是從某個初值開始經過調整而得到最終的答案。初值(或叫起點)可能是由問題的公式化得到的,也可能是部分計算的結果。在這兩種情況下調整一般都是不充分的。也就是說,不同的起點會產生不同的偏離初值的估測結果。我們將這種現象稱為錨定(anchoring)。
1、不充分調整(Insufficientadjustment)。
在某次對錨定效應的示範中,要求受試者估測各種用百分數表示的數量(例如,聯合國中非洲國家所占的百分比)。對於每一種數量,通過轉動受試者面前的一個幸運輪來決定0至100之間的一個數字。根據指示,受試者首先要指出該數字是高於還是低於實際數值,然後,對給定數字進行上下調整來估測實際數值。對於每種數量給不同的受試者以不同的數位,而這些任意給出的數字對估測結果有著明顯的影響。例如,將得到的數字10和65作為起點的不同群體對聯合國中非洲國家所占百分比的估測中值分別為25和45。對估測精度的獎勵不會減弱錨定效應。
不僅在為受試者給出起點時,而且在受試者將其估測基於某些不完全計算結果上時,錨定均會發生。有一項對直覺估算數字的研究說明了這種效應。在5秒鐘內,兩個高中生群體對寫在黑板上的一個數學運算式進行估算。一個群體估算乘積
8×7×6×5×4×3×2×1
而另一個群體估算乘積
1×2×3×4×5×6×7×8
為了迅速解答這類問題,人們會做幾步計算,並通過推斷和調整估算乘積。因為調整一般是不充分的,該程式應該導致對實際結果的低估。而且,因為遞減序列比遞增序列開始幾步乘法運算的結果(從左至右進行)要大,所以,前面算式的乘積應該判定為大於後面的算式的乘積。這兩項預測均被證實。遞增序列的估算中值為512,而遞減序列的估算中值為2250。正確的答案是40320。
2、對連續事件與不連續事件的估測偏差(Biasesintheevaluationofconjunctiveanddisjunctiveevents)。
在Bar-Hillel最近所做的一項研究中,受試者有機會對兩個事件中的一個進行下注。計有三類事件:(1)簡單事件,比如從一隻裝有50%的紅球和50%的白球的袋子中抽到一隻紅球;(2)連續事件,比如從一隻裝有90%的紅球和10%的白球的袋子中連續7次抽到一隻紅球,每次抽取後將球放回袋子;(3)不連續事件,比如從一隻裝有10%的紅球與90%的白球的袋子中連續抽取7次至少抽到1只紅球,每次抽取後將球放回袋子。在這個問題中,有顯著多數的受試者更喜歡對連續事件(其概率為0.48)而不是簡單事件(其概率為0.50)下注。受試者也更喜歡對簡單事件而不是不連續事件(其概率為0.52)下注。因此,在這兩種對比選擇中,多數受試者均下注於可能性較小的事件。這種選擇模式說明了一個具有普遍意義的發現。對賭博中的選擇及對概率的判定的研究表明,人們傾向於高估連續事件的概率並低估不連續事件的概率。這種偏差用錨定效應很容易解釋。基本事件(elementaryevent,如每個階段的成功)的給定概率為估算連續事件和不連續事件的概率提供了一個自然起點。既然自起點的調整一般是不充分的,因此,在這兩種情況下,最終的估測值與基本事件的概率保持得非常接近。注意:連續事件的全概率(overallprobability)小於單個基本事件的概率,而不連續事件的全概率大於單個基本事件的概率。作為錨定的結果,在連續問題中全概率會被高估,而在不連續問題中全概率會被低估。
複合事件概率評估中的偏差在制訂計畫的情形中顯得尤其突出。一項任務(比如一種新產品的開發)的成功完成一般具有連續的特徵:為了任務的成功,一系列事件中的每個事件都必須發生。甚至當這些事件中每個事件的可能性都很大時,如果事件的數目是龐大的,那麼,成功的全概率可能會相當小。這種高估連續事件概率的一般傾向會造成在評估某項計畫的成功或者某個專案的按時完成的可能性時盲目樂觀。反過來,我們一般會在風險評估中遇到不連續結構。複雜系統(比如,核反應爐或人體)的任何一個基本單元的故障都會造成整個系統發生故障。甚至當每個單元發生故障的可能性很微小時,如果涉及到很多單元,那麼,整個系統發生故障的概率可能會很大。由於錨定的原因,人們會傾向於低估複雜系統發生故障的概率。因此,錨定偏差的傾向有時可由事件的結構推斷出。連續事件的鏈狀結構會造成高估,不連續事件的漏斗狀結構會造成低估。
注:文中的概率計算如下:
(1)簡單事件。抽取一隻紅球的概率為0.5;
(2)連續事件。連續7次抽到紅球的概率為0.9×0.9×0.9×0.9×0.9×0.9×0.9=0.48;
(3)不連續事件。連續抽取7次至少抽到一隻紅球的概率可根據概率的加法法則計算,具體計算略。
3、主觀概率分佈估測中的錨定效應(Anchoringintheassessmentofsubjectiveprobabilitydistributions)。
在決策分析中,專家們經常需要用概率分佈的形式表達他們對某種數量(比如,特定某天的道鐘斯平均指數值)的信念。通常,通過讓評判者選擇與其主觀概率分佈指定的百分數相符合的數值來構造上述概率分佈。例如,可能會要求評判者選擇一個數字,使得其對於該數字大於道鐘斯平均指數值的主觀概率為0.90。也就是說,他應該選擇數值,如此,他願意接受的道鐘斯平均指數不超過該值的機率為9:1。道鐘斯平均指數值的主觀概率分佈可用數個這樣的與不同的百分數相對應的判斷結果進行構造。
通過採集許多種不同數量的主觀概率分佈,我們有可能檢驗評判者是否進行了適當的校準。如果某個評判者所估測數量的真值的n%確實小於其給定的值,那麼,我們認為這位評判者在一系列問題中進行了適當的(或客觀的)校準。例如,真值應該有1%的量小於,且有1%的量大於。因此,對於問題的98%的情況,真值應位於與之間的置信區間內。
幾位研究人員從大量評判者的估測結果中得到了許多數量關係的主觀概率分佈。這些概率分佈表明存在著大量的對適當校準的系統性背離。在多數研究中,問題有大約30%的情況下,估測數量的真值或者小於或者大於。這就是說,受試者規定了過度狹窄的置信區間,該置信區間比他們根據自己有關估測數量的知識所做的判斷帶有更多的確定性。這種偏差對於天真的受試者和老練的受試者都是常見的,而且無法通過引入適當的記分規則(這鼓勵了客觀校準)加以消除。至少在部分程度上,這種效應可歸結為錨定效應。
例如,為道鐘斯平均指數選擇值,開始很自然地先考慮某個受試者對道鐘斯指數所做的最佳估測,然後再向上調整該值。如果這種調整象大多數其他情況一樣是不充分的,那麼,就不是充分的誤差範圍。與此相似的錨定效應會發生在對的選擇中,通過向下調整某個受試者的最佳估測結果可能得到該值。因而,與之間的置信區間會太過於狹窄,而且所估測的概率分佈也太過緊密。主觀概率可以通過某種程式進行系統地調整,這支援了上面的解釋。在該程式中,某個受試者的最佳估測結果不再成為錨定。
給定數量(比如,道鐘斯平均指數)的主觀概率分佈可以通過兩條不同的途徑得到:(1)要求受試者選擇與其概率分佈指定的百分數相符合的道鐘斯指數值;(2)要求受試者估測道鐘斯指數的真值會超過某些指定數值的概率。這兩種程式在形式上是等價的,而且應該產生同一種分佈。然而,研究人員建議對不同的錨定採用不同的調整模式。在程式(1)中,自然的起點是某個受試者對數量的最佳估測結果。另一方面,在程式(2)中,受試者會錨定在問題給出的數值上。受試者可能會錨定在對等的機率(即,50:50的機會)上,兩者可選其一。該機率是估測概率時自然的起點。對於這兩種情況,程式(2)應比程式(1)產生較小的偏差機率。
為了對比這兩種程式,研究人員為一組受試者提供了由24種數量(比如,新德里與北京之間的空中距離)組成的系列,他們就每一個問題或者估測或者估測。另一組受試者得到第一組對這24種數量中每種的判定結果的中值,要求他們估測給定數值超出相關數量真值的機率。在沒有任何偏差時,第二組應該再次得到指定給第一組的機率,即9:1。然而,如果平均機率或者給定的值成為錨定,第二組的機率的偏差就應該較小,即,更接近1:1。事實上,對於所有的問題該組給定的機率中值為3:1。在對這兩組的判斷進行客觀校準檢驗時,發現第一組受試者的太過激進,這與早期的研究結果相吻合。他們所定義的概率為0.10的事件實際上在24%的情況下發生了。與此相對,第二組受試者太過保守。他們分配的平均概率為0.34的事件實際上在26%的情況下發生了。這些實驗結果說明了校準的程度決定於導出程式的方式。
注:subject--專業術語應為"被試",文中為通俗起見譯做"受試者"。與此相對的是experimenter"主試"。
說明:文中空白處的符號分別為:
X90,X90,
Xn,X01,X99,X01,X99,
X01,X99,
X90,X10,X90,X10,X10,X90,
X10,X90
其中,數字為下標。
討論(Discussion)
本文討論了對用於判斷的歸納法的信賴而產生的認知偏差。這些偏差並非歸咎於一相情願或者報酬與懲罰造成的判斷失真這類動機效應(motivationaleffects)。實際上,儘管鼓勵受試者進行準確判斷並對正確的答案給予獎勵,還是發生了前面記錄的數個嚴重的判斷誤差。
對歸納法的信賴與偏差的普遍存在並非只局限於外行中。有經驗的研究人員在直覺化思維時也容易出現同樣的偏差。例如,不夠注意先驗概率而預測最能代表所給資料的結果,這種傾向已經在受過全面的統計學培訓的人所做的直覺判斷中觀察到。雖然統計學老手避免了象賭徒謬誤這樣的基本偏差,但是,他們在更複雜且更模糊的問題中所做的直覺判斷還是容易出現類似的謬誤。
毫不奇怪,象代表性和可得性這樣有用的歸納法被人們記住了,即使它們偶爾會導致預測或估測中的偏差。令人吃驚的或許是人們並沒有從畢生的經驗中推論出諸如向均值的回歸或樣本空間對抽樣變化的影響這樣的基本的統計法則。在日常生活中,儘管每個人都面對著大量的可能已從中歸納出上述統計學法則的實例,但是,只有極少的人獨自發現了抽樣和回歸的原理。統計原理並非得自日常生活的經驗,因為相關的事例並沒有進行合適的編碼(譯注:即轉換為數學語言)。例如,人們沒有發現一篇課文中連續幾行比連續幾頁的單詞的平均長度更加不同,因為他們只是沒有注意到每一行或每一頁的單詞的平均長度。因此,人們並不瞭解樣本空間與抽樣變化之間的關係,儘管學習這種知識的資料是豐富的。
缺少合適的編碼也解釋了為什麼人們通常無法發現其概率判斷中的偏差。可以想像,通過保持記錄分配了同一概率的事件中實際發生的事件的比例,某人能夠獲悉其判斷是否得到了客觀校準。然而,根據判定的概率對事件進行分類是不合理的。例如,在缺少這樣的分類時,個人不可能發現他分配了0.9或更高概率的預測實際上只有50%成為現實。
對認知偏差的經驗分析對於判定概率在理論和應用兩個方面都有啟示。現代決策理論認為主觀概率是一個理想化的人的量化的意見。尤其,某個給定事件的主觀概率用該人願意接受的對該事件的一系列賭注進行確定。如果某個人在賭注之間的選擇滿足某種原則(即,理論原則),那麼,該人就得到了某種內在一致的(或連貫的)主觀概率度量標準。允許不同的人對同一事件有不同的概率,在這個意義上,我們稱得到的概率是主觀的。這種方法的主要貢獻在於它為適用于單一事件的概率提供了一種精確的主觀說明,並深深植根於一般的理性決策理論之中。
或許他應該注意到,雖然有時候主觀概率可以從對不同賭注的偏好中得出,但是在正常情況下,主觀概率並不是以這種方式形成的。某個人對A隊而不是對B隊下注是因為他相信A隊更有可能取勝;他並非是從自己的下注偏好中得出這種信念的。因此,實際上是主觀概率決定了對不同賭注的偏好,而不是象理性決策的公理化理論所認為的是從不同的偏好中得出主觀概率的。
概率的內在主觀特性已導致許多學生相信一致性(或內在一致性)是用以評估所判定的概率的唯一有效標準。從規範的主觀概率理論的觀點來看,任何一種內在一致的概率判斷體系都與任何別的體系一樣有效。這種標準並不是完全令人滿意的,因為某種內在一致的主觀概率體系可能與個人持有的其他信念不相一致。我們來考慮一個人,該人對拋擲硬幣遊戲中所有可能結果的主觀概率反映出賭徒謬誤。也就是說,他對特定一次拋擲擲出反面的概率的估測隨著先前拋擲中連續出現正面的數目而增大。該人的判斷可能是內在一致的,按照規範理論的標準因此可以接受為充分的主觀概率。然而,這些概率與人們普遍持有的硬幣沒有記憶因此不能產生序列依賴的信念不相一致。為了充分(或理性)地考慮所判定的概率,僅有內在一致性是不夠的。判斷必須與個人持有的整個信念體系相一致。不幸的是,可能沒有簡單的正式程式用來對概率判斷體系與評判者的整個信念體系之間的一致性進行評估。即使內在一致性更容易得到及評估,理性的評判者只不過是力求做到使它們相一致。尤其,他會嘗試使其概率判斷與他對有關課題的知識、概率法則以及他自己用於判斷的歸納法和偏差相一致。
概要(Summary)
本文講述了三種應用於不確定條件下決斷的歸納法:(1)代表性,通常應用於人們需要判斷物件A隸屬於類別B或事件A從屬於過程B的概率時;(2)事例或情景的可得性,經常應用於人們需要估測某個類別的頻率或某一特定進程的可能性時;(3)自錨定的調整,通常應用於相關數值可以得到時的數值預測。這些歸納法極為省事而且通常是有效的,但是,它們也會導致可預料的系統誤差。對這些歸納法及其導致的偏差的更好理解可以改善在不確定條件下的判斷與決策。
沒有留言:
張貼留言