QuoteBar報價霸子-Q金融報: 博弈論的經典案例：囚徒困境

學習管理學或經濟學的人一定都瞭解一些博弈論方面的知識。在博弈論中有一個經典案例--囚徒困境，非常耐人回味。

"囚徒困境"說的是兩個囚犯的故事。這兩個囚徒一起做壞事，結果被員警發現抓了起來，分別關在兩個獨立的不能互通資訊的牢房裏進行審訊。在這種情形下，兩個囚犯都可以做出自己的選擇：或者供出他的同夥（即與員警合作，從而背叛他的同夥），或者保持沉默（也就是與他的同夥合作，而不是與員警合作）。這兩個囚犯都知道，如果他倆都能保持沉默的話，就都會被釋放，因為只要他們拒不承認，警方無法給他們定罪。但警方也明白這一點，所以他們就給了這兩個囚犯一點兒刺激：如果他們中的一個人背叛，即告發他的同夥，那麼他就可以被無罪釋放，同時還可以得到一筆獎金。而他的同夥就會被按照最重的罪來判決，並且為了加重懲罰，還要對他施以罰款，作為對告發者的獎賞。當然，如果這兩個囚犯互相背叛的話，兩個人都會被按照最重的罪來判決，誰也不會得到獎賞。

那麼，這兩個囚犯該怎麼辦呢？是選擇互相合作還是互相背叛？從表面上看，他們應該互相合作，保持沉默，因為這樣他們倆都能得到最好的結果：自由。但他們不得不仔細考慮對方可能採取什麼選擇。A犯不是個傻子，他馬上意識到，他根本無法相信他的同夥不會向警方提供對他不利的證據，然後帶著一筆豐厚的獎賞出獄而去，讓他獨自坐牢。這種想法的誘惑力實在太大了。但他也意識到，他的同夥也不是傻子，也會這樣來設想他。所以A犯的結論是，唯一理性的選擇就是背叛同夥，把一切都告訴警方，因為如果他的同夥笨得只會保持沉默，那麼他就會是那個帶獎出獄的幸運者了。而如果他的同夥也根據這個邏輯向警方交代了，那麼，A犯反正也得服刑，起碼他不必在這之上再被罰款。所以其結果就是，這兩個囚犯按照不顧一切的邏輯得到了最糟糕的報應：坐牢。

當然，在現實世界裏，信任與合作很少達到如此兩難的境地。談判、人際關係、強制性的合同和其他許多因素左右了當事人的決定。但囚徒的兩難境地確實抓住了不信任和需要相互防範背叛這種真實的一面。讓我們看看冷戰時期兩個超級大國將自己鎖定在一場40年的軍備競賽中，其結果對雙方都毫無益處。還有各國的貿易保護主義的永恆傾向。

但是，無論在自然界還是在人類社會，"合作"都是一種隨處可見的現象。那麼，問題就出現了：到底是何種機制促使生物體或者人類進行相互合作呢？

這個問題的答案大部分歸功於美國密西根大學一位叫做羅伯特·愛克斯羅德的人。愛克斯羅德是一個政治科學家，對合作的問題久有研究興趣。為了進行關於合作的研究，他組織了一場電腦競賽。這個競賽的思路非常簡單：任何想參加這個電腦競賽的人都扮演"囚徒困境"案例中一個囚犯的角色。他們把自己的策略編入電腦程式，然後他們的程式會被成雙成對地融入不同的組合。分好組以後，參與者就開始玩"囚徒困境"的遊戲。他們每個人都要在合作與背叛之間做出選擇。

但這裏與"囚徒困境"案例中有個不同之處：他們不只玩一遍這個遊戲，而是一遍一遍地玩上200次。這就是博弈論專家所謂的"重複的囚徒困境"，它更逼真地反映了具有經常而長期性的人際關係。而且，這種重複的遊戲允許程式在做出合作或背叛的抉擇時參考對手程式前幾次的選擇。如果兩個程式只玩過一個回合，則背叛顯然就是唯一理性的選擇。但如果兩個程式已經交手過多次，則雙方就建立了各自的歷史檔案，用以記錄與對手的交往情況。同時，它們各自也通過多次的交手樹立了或好或差的聲譽。雖然如此，對方的程式下一步將會如何舉動卻仍然極難確定。實際上，這也是該競賽的組織者愛克斯羅德希望從這個競賽中瞭解的事情之一。一個程式總是不管對手作何種舉動都採取合作的態度嗎？或者，它能總是採取背叛行動嗎？它是否應該對對手的舉動回之以更為複雜的舉措？如果是，那會是怎麼樣的舉措呢？

事實上，競賽的第一個回合交上來的14個程式中包含了各種複雜的策略。但使愛克斯羅德和其他人深為吃驚的是，競賽的桂冠屬於其中最簡單的策略：一報還一報（TITFORTAT）。這是多倫多大學心理學家阿納托·拉帕波特提交上來的策略。一報還一報的策略是這樣的：它總是以合作開局，但從此以後就採取以其人之道還治其人之身的策略。也就是說，一報還一報的策略實行了胡蘿蔔加大棒的原則。它永遠不先背叛對方，從這個意義上來說它是"善意的"。它會在下一輪中對對手的前一次合作給予回報（哪怕以前這個對手曾經背叛過它），從這個意義上來說它是"寬容的"。但它會採取背叛的行動來懲罰對手前一次的背叛，從這個意義上來說它又是"強硬的"。而且，它的策略極為簡單，對手程式一望便知其用意何在，從這個意義來說它又是"簡單明瞭的"。

當然，因為只有為數不多程式參與了競賽，一報還一報策略的勝利也許只是一種僥倖。但是，在上交的14個程式中，有8個是"善意的"，它們永遠不會首先背叛。而且這些善意的程式都輕易就贏了6個非善意的程式。為了決出一個結果來，愛克斯羅德又舉行了第二輪競賽，特別邀請了更多的人，看看能否從一報還一報策略那兒將桂冠奪過來。這次有62個程式參加了競賽，結果是一報還一報又一次奪魁。競賽的結論是無可爭議的。好人，或更確切地說，具備以下特點的人，將總會是贏家。

1．善意的；2．寬容的；3．強硬的；4．簡單明瞭的。

一報還一報策略的勝利對人類和其他生物的合作行為的形成所具有的深刻含義是顯而易見的。愛克斯羅德在《合作進化》一書中指出，一報還一報策略能導致社會各個領域的合作，包括在最無指望的環境中的合作。他最喜歡舉的例子就是第一次世界大戰中自發產生的"自己活，也讓他人活"的原則。當時前線戰壕裏的軍隊約束自己不開槍殺傷人，只要對方也這麼做。使這個原則能夠實行的原因是，雙方軍隊都已陷入困境數月，這給了他們相互適應的機會。

一報還一報的相互作用使得自然界即使沒有智慧也能產生合作關係。這樣的例子很多：真菌從地下的石頭中汲取養分，為海藻提供了食物，而海藻反過來又為真菌提供了光合作用；金蟻合歡樹為一種螞蟻提供了食物，而這種螞蟻反過來又保護了該樹；無花果樹的花是黃蜂的食物，而黃蜂反過來又為無花果樹傳授花粉，將樹種撒向四處。

更廣泛地說，共同演化會使一報還一報的合作風格在這個充滿背信棄義劣行的世界上蔚然成風。假設少數採取一報還一報策略的個人在這個世界上通過突變而產生了。那麼，只要這些個體能互相遇見，足夠在今後的相逢中形成利害關係，他們就會開始形成小型的合作關係。一旦發生了這種情況，他們就能遠勝於他們周圍的那些背後藏刀的類型。這樣，參與合作的人數就會增多。很快，一報還一報式的合作就會最終占上風。而一旦建立了這種機制，相互合作的個體就能生存下去。如果不太合作的類型想侵犯和利用他們的善意，一報還一報政策強硬的一面就會狠狠地懲罰他們，讓他們無法擴散影響。

現在，對博弈論的研究是如此地廣泛，以致於有些人說最新的經濟學和管理科學都已經利用博弈論的理論和工具重寫過了。博弈論中有很多有趣而富於哲理的案例，一報還一報就是其中的一個。它那種善意、寬容、強硬、簡單明瞭的合作策略無論對個人還是對組織的行為方式都有很大的指導意義。

QuoteBar報價霸子-Q金融報

2010年1月14日

博弈論的經典案例：囚徒困境

沒有留言: