博弈論的詭計全集-正文第32章 “囚徒困境”的思考

在博弈論中，有一個流傳頗為廣泛的故事，叫做“囚徒困境”。

話說有一天，一位富翁在家中被殺，財物被盜。警方在此案的偵破過程中，抓到兩個犯罪嫌疑人A和B，並從他們的住處搜出被害人家中丟失的財物。但是，他們都矢口否認曾殺過人，辯稱是先發現富翁被殺，然後隻是順手牽羊偷了點兒東西。於是警方將兩人隔離審訊。

這個時候，聰明的警官找他們談話，分別告訴他們說：“你們的偷盜罪確鑿，所以可以判你們2年刑期。但是，我可以和你做個交易。如果你招了，他不招，那麼你會作為證人無罪釋放，他將被判10年徒刑；如果你招了，他也招了，你們都將被判5年有期徒刑；如果他招了，你不招，他無罪釋放，你被判無期徒刑，終身囚禁；如果你們都不招，各判2年。”

一般讀者可能會誤認為，既然兩個囚犯最好的結果是都不招供，兩人都隻被判2年，那麼，兩個囚犯都選擇不招供就是這個博弈的最終結果。

然而，人算不如天算，“囚徒困境”之所以稱為“困境”正是因為這個博弈的最終結局恰恰是最壞的結果，即兩個囚犯統統招供，結果都被判有期徒刑5年。

反過來說，這也是警官的聰明之處。警官采取的遊戲規則必然會讓兩名囚犯坦白罪行，認罪服法。對一個博弈來說，遊戲規則非常的重要，適宜的規則才能夠達到目的。在我們的日常生活中莫不如此，規則製定者往往利用條件製定出有利於自身的規章製度。

讀到這裏，很多讀者不禁會問，為什麼兩個人都選擇了“招”，傻到接受這種最壞的結果呢？

在解釋這個問題之前，需要首先說明一下，囚徒困境和其他的博弈一樣，都需要有兩個前提假設：囚徒A和B兩人都是自利理性的個人，即隻要給出兩種可選的策略，每一方將總是選擇其中對他更有利的那種策略；兩人無法溝通，要在不知道對方所選結果的情況下，獨自進行策略選擇。

囚犯“思想搏鬥過程”大致如下，囚犯A的內心活動是這樣：假如他招了，我不招，我就要將牢底坐穿，招了最壞坐10年，還是招了合算；假如他不招，我也不招，隻坐2年的牢（因無法串供，風險太大）；如果我招，他不招，馬上被釋放，也是招了合算。

因此，無論囚犯B是坦白還是沉默，囚犯A采取坦白的策略對自己更為有利。

同樣，以上推理也適用於囚犯B。結果兩個囚徒都坦白了，都被判刑5年。

囚徒困境之所以被稱為“困境”，正是在於：如果A、B二人都保持沉默，則都隻被判刑2年，顯然比兩人都坦白的結果要好。

兩名囚犯都作出招供的選擇，這對他們個人來說都是最佳的，即最符合他們個體理性的選擇。按照博弈論的說法，這是唯一的納什均衡點。

除了這個均衡點，A與B的任何一人單方麵改變選擇，他隻會得到更加不經濟的結果。而在其他的結果中，比如兩人都不坦白的情況下，都有一人可以通過單方麵改變選擇，來減少自己的刑期。可是兩人經過一番理性計算後，卻選擇了一個使自己陷入不利的結局。

其實“囚徒困境”不允許囚犯A和B進行溝通的假設，與實際生活中大部分情況的現實是有差異的。比如，在愛情博弈中，很多戀人會經常花前月下、徹夜廝守；在企業的價格戰中，企業之間也會多有溝通，甚至結成價格聯盟；即使是20世紀下半世紀的美蘇軍備競賽中，兩個超級大國也會經常進行外交交談，及時交換信息。

因此不妨將條件放寬，允許囚犯A和B在審訊室裏在一起呆上10分鍾，給予他們充分的串供的機會。

很明顯，雙方交流的主旨就是建立攻守同盟，克服自利心理，甚至可能訂立一個口頭協議，要求雙方都不去坦白。然後，雙方再單獨被提審。

我們不妨設想囚犯A的心理活動。他一定會認為，如果囚犯B遵守約定的話，則自己坦白就可獲得自由；如果囚犯B告密的話，若自己不坦白就會被終生囚禁。事實上，囚犯A的策略並沒有因為簡單的溝通或協議而擺脫兩難境地。對於囚犯B也是一樣。