博弈論的詭計全集-正文第24章何謂囚徒困境

囚徒困境是博弈論的非零和博弈中具有代表性的例子，反映個人的最佳選擇並非是團體的最佳選擇。

1950年，就職於蘭德公司的梅裏爾·弗勒德和梅爾文·德雷希爾擬定出相關困境的理論，後來由顧問艾伯特·塔克以“囚徒”方式闡述，並命名為“囚徒困境”。那麼，囚徒困境的案例究竟是怎樣的呢？

警方破獲了一起縱火案，抓住了兩名嫌疑犯甲和乙，但是沒有足夠的直接證據來指控二人入罪。於是，警方分開囚禁兩名嫌疑人，分別對他們進行了訊問。為了瓦解分化對方，警方分別對兩名嫌疑人說：如果主動坦白，可以減輕處罰；如果頑抗到底，一旦同夥招供，就要受到嚴懲。

如果兩人都拒不坦白，那最後警方會以擾亂社會治安、破壞公共安全的罪名將二人各判刑1年；如果其中一人認罪並作證檢控對方，此人將作為證人而免於起訴，而保持沉默的另一人將被重判15年；如果兩人都招供，則兩人都會因縱火罪被各判10年。

麵對這樣的情況，甲乙兩名嫌疑犯在各自的心裏打起了小算盤。甲經過權衡後發現，隻有自己招供是最佳的選擇，可以獲得自由；乙也發現，無論甲招不招供，自己的最佳選擇都是招供。所以，最後的結果是，甲乙二人都分別向警方坦白了自己的罪行，甲乙兩個自認為聰明的人分別被判刑10年。

如同博弈論的其他例證，囚徒困境假定每個參與者（“囚徒”）都是利己的，即都尋求最大自身利益，而不關心另一參與者的利益。參與者某一策略所得利益，如果在任何情況下都比其他策略要低，此策略稱為“嚴格劣勢”，理性的參與者絕不會選擇。另外，沒有任何其他力量幹預個人決策，參與者可完全按照自己意願選擇策略。

從這個角度出發，上麵故事中的兩名嫌疑犯自然會選擇刑期最短的策略。由於兩名囚徒隔離監禁，並不知道對方的最終的決策；即使他們能交談，也未必能夠盡信對方不會反口。就個人的理性選擇而言，檢舉背叛對方所得的刑期，總比自己沉默要來得低。二人麵對的情況一樣，所以二人的理性思考都會得出相同的結論——選擇背叛，結果二人同樣獲刑10年。

因為雙方都認為選擇背叛自己最得利，所以根本不會去顧及團體利益。而以全體利益而言，如果兩個人都保持沉默，兩人都隻會被判刑1年，總體利益更高，結果也比兩人背叛對方、判刑10年的情況更好。但根據以上的假設，二人均為理性的個人，且隻追求自己的個人利益。均衡狀況會使兩個囚徒都選擇背叛，結果二人獲刑均比合作要高，總體利益較合作為低。這就是“困境”所在。在日常生活中，有很多這樣的“困境”存在。