第166章:囚徒困境的綜合博弈(2 / 2)

“他是今天店裏的客人當中,目標最明確的人,你去跟他玩,準沒錯。不過看在你這根雪茄的份上,再多說兩句,先給你上一課。知道囚徒困境這個博弈理論嗎?

“非零和博弈中最具代表性的那個例子?當然知道啊。兩個有罪的囚徒被分別囚禁,如果他們各自保持沉默,因為缺乏證據,則都隻會獲刑一年。但如果他們兩人都分別坦白,則因為證據充分而導致都獲刑八年。但如果一個人保持沉默,而另一個人坦白,則坦白的囚徒將會因為提供有利證據而直接釋放,另一個人則會因為拒不合作而導致判刑十年。”安不知老老實實地問答道。

車爺點頭稱是,“沒錯,這個博弈中最黑暗的地方就在於人們明明知道合作帶來的團隊利益是最高的,但一旦把他們分開進行決策,他們就會選擇所謂的最優策略以達到所謂的納什均衡。”

“因為他們會分別做如此推理:如果對手選擇是坦白,那麼我也坦白獲刑是八年,而如果我沉默則要獲刑十年;如果對手選擇是沉默,那麼我也沉默獲刑是一年,而如果我坦白則無罪釋放。則對手無論選擇是什麼,我的最優選擇都應該是坦白。這個著名的理論充分說明了在一個‘完全以自我利益最大化’為基礎的社會中,反而得到的是一個對群體來說‘利益最小化’的結果。”

“這是基礎,然後我要告訴你的是一個更精妙的擴展,用它可以解讀整個濃縮的社會。幾個世紀前羅伯特·阿克塞爾羅德在其著作《合作的進化》中提出了一個名為重複的囚徒困境的綜合博弈。”

“這個博弈中,每個玩家將提出一種策略方案,其內容是玩十次囚徒博弈,但每個策略必須一開始就用程序設計好這十次囚徒博弈中所要采取的行動,然後按其程序嚴格執行。”

“比如你可以將其設計為永遠沉默,那麼這個策略可以被稱為‘老好人’,也可以將其設計為在10次中隨機有3-4次會突然地‘坦白’,那麼這個采取突襲的偷分策略便可以被稱為‘下流胚’。所有設計出的策略方案,將全部在雙循環賽中,分別與所有玩家的策略一一交手,最後總分最高的策略,將成為最優策略。”

確定所有的一切安不知都聽明白以後,車爺貪婪地吸進一口煙,再緩緩吐出,好整以暇地問道:“你能想象一下,在這個‘重複的囚徒困境’中,羅伯特·阿克塞爾羅德所提出的最強策略是什麼嗎?”

“這?這種綜合博弈我都是第一次聽說,怎麼可能馬上就想出來答案!”安不知老實地說道。

車爺便嗬嗬地笑著,一副“我就知道”的表情,滿意地給出了答案:“以牙還牙!這一套策略的方案非常簡單。它在一開始采取‘沉默’行動,而在以後的每一輪行動裏,他所采取的都將是對手在上一輪中所采取的行動。簡單來說,對手合作,那麼它也一直合作下去;而對手背叛,它必以背叛反擊之。”

在片刻的沉默中,安不知靜靜地消化著這個所謂“最強策略”的內涵!