第八節霍特林——霍特林模型:非合作均衡模型
哈羅德·霍特林(HaroldHotelling,1895—1973),統計學界、經濟學界、數學界公認大師。1895年9月29日出生在美國明尼蘇達的福達,1924年獲得博士學位,任職於斯坦福大學。1972年被選為美國國家科學研究院的院士。1929年霍特林提出了空間競爭理論,把產品差異劃分為空間中直線段上的不同點,從而使產品差異具有可檢驗的經驗含意。其中有名的例子是霍特林模型:在一平直的海灘上有兩個冰淇淋小販。假設二者的生產成本均為零,產品的質量都是一樣,顧客都平均分布在線型市場上,他們的品味均一致,他們對產品需求的價格彈性等於零,購買者都會從最近的供給者購買。
1929年美國經濟學家霍特林(HaroldHotelling)探討兩個商鋪如何定位的問題,後稱為霍特林模型……即在一個1000米的沙灘上,兩個小商販,賣的商品和服務質量都是一樣的。按照一般概念設想,商販A應該將其位置安置在250米的這個點上,可以方便0~500米的消費者;商販B應該將其位置安置在750米的這個點上,可以方便500~1000米的消費者。
這樣的位置安置,商販A和商販B的收益都是均等的。人是“經濟人”,要追求個體利益最大化。假設商販A將其位置由250米處往前移動100米(即350米處),那麼,就意味著500~600米的消費者有一半屬於他的,也就是說,他的收益是0~500米,加上500~600米的一半消費者,其收益高於商販B;商販A這麼做,商販B也可以這樣做,將其位置向前移動100米(即650米處),此時,商販A和商販B的收益又均等了;假設商販A又將其位置移動到500米處,那麼,他的收益又比商販B的大了。商販A怎麼做,商販B也可以這樣做(將其位置移動到500米處),此時商販A和商販B的收益又均等了。他倆不斷的移動位置,最後在500米處,找到了倆人的均衡點。霍特林模型是典型的非合作均衡博弈,模型表明:雖然人們都在追求個體利益最大化,但最終還是會形成均衡。
霍特林模型雖然簡單,但寓意深刻。現實社會中,許多現象都屬於非合作均衡。如西方兩黨政治,為什麼兩黨的政治傾向越來越“傾同”;城市中的超市為什麼都集中在中心地區,而沒有散落在城市中的各個對方,是因為經營者都要追求個體利益的最大化,他們之間不斷地博弈,最終集中到了中心地區;農貿市場的攤位,為什麼是定期輪流交換位置,而沒有固定位置,是因為經營者都想得到“人口流動”最強的交通要道,最終隻有“輪流坐莊”;中小學學生的座位為什麼是定期輪流換位,而沒有固定座位,是因為學生家長都要求自己的小孩坐最佳的位置(二、三排),老師無法滿足每一個學生家長的要求,最終隻有“輪流換位”。在以上的這些博弈現象中,參與者都在追求個體利益的最大化,誰也不會謙讓誰。但是,最終還是到達了均衡,這種均衡即為納什均衡,也是一種非合作的均衡。
第九節塔克——博弈論經典:囚徒困境
沒有“囚徒困境”博弈的書,就不成為博弈論書。如果這樣講,一點也沒有誇張。因為,囚徒困境是博弈論中的經典博弈,也是博弈最為基礎的博弈理論。雖然困境本身隻屬模型性質,但現實中的價格競爭、環境保護等方麵,也會頻繁出現類似情況。許許多多的博弈理論,都包含在囚徒困境理論之中。學習博弈論、研究博弈論、探討博弈論,都不可回避囚徒困境這個博弈問題。而這個博弈理論是出自於誰之手呢?他就是——艾伯特·塔克。
艾伯特·塔克(AlbertTucker,1905年11月28日—1995年1月25日),是加拿大著名的數學家,在拓撲理論、博弈論和線性規劃方麵都做出了傑出的貢獻。塔克出生在加拿大安大略省的奧沙瓦,少年時期的塔克便顯現出對學術的熱愛,1928年和1929年他在多倫多大學獲得了學士學位和碩士學位,後來遠渡重洋,在普林斯頓大學師從著名數學家所羅門·萊夫謝茨,並於1932年獲得博士學位。博士畢業後的一年時間裏,他分別在劍橋大學、哈佛大學、芝加哥大學做研究員。1933年回到普林斯頓大學當教師,並一直工作到1974年。在普林斯頓教學期間,他擔任最長的職務是數學係主席,長達20年。
值得一提的是塔克培養的學生也都相當優秀,後來都成為世界知名的大家。其中約翰·納什和羅伊德·夏普利都是塔克的博士,他二人都是研究博弈論的大家,分別獲得1994年和2012年的諾貝爾經濟學獎。塔克曾經注意到具有領導能力和天賦的年輕的數學係畢業的學生約翰·G·凱梅尼,並建議達特茅斯學院(DartmouthCollege)雇用他。達特茅斯聽從塔克的建議招募了凱梅尼,後來他成為數學係的主席和以後的大學校長。
囚徒困境博弈成為博弈論研究中不可缺少的經典案例。在囚徒困境博弈研究的過程中,博弈專家找到了一種新的視角來思考衝突與合作的關係。社會科學一直試圖解釋衝突與合作的基本原因,且尋求其解決的路徑,然而累累不及,而博弈論重構人類互動行為的實驗分析,給人們一種新的視角來思考現實社會,許多衝突與合作的問題將得到解決的路徑。托馬斯·謝林認為,對衝突的研究有兩類:一類是把衝突看成是不好的狀態,尋找其原因及解決方案;另一類是以衝突為前提,研究衝突相關者的行為。博弈論的研究屬於後一種,且為分析衝突提供了一個新的分析框架和視角。
1950年,由就職於蘭德公司的梅裏爾·弗勒德(MerrillFlood)和梅爾文·德雷希爾(MelvinDresher)擬定出相關困境的理論,後來由顧問艾伯特·塔克(AlbertTucker)以囚徒方式闡述,並命名為“囚徒困境”。
以囚徒1為例:如囚徒1選擇坦白,囚徒2有坦白和不坦白的選擇,其概率各占50%,囚徒1的刑期有兩種結果:8年和0年。假設囚徒1選擇坦白,其刑期數學期望為A。則
A=8×50%+0×50%=4(年)
如囚徒1選擇不坦白,囚徒2有坦白和不坦白的選擇,其概率各占50%,囚徒1的刑期有兩種結果:10年和1年。假設囚徒1選擇不坦白,其刑期數學期望為B。則
B=10×50%+1×50%=5.5(年)
顯然A(“坦白”)小於B(“不坦白”),兩害相權取其輕,囚徒1會選擇“坦白”。對於囚徒2來說,情況與囚徒1完全相同,其策略選擇與囚徒1完全相同,“坦白”成為其必然選擇。所以,該博弈的最終結果是選擇“坦白——坦白”,獲得“-8——8”的得益組合。在“囚徒困境”博弈過程中,對參與人而言,“坦白”是優勢策略,所以納什均衡的組合是“坦白——坦白”,但人們都知道這個博弈還有一個結果,對雙方來說都是優勢策略——雙方合謀選擇“不坦白——不坦白”。在“囚徒困境”中,雙方“不坦白”才是最穩定的策略。如果從“個體理性”角度思考,“坦白”就是非理性選擇。
但是,為什麼會出現囚徒1和囚徒2選擇“坦白——坦白”(劣勢策略)而不選擇“不坦白——不坦白”(優勢策略)的衝突困境,個體的理性選擇卻導致了雙方不理想的結果,這就是“困境”所在,究其原因:其一,個體理性與集體理性的矛盾衝突,即從個體利益出發不能實現集體利益最大化。美國著名經濟學家奧爾森在《集體行動的邏輯》中說明個人理性不是實現集體理性的充分條件……納什均衡表明:從利己目的出發,結果是損人不利己,既不利己也不利他……其二,個體理性本身的內在矛盾衝突,即從個體理性最大化出發,其結果是個體利益最小化……“囚犯困境”本身實際上隱含著“囚犯”的原始動機是追求行為最大化,但是結果卻是非最大化;以承認行為最大化開始,以否定行為最大化結束;其三,一次博弈與重複博弈的矛盾衝突,即重複博弈的結果與一次博弈的結果剛好相反。在一次博弈中,人們均會不遺餘力地追求自身的利益最大化。在重複博弈中,因為未來的利益無限大,如果有人違背合作,其受到的懲罰也會更大,這樣人們自然會選擇合作。
美國著名經濟學家奧爾森在為桑德勒《集體行動》一書寫序時提到:所有的社會科學研究範疇,幾乎都是圍繞兩條定律展開,第一條定律:“有時當每個個體隻考慮自己利益的時候,會自動出現一種集體的理性結果”;第二條定律:“有時第一條定律不起作用,不管每個個體多麼明智地追尋自我利益,都不會自動出現一種社會的理性結果”……其實,“關於非合作博弈的研究表麵上是描述非合作的規律,更深的目標其實是尋找合作之路”……
以中國的教育為例,教育模式有兩種,即應試教育和素質教育。總的來講,前者扼殺學生的創造性,後者促進學生的全麵性發展。但是,在現有的教育體製下(尤其以高考為代表的教育機製),學生有兩個選擇:“應試教育”和“素質教育”。如果選擇“應試教育”,就意味著學生需要花大量的精力去做習題,也就沒有時間和精力參與課外的活動,因為隻有這樣,才有可能考高分;如果選擇“素質教育”,就意味著學生需要花大量的時間和精力去參與各項活動,也就沒有更多的時間和精力去做習題。“應試教育”的結果是學生獲得高分,“素質教育”的結果是學生的全麵發展。所以,在現有的博弈規則下,選擇“素質教育”策略的狀態是不穩定的,而選擇“應試教育”的策略狀態是穩定的。其原因是,目前的教育規則規定了各種行為的收益:獲得高分就會進入好的中學——好的大學——好的工作。學生和家長都為了追求個體利益的最大化,所以選擇“應試教育”是其必然。
在現有的教育體製、用人體製下,要讓人們都選擇素質教育,是不穩定的,而選擇應試教育,是穩定的納什均衡。其根本原因是,目前教育的博弈邏輯結構:高分就能讀上好的中學,“211”“985”大學,繼續讀碩士研究生、博士研究生,最終找到一個好的工作;目前用人的博弈邏輯結構:高學曆會帶來高職稱,以及相應的機會,如高學曆的薪酬待遇高、提拔的概率高。所以,隻要現行的教育體製沒有根本的改變、用人體製沒有根本的改變,隻要還存在著教育資源的短缺和分配不公,教育的“囚徒困境”博弈就依然存在。可以說,現今的教育、用人體製下,應試教育是博弈的納什均衡。所以,要使人們走出教育中的“囚徒困境”,一方麵需要提高各博弈主體的理性能力;另一方麵需要教育體製和用人體製的改革和創新,即打破既有的利益格局,改變博弈結構中的“支付函數”。
計劃生育中的博弈,實際上是政府與個體的博弈。政府製訂計劃生育政策是為了控製個體的超生行為,而個體在麵對政府的政策與自身個體利益最大化的選擇中,往往選擇後者,而不顧政府政策以及政府的相應處罰。
對博弈的得益情況進行分析:一是a與A:生育意願強者,既有的處罰對他而言,相對沒有太大的約束力,所以a>A;而生育意願不強者,既有的處罰對他而言,就有一定的約束力,所以a<A;二是b與B:生育意願強者,超生的得益大於不超生的得益,有b>d;而生育意願不強者,有b<B。當個體生育意願強時,納什均衡為超生;當個體生育意願不強時,納什均衡為不超生。處罰是強製性政策,獎勵是鼓勵性政策,處罰政策的執行成本遠遠高於獎勵政策。理想的結果是實現納什均衡是不超生,執行獎勵政策。
超生的終極想法——老無所養,所以,計劃生育的最終目的是要以更小的成本來控製人口增長,因此要不斷健全社會養老保障體係,轉變人們的傳統家庭觀念,以實現靠獎勵政策甚至人們的自覺行為來控製生育。
無論是囚徒困境中選擇“坦白”,還是教育模式中選擇“應試教育”、計劃生育中選擇“超生”,其實,他們的選擇都是一致的——追求個體利益最大化。隻是,囚徒困境是一種理論假設,而教育模式和計劃生育是真實的現實社會。
第十節史密斯——演化博弈論之父:演化博弈論
約翰·梅納德·史密斯(JohnMaynardSmith,1920—2004),英國蘇塞克斯大學教授。1982年,他係統地整理並論述了演化博弈論的研究成果並出版了著作《演化與博弈論》(EvolutionandtheTheoryofGames),奠定了演化博弈論的理論基礎,也成為演化博弈論領域的經典著作,也因此他被公認為演化博弈論之父。史密斯曾經獲得過1986年達爾文獎章,1991年意大利巴仁獎,1995年林奈獎章,1999年科普利獎章和克雷德生物科學獎,2001年京都獎。為了紀念這位理論生物學巨匠,蘇塞克斯大學將生命科學大樓改名為“約翰·梅納德·史密斯樓”,歐洲演化生物學會還設立了“約翰·梅納德v史密斯獎”,用以獎勵演化生物學領域的青年學者。
在經典博弈論中,假設參與人具有使自己支付最大化的主觀意識與對於對手策略的優勢反映能力,而在實際中,這種假設可能是不現實的。因而有必要把參與人的完全理性行為假設推廣為不完全理性行為的假設。在演化博弈中,認為參與人的選擇行為可以依據前人的經驗、學習和模仿他人行為、受遺傳因素的決定等。因而演化博弈把具有主觀選擇行為的參與人擴展為包括動物、植物在內的有機體。動植物參與者的支付可被了解為某種適應程度。演化博弈把博弈論的分析與應用,從研究人類的競爭行為擴展為研究有機體的策略互動關係。正如達爾文借用社會學家托馬斯·馬爾薩斯的觀點,擴展《物種起源》一樣,現在也需要借用達爾文的理論來擴展博弈論。研究動物王國所用的方法,稱為演化博弈論。演化博弈論是在生物學的進化論基礎上發展起來的,它將人類的經濟活動和社會的競爭性行為同生物的進化相類比,研究人類經濟行為和社會行為方式的均衡。博弈論最初是為研究經濟行為而設計的,但結果卻更好地應用到了生物學研究之中。演化博弈論是設定在一個更大的情境中:群體參與者,每個參與者都是經過選擇的。它們在策略選擇時,是給予確定的策略;每個參與者被設定了參與的規則,沒有自由的意誌發揮。演化博弈的“穩定性”替代了一般博弈論的“理性”概念。1961年列萬廷(Lewontin)首次將博弈理論運用到演化生物學中,描述物種與自然之間的博弈。1982年,約翰·梅納德·史密斯(JohnMaynardSmith)出版《演化與博弈論》,他把博弈論的思想納入到生物演化的分析中,被後人稱為“演化博弈論之父”。
(1)鷹鴿博弈:鷹鴿博弈,是博弈論中的一個基本模型,這一模型是零和博弈的發展。鷹與鴿之間的博弈,它們各自都有兩種策略:“戰鬥”“撤退”。
有一種博弈為“鷹鴿博弈”的轉化,叫“鬥雞博弈”:有兩隻公雞,它倆都有兩種選擇:一是向對方發起進攻;一是退卻下來。兩兩選擇就有四種情況:如果己方發起進攻,對方退卻,則進攻方(己方)勝利,退卻方失敗;如果對方發起進攻,己方退卻,對方獲勝,己方失敗;如果雙方都選擇退卻,則是平手;如果雙方都選擇進攻,則兩敗俱傷。
雙方都選擇進攻,結果是兩敗俱傷,所以兩者的得益均為-2;一方進攻,一方退卻,進攻方體現了“攻勢”贏得一分,退卻方輸一分;雙方都選擇退卻,體現“守勢”均輸一分。這個博弈有兩個均衡:一方進攻,另一方退卻。但是,誰進攻、誰退卻?如果一個博弈均衡隻有一個均衡點,那麼這個博弈可以預測其結果,但如果有兩個或兩個以上的博弈均衡,就無法預測其結果。
在鷹鴿博弈這個非常典型的零和博弈中,博弈雙方之間的利益是對立的。但是,在現實社會中,如果加入一些外在的條件、機製,經過演化博弈,就可能出現穩定的納什均衡。如機動車駕駛者甲和駕駛者乙在道路上相向行駛,在會車時,雙方如果均靠左行駛或右行駛,那麼雙方均可以相向順利通行。如果雙方沒有事先約定規則,而是隨機而行,那麼就有可能造成事故。為了規範道路交通秩序,各國政府都會做出相應的規定,使得博弈的均衡為兩個純策略納什均衡中的一個,而不是陷入混合策略納什均衡中。有些國家的政府規定“靠右行駛”的交通規則,有些國家的政府規定“靠左行駛”的交通規則。世界上2/3的國家是“靠右行駛”,1/3的國家是“靠左行駛”。中國以前是屬於英國的勢力範圍,所以,在1945年以前都是“靠左行駛”。抗戰勝利後,美國汽車大量進入中國,於是,民國政府規定,從1946年1月1日開始汽車“靠右行駛”。汽車的靠左右行駛的規定,延伸到公共汽車的“前門上”,“後門下”,以及乘地鐵、乘電梯的“先下後上”。
(2)智豬博弈:豬圈裏有兩頭豬,一頭大豬,一頭小豬。豬圈的旁邊有一個按鈕,每按一下按鈕,在遠離按鈕的投食口就會落下食物(10個)。如果一隻豬去按按鈕,另一隻豬就有機會搶先吃到食物。根據策略方式分析,應該有四種情況:即大豬和小豬同時按、大豬和小豬都不按、大豬按而小豬等待和小豬按而大豬等待。因為大豬、小豬去按或等待所得到的收益不同。現在問:兩隻豬將會采取什麼策略(按鈕或等待)?答案是:小豬等待,大豬按鈕。
為什麼會是大豬按鈕,小豬等待。好像隻能從理論的角度來分析,是可行的。而實際上,在現實社會中,大豬按鈕而小豬等待也是實際存在的,如股份有限公司,是大股東運作公司或是小股東運作公司也是顯而易見的;又如“重慶市渝中區的燈光工程照亮了南濱路”,“渝中區的燈光工程”是“大豬”(照亮城市),“南濱路”是“小豬”(想用美景),這也說明了其規律。策略均衡是一種新的均衡,是一種新的合作理念。理論假設中,人們都在追求個體利益最大化,但如果現實社會都像理論假設那樣,在“智豬博弈”中,無論是大豬或小豬,都不會去按按鈕。而在現實社會中,總會有大豬出現,去按按鈕。為什麼會去按,是因為大豬按,小豬等待是一種現實的均衡,如果我們沒有這樣一種思維、理念,社會就不會出現和諧、均衡。
其實,智豬博弈很好地解釋了“搭便車”行為,本來大豬是追求自身的利益,結果給小豬也帶來了利益,這裏的小豬是典型的“搭便車”者。因為,它坐享大豬的成果。這也在理論上解釋了為什麼公共物品總是由政府來提供,而不是由企業提供的原因。
(3)猴子的道德博弈實驗——合作與製約:科學家將四隻猴子關在一人密閉房間裏,每天喂很少食物,讓猴子餓得吱吱叫。幾天後,實驗者在房間上麵的小洞放下一串香蕉,一隻餓得頭昏眼花的大猴子一個箭步衝向前,可是當它還沒有拿到香蕉時,就被預設機關所潑出的滾燙熱水燙得全是傷,當後麵三隻猴子依次爬上去拿香蕉時,一樣被熱水燙傷。於是眾猴子隻好望“蕉”興歎。幾天後,實驗者換了一隻新猴子進入房內,當新猴子肚子餓得也想去吃香蕉時,立刻被其他三隻老猴子製止,並告知有危險,千萬不可嚐試。《博弈聖經》中說:優先預測悲劇後作出的忍讓是道德。實驗者再換一隻猴子進入房間內,當這隻猴子想吃香蕉時,有趣的事情發生了,這次不僅剩下的三隻猴子製止它,連沒被燙過的半新猴子也極力阻止它。實驗繼續著,當所有猴子都已換過之後,沒有一隻猴子曾經被燙過,上頭的熱水機關也取消了,香蕉唾手可得,卻沒有一隻猴子敢前去享用。所以,有一個博弈實驗:一群猴子被關在籠子裏,在籠子的一端有一條繩子,繩子拴著一個香蕉,繩子連著一個機關,機關由與一個水源相連。猴子去抓香蕉,就會帶動機關,噴出水來。也就是說,當一個猴子去抓香蕉,其他的猴子就會被水淋濕。即少數人得益,多少人遭殃。怎麼辦?聰明的猴子組織起來,不容許“一人得益,其他人遭殃”的行為。猴子們集體行動,誰去抓香蕉,所有猴子都去打它。這種協商性的約束也可以避免“不道德”的行為發生。
動物學的研究有相同的結論,性格溫順的雄鳥和雌鳥更能和睦相處,壽命也更長。夫強硬妻強硬是婚姻最不穩定的一種,大多數結局是離婚;夫強硬妻軟弱和妻強硬夫軟弱是最常見的一種,相對婚姻較穩定。
第十一節迪克西特——當代最具影響力的博弈論大師:非數理博弈論
阿維納什·K·迪克西特(AvinashK.Dixit)是當代數量經濟學研究領域的著名經濟學家,美國當代最負盛名的經濟學家之一,也是一位國際知名的、富有創新的經濟學家,也是第一個被授予美國經濟研究中心“傑出成員”的知名教授。於1944年出生在印度孟買,1963年獲孟買大學理學(數學)學士學位,1968年獲美國麻省理工學院經濟學博士學位,1977年當選計量經濟學會(EconometricSociety)院士,自1981年起一直在普林斯頓大學任經濟學教授,同時被世界多所知名大學聘為客座教授,曾在加州伯克利大學、牛津大學任教。1992年當選為美國藝術和科學研究院院士,2001年任計量經濟學會會長,2002年任美國經濟學聯合會副會長,2005年當選國家科學院院士。
阿維納什·K·迪克西特(與人合作),曾經出版過三本非數理博弈論書籍。《策略思維》(與巴裏·J·奈爾伯夫合作)——20世紀80年代國際上最為流行的通俗博弈論教科書之一。這本書的學術淵源,是迪克西特教授在普林斯頓大學開設的“策略博弈”課程而來的。保羅·A·沃爾克說:“我承認我從來沒把貨幣政策或政府看做一個博弈,不過,迪克西特和奈爾伯夫兩位教授非常巧妙地成功解釋了,在製定決策的時候無論身居要職者還是普通市民都會遇到的問題”;1970年諾貝爾經濟學獎得主薩繆爾森講:“要想在現代社會做一個有文化的人,你必須對博弈論有一個大致的了解。”迪克西特和奈爾伯夫提供了一把萬能鑰匙。克拉克經濟學獎得主史蒂芬·列維持評價:“這本精彩的書證明了博弈論既有趣又重要,絕對不該埋沒於不為人知的學術期刊中。我非常喜歡這本書,很難再找到與之相提並論的了,所以我讀了兩遍。”《策略思維》一書的中文版前言:“博弈論說的並不僅僅限於擊敗對方,這個理論同時解釋了建立合作與戰而勝之兩方麵的策略。也許這意味著我們應該將孫子兵法和托爾斯泰結合起來,變成《戰爭與和平的藝術》”……