2010-11-16 14:02:29期指贏家

艾克斯羅德重複博弈實驗

艾克斯羅德重複博弈實驗

博弈論(game theory)對人的基本假定是:人是理性的(rational,或者說自私的),理性的人是指他在具體策略選擇時的目的是使自己的利益最大化,博弈論研究的是理性的人之間如何進行策略選擇的。納什(John Nash)編制的博弈論經典故事"囚徒的困境",說明了非合作博弈及其均衡解的成立,故稱"納什平衡"。
    所有的博弈問題都會遇到三個要素。在囚徒的故事中,兩個囚徒是當事人(players)又稱參與者;當事人所做的選擇策略 (strategies)是承認了殺人事實,最後兩個人均贏得(payoffs)了中間的宣判結果。如果兩個囚徒之中有一個承認殺人,另外一個抵賴,不承認殺人,那麼承認者將會得到減刑處理,而抵賴者將會得到最嚴厲的死刑判決,在納什故事中兩個人都承認了犯罪事實,所以兩個囚徒得到的是中間的結果。類似的:我們也能從“自私的基因”等理論中看到“納什平衡”的體現。
    在互聯網這個原始叢林中:最優策略是如何產生的呢?
    一、博弈中最優策略的產生
    艾克斯羅德(Robert Axelrod)在開始研究合作之前,設定了兩個前提:

一、每個人都是自私的;

二、沒有權威干預個人決策。也就是說,個人可以完全按照自己利益最大化的企圖進行決策。在此前提下,合作要研究的問題是:

第一、人為什麼要合作;

第二、人什麼時候是合作的,什麼時候又是不合作的;
第三、如何使別人與你合作。
    社會實踐中有很多合作的問題。比如國家之間的關稅報復,對他國產品提高關稅有利於保護本國的經濟,但是國家之間互提關稅,產品價格就提高了,喪失了競爭力,損害了國際貿易的互補優勢。在對策中,由於雙方各自追求自己利益的最大化,導致了群體利益的損害。對策論以著名的囚犯困境來描述這個問題。

A和B各表示一個人,他們的選擇是完全無差異的。選擇C代表合作,選擇D代表不合作。
如果AB都選擇C合作,則兩人各得3分;如果一方選C,一方選D,則選C的得零分,選D的得5分;如果AB都選D,雙方各得1分。


顯然,對群體來說最好的結果是雙方都選C,各得3分,共得6分。如果一方選C,一方選D,總體得5分。如果兩人都選D,總體得2分。
    對策學界用這個矩陣來描述個體理性與群體理性的衝突:每個人在追求個體利益最大化時,就使群體利益受損,這就是囚徒困境。在矩陣中,對於A來說,當對方選C,他選D得5分,選C只得3分;當對方選D,他選D得1分,選C得零分。因此,無論對方選C或D,對A來說,選D都得分最多。這是A單方面的優超策略。而當兩個優超策略相遇,即A,B都選D時,結果是各得1分。這個結果在矩陣中並非最優。困境就在於,每個人採取各自的優超策略時,得出的解是穩定的,但不是帕累托最優的,這個結果體現了個體理性與群體理性的矛盾。
在數學上,這個一次性決策的矩陣沒有最優解。

    如果博弈進行多次,只要對策者知道博弈次數,他們在最後一次肯定採取互相背叛的策略。既然如此,前面的每一次也就沒有合作的必要,

因此,在次數已知的多次博弈中,對策者沒有一次會合作。
    如果博弈在多人間進行,而且次數未知,對策者就會意識到,當持續地採取合作並達成默契時,對策者就能持續地各得3分,但如果持續地不合作的話,每個人就永遠得1分。這樣,合作的動機就顯現出來。多次對局下,未來的收益應比現在的收益多一個折現率W,W越大,表示未來的收益越重要。在多人對策持續進行下去,且W比較大,即未來充分重要時,最優的策略是與別人採取的策略有關的。假設某人的策略是,第一次合作,以後只要對方不合作一次,他就永不合作。對這種對策者,當然合作下去是上策。假如有的人不管對方採取什麼策略,他總是合作,那麼總是對他採取不合作的策略得分最多。對於總是不合作的人,也只能採取不合作的策略。
 
  艾克斯羅德做了一個實驗,邀請多人來參加遊戲,得分規則與前面的矩陣相同,什麼時候結束遊戲是未知的。他要求每個參賽者把追求得分最多的策略寫成電腦程式,然後用單循環賽的方式將參賽程式兩兩博弈,以找出什麼樣的策略得分最高。


    第一輪遊戲有14個程式參加,再加上艾克斯羅德自己的一個隨機程式(即以50%的概率選取合作或不合作),運轉了300次。結果得分最高的程式是加拿大學者羅伯布寫的"一報還一報"(tit for tat)。
這個程式的特點是,第一次對局採用合作的策略,以後每一步都跟隨對方上一步的策略,
你上一次合作,我這一次就合作,
你上一次不合作,我這一次就不合作。
艾克斯羅德還發現,得分排在前面的程式有三個特點:

第一,從不首先背叛,即"善良的";

第二,對於對方的背叛行為一定要報復,不能總是合作,即" 可激怒的";

第三,不能人家一次背叛,你就沒完沒了的報復,以後人家只要改為合作,你也要合作,即"寬容性"。

    為了進一步驗證上述結論,艾氏決定邀請更多的人再做一次遊戲,並把第一次的結果公開發表。
第二次徵集到了62個程式,加上他自己的隨機程式,又進行了一次競賽。
結果,第一名的仍是"一報還一報"。艾氏總結這次遊戲的結論是:

第一,"一報還一報"仍是最優策略。
第二,前面提到的三個特點仍然有效,因為63人中的前15名裡,只有第8名的哈靈頓程式是"不善良的",後15名中,只有1個總是合作的是"善良的"。可激怒性和寬容性也得到了證明。此外,好的策略還必須具有的一個特點是"清晰性",能讓對方在三、五步對局內辨識出來,太複雜的對策不見得好。"一報還一報"就有很好的清晰性,讓對方很快發現規律,從而不得不採取合作的態度。

    二、合作的進行過程及規律

    "一報還一報"的策略在靜態的群體中得到了很好的分數,那麼,在一個動態的進化的群體中,這種合作者能否產生、發展、生存下去呢?群體是會向合作的方向進化,還是向不合作的方向進化?如果大家開始都不合作,能否在進化過程中產生合作?為了回答這些疑問,艾氏用生態學的原理來分析合作的進化過程。

    假設對策者所組成的策略群體是一代一代進化下去的,進化的規則包括:

一,試錯。人們在對待周圍環境時,起初不知道該怎麼做,於是就試試這個,試試那個,哪個結果好就照哪個去做。
第二,遺傳。一個人如果合作性好,他的後代的合作基因就多。第三,學習。比賽過程就是對策者相互學習的過程,"一報還一報"的策略好,有的人就願意學。按這樣的思路,艾氏設計了一個實驗,假設63個對策者中,誰在第一輪中的得分高,他在第二輪的群體中所占比例就越高,而且是他的得分的正函數。這樣,群體的結構就會在進化過程中改變,由此可以看出群體是向什麼方向進化的。

    實驗結果很有趣。"一報還一報"原來在群體中占1/63,經過1000代的進化,結構穩定下來時,它占了24%。另外,有一些程式在進化過程中消失了。其中有一個值得研究的程式,即原來前15名中唯一的那個"不善良的"哈靈頓程式,它的對策方案是,首先合作,當發現對方一直在合作,它就突然來個不合作,如果對方立刻報復它,它就恢復合作,如果對方仍然合作,它就繼續背叛。這個程式一開始發展很快,但等到除了"一報還一報"之外的其它程式開始消失時,它就開始下降了。因此,以合作係數來測量,群體是越來越合作的。


    進化實驗揭示了一個哲理:一個策略的成功應該以對方的成功為基礎。"一報還一報"在兩個人對策時,得分不可能超過對方,最多打個平手,但它的總分最高。它賴以生存的基礎是很牢固的,因為它讓對方得到了高分。哈靈頓程式就不是這樣,它得到高分時,對方必然得到低分。它的成功是建立在別人失敗的基礎上的,而失敗者總是要被淘汰的,當失敗者被淘汰之後,這個好占別人便宜的成功者也要被淘汰。
    那麼,在一個極端自私者所組成的不合作者的群體中,"一報還一報"能否生存呢?艾氏發現,在得分矩陣和未來的折現係數一定的情況下,可以算出,只要群體的5%或更多成員是"一報還一報"的,這些合作者就能生存,而且,只要他們的得分超過群體的總平均分,這個合作的群體就會越來越大,最後蔓延到整個群體。反之,無論不合作者在一個合作者占多數的群體中有多大比例,不合作者都是不可能自下而上的。這就說明,社會向合作進化的棘輪是不可逆轉的,群體的合作性越來越大。艾克斯羅德正是以這樣一個鼓舞人心的結論,突破了"囚犯困境"的研究困境。

    在研究中發現,合作的必要條件是:

第一、關係要持續,一次性的或有限次的博弈中,對策者是沒有合作動機的;
第二、對對方的行為要做出回報,一個永遠合作的對策者是不會有人跟他合作的。
    那麼,如何提高合作性呢?

首先,要建立持久的關係,即使是愛情也需要建立婚姻契約以維持雙方的合作。(火車站的小販為什麼要騙人?為什麼工作中要形成小組制度?換防的時候一方總是要小小地進攻一下的,在中越前線就是這樣)
第二、要增強識別對方行動的能力,如果不清楚對方是合作還是不合作,就沒法回報他了。
第三、要維持聲譽,說要報復就一定要做到,人家才知道你是不好欺負的,才不敢不與你合作。
第四、能夠分步完成的對局不要一次完成,以維持長久關係,比如,貿易、談判都要分步進行,以促使對方採取合作態度。
第五、不要嫉妒人家的成功,"一報還一報"正是這樣的典範。第六、不要首先背叛,以免擔上罪魁禍首的道德壓力。
第七、不僅對背叛要回報,對合作也要作出回報。第八、不要耍小聰明,占人家便宜。(打橋牌和打麻將的區別)

    艾克斯羅德在《合作的進化》一書結尾提出幾個結論。
第一、友誼不是合作的必要條件,即使是敵人,只要滿足了關係持續,互相回報的條件,也有可能合作。比如,第一次世界大戰期間,德英兩軍在戰壕戰中遇上了三個月的雨季,雙方在這三個月中達成了默契,互相不攻擊對方的糧車給養,到大反攻時再你死我活地打。這個例子說明,友誼不是合作的前提。
第二、預見性也不是合作的前提,艾氏舉出生物界低等動物、植物之間合作的例子來說明這一點。但是,當有預見性的人類瞭解了合作的規律之後,合作進化的過程就會加快。這時,預見性是有用的,學習也是有用的。

    當遊戲中考慮到隨機干擾,即對策者由於誤會而開始互相背叛的情形時,吳堅忠博士經研究發現,以修正的"一報還一報",即以一定的概率不報復對方的背叛,和 "悔過的一報還一報",即以一定的概率主動停止背叛。群體所有成員處理隨機環境的能力越強,"悔過的一報還一報"效果越好,"寬大的一報還一報"效果越差。
  
    三、艾克斯羅德的貢獻與局限性

    艾克斯羅德通過數學化和電腦化的方法研究如何突破囚徒困境,達成合作,將這項研究帶到了一個全新境界,他在數學上的證明無疑是十分雄辯和令人信服的,而且,他在電腦類比中得出的一些結論是非常驚人的發現,比如,總分最高的人在每次博弈中都沒有拿到最高分。(劉邦和項羽的戰爭)

艾氏所發現的"一報還一報"策略,從社會學的角度可以看作是一種"互惠式利他",這種行為的動機是個人私利,但它的結果是雙方獲利,並通過互惠式利他有可能覆蓋了範圍最廣的社會生活,人們通過送禮及回報,形成了一種社會生活的秩序,這種秩序即使在多年隔絕,語言不通的人群之間也是最易理解的東西。比如,哥倫布登上美洲大陸時,與印地安人最初的交往就開始於互贈禮物。有些看似純粹的利他行為,比如無償損贈,也通過某些間接方式,比如社會聲譽的獲得,得到了回報。研究這種行為,將對我們理解社會生活有很重要的意義。

    囚徒困境擴展為多人博弈時,就體現了一個更廣泛的問題──"社會悖論",或"資源悖論"。人類共有的資源是有限的,當每個人都試圖從有限的資源中多拿一點兒時,就產生了局部利益與整體利益的衝突。人口問題、資源危機、交通阻塞,都可以在社會悖論中得以解釋,在這些問題中,關鍵是通過研究,制定遊戲規則來控制每個人的行為。

    艾克斯羅德的一些結論在中國古典文化道德傳統中可以很容易地找到對應,"投桃報李"、"人不犯我,我不犯人"都體現了"tit for tat"的思想。但這些東西並不是最優的,因為"一報還一報"在充滿了隨機性的現實社會生活裡是有缺陷的。對此,孔子在幾千年前就說出了"以德報德,以直報怨"這樣精彩的修正策略,所謂"直",就是公正,以公正來回報對方的背叛,是一種修正了的"一報還一報",修正的是報復的程度,本來會讓你損失5分,現在只讓你損失3分,從而以一種公正審判來結束代代相續的報復,形成文明。

    但是,艾氏對博弈者的一些假設和結論使其研究不可避免地與現實脫節。首先,《合作的進化》一書暗含著一個重要的假定,即,個體之間的博弈是完全無差異的。現實的博弈中,對策者之間絕對的平等是不可能達到的。一方面,對策者在實際的實力上有差異,雙方互相背叛時,可能不是各得1分,而是強者得5分,弱者得0分,這樣,弱者的報復就毫無意義。另一方面,即使對局雙方確實旗鼓相當,但某一方可能懷有賭徒心理,認定自己更強大,採取背叛的策略能佔便宜。艾氏的得分矩陣忽視了這種情形,而這種賭徒心理恰恰在社會上大量引發了零和博弈。因此,程式還可以在此基礎上進一步改進。

    其次,艾氏認為合作不需預期和信任。這是他受到質疑頗多之處。對策者根據對方前面的戰術來制定自己下面的戰術,合作要求個體能夠識別那些曾經相遇過的個體並且記得與其相互作用的歷史,以便作出反應,這些都暗含著"預期"行為。在應付複雜的對策環境時,信任可能是對局雙方達成合作的必不可少的環節。但是,預期與信任如何在電腦的程式中體現出來,仍是需要研究的。

    最後,重複博弈在現實中是很難完全實現的。一次性博弈的大量存在,引發了很多不合作的行為,而且,對策的一方在遭到對方背叛之後,往往沒有機會也沒有還手之力去進行報復。比如,資本積累階段的違約行為,國家之間的核威懾。在這些情況下,社會要使交易能夠進行,並且防止不合作行為,必須通過法制手段,以法律的懲罰代替個人之間的"一報還一報",規範社會行為。這是艾克斯羅德的研究對制度學派的一個重要啟發。

 

 

有限次重複博弈
什麼是有限次重複博弈
  有限次重複博弈是指相同結構的博弈有限次重複進行。在有限次重複博弈中,參與者會欺騙和違約,但當參與者不知道哪一次是末期時,決策近於無限次博弈。
  如果是有限期的重複博弈,情況就有所不同了。用逆推法來分析博弈過程,可以表明,參與者若明確合作到了最後一期,以後不會再有重複博弈,那麼,最後一期的博弈和一次性的博弈就沒有區別,參與者的欺騙和違約行為是不可能被報復的,於是最後一期單個參與者的占優策略就是不合作的欺騙或違約。逆推到前一期,每個參與者都推知以後將不合作,所以也不會合作。如此等等,在有限次重複博弈中,囚犯困境博弈的納什均衡是參與者的不合作。
  例:一個男孩被視為傻瓜,因為每當別人拿一枚1角硬幣和5分硬幣讓他選的時候,他總是選5分的,有一個人覺得奇怪,就問他:“為什麼你不拿1角錢的?”,男孩小聲回答:“假若我拿了1角錢的硬幣,下次他們就不會拿錢讓我選了。”

有限次重複博弈與無限次重複博弈的區別
  無限次重複博弈沒有結束重複的確定時間。在有限次重複博弈中,存在最後一次重複正是破壞重複博弈中局中人利益和行為的相互制約關係,使重複博弈無法實現更高效率均衡的關鍵問題。
  無限次重複博弈不能忽視不同時間得益的價值差異和貼現問題,必須考慮後一期得益的貼現係數,對局中人和博弈均衡的分析必須以平均得益或總得益的現值為根據。
  無限次重複博弈與有限次重複博弈的共同點:試圖“合作”和懲罰“不合作”是實現理想均衡的關鍵,是構造高效率均衡戰略的核心構件。


什麼是無限次重複博弈
  無限次重複博弈是指同一個博弈被無限次重複多次。在無限次重複博弈中,對於任何一個參與者的欺騙和違約行為,其他參與者總會有機會給予報復。
  由於在無限次重複博弈中,報復的機會總是存在的,如不再與其合作。這樣一來,違約或欺騙方會遭受長期的慘重損失,因此每個參與者都不會採取違約或欺騙的行為,囚犯困境合作的均衡解是存在的。
無限次重複博弈的特徵[1]
  無限次重複博弈是不存在可作為最後一階段的最後一次博弈, 這使得普通的逆推歸納法無法直接運用。同時, 分析無限次重複博弈沒有合適的判斷依據, 其原因有二:無限次重複博弈的階段得益總和在很多情況下都趨於無窮大;無限次重複博弈在現實中是一個漫長的過程。
  由於心理上的原因和實際利益的影響, 人們更看重於近期利益, 而對長期利益相對看輕, 因此在分析無限次重複博弈時, 首先應解決不同期得益對博弈方決策的影響的問題。

 


動物神算 學者批只是強運

 

章魚哥神準預測比賽的能力經各國媒體揭露後,似乎惹惱了學者,他們出面反駁,認為章魚哥的預測功力,純粹建立在「強運」基礎上。


德國章魚哥已準確命中6次世界盃比賽勝負,英國巴斯大學(University of Bath)數學系教授布德(Chris Budd)認為,就算擁有豐富足球經驗人士預測賽果都失敗,若把章魚的預言當真,才真的是荒謬。


世界盃16強開始,結果只有輸贏,也意味猜中的機會是2分之1,布德拿硬幣來比喻,「連續猜中6次人頭或數字,機率是64分之1,這不像猜樂透,要能命中樂透開獎號碼,機率只有1400萬分之1。」


英國劍橋大學風險管理教授史派格哈特(David Spiegelharter)也附和說:「保羅(章魚哥)的預測純粹只是運氣好。」史派格哈特同樣拿硬幣來比喻:「如果一個人擲銅板能連續10次都是人頭朝上,這沒什麼了不起,重要的是他下一次擲出來的結果是什麼?」史派格哈特的說法,解釋了章魚哥近來爆紅主因。


不論章魚哥是運氣好還是真有「特異功能」,英國賭博網站發言人坦言,的確有不少賭客衝著章魚哥來下注,「很多人到了店面後,告訴我們要等保羅預測出爐再押注,不過,他們大多只買5至10英鎊不等,金額並不高。」

===================================================================================================================

賽局理論中的雙贏策略

一、 前言

 

  商場並不同於戰場,因為戰爭是一種你死我活的零合遊戲(Zero-sum Game或稱Win-lose Game),但商場卻經常可以追求雙贏(Win-win Game )。運用賽局理論(Game Theory)的分析方法,將有助於我們發展出雙贏的經營策略。Game Theory的奠基,是由Von Neumann﹐ Morgenstern等二人在1944年所著Theory of Games and Economic Behavior一書。他們將賽局分為規範性賽局(rule-based games) 與自由式賽局(freewheeling games)等兩類,前者參賽的規則明確且參賽者的各種反應是可以預知的,但後者沒有明確的規則限制,參賽者互動可有較大的變化空間。一般而言,商業競爭經常同時兼具兩種賽局的特性,但以自由式賽局的思維比較容易創造雙贏的機會。

 

  自由式賽局的原則是,每位參賽者所贏得的不能超過他對於整場賽局的貢獻(you can not take away more than your added value)。所以重點將在於如何在賽局中創造價值(added value),而不是如何掠奪自他人的成果。由於經常需要所有參賽者齊心協力經營這場賽局,才能增加整體賽局的價值,並使每一個參賽者獲得較大的報酬。因此當一場賽局的獎賞,要靠其他參賽者的配合才能獲得,則就比較會採行合作雙贏的策略。

 

  在創造雙贏的賽局中,如何改變賽局進行的方式,要比打倒對方還要來的重要。例如,當市場處於供過於求的情況,彼此以降價進行流血競爭,最後必然沒有真正的贏家。處此情境,如能思考如何改變市場環境與競爭規則,使所有有實力的競爭者,都能獲得合理的市場佔有率與利潤空間,這就是一種雙贏的策略。

 

 

圖一 賽局中參賽者的網絡關係

 

二、 競合理論之一些基本原則

 

  我們將自由式賽局中追求雙贏的策略稱之為競合理論(Co-opetition),以下為競合理論中的一些基本原則:

 

 在實力不足的情況下,不要向跟你有重大利害關係的對象進行直接的對抗。

 在實力不足的情況下,妳與對手合作的利益將可能要大於對抗的利益。因此要設法尋求與對手合作的機會,而合作的基礎在於你對於妳的對手可以帶來多少的價值。

 當妳必須依賴妳的對手才能產生價值,那妳此時就受制於人。因此在賽局中要盡量使妳的對手依賴你,才能顯示出妳在賽局中的價值與地位。

 如果想要不戰而退敵,妳必須要事先能夠提出足以阻嚇他人的明顯事實證據。

 當妳的對手有更重要的對手時,妳在賽局中的地位與價值將會因此而提昇。因為大家都想利用你、聯合你,且不想與妳為敵。(聯合次要敵人,打擊主要敵人)

 賽局中的遊戲規則如果由實力強的一方來訂定,那麼弱者將很難有獲勝的機會。此時弱者唯有尋求改變遊戲規則,或打翻棋盤,或另起爐灶。

 強者在賽局中一定要保留給弱者一些可以生存的空間,以避免弱者退出棋局,或做出意外的極端舉動。

 在賽局中求勝的原則就是盡量增加妳的價值,可採取的手段包括選擇性的與對手合作、降低對手的價值、改變遊戲規則、改變遊戲的範圍、防止對手不理智的舉動…等。由於直接衝突與對抗多半隻會減少賽局的整體價值,因此能避則避之。所謂競合理論就是在競爭與合作的過程中,來增加自己在賽局中的價值。

 通常只要參賽就會具有價值,但價值不會自動出現,參賽者必須要有能夠主動創造價值的策略性手段。

 只要妳的發展不會直接威脅到他人,就不會引發對抗。對抗經常會帶來雙輸,因此要能避戰而不畏戰。能避戰是智者,不畏戰是強者,好戰是愚者,以戰求和是勇者。

 不要與好戰者處於同一個戰場,盡量尋求在不同市場區隔中發展,而不要直接在同一個戰場上直接對抗。

 在複雜世界中,沒有真正的零合賽局,永遠都存在可以互利、妥協的雙贏空間。

 賽局中的勝利主要建立在自己本身的獲益程度,而不是建立在對手失敗的基礎上,慘勝就是失敗。

國立政治大學

博弈理論

 

博弈理論(game theory,或譯賽局理論、競局理論、對局論、局論)所探討的是互動行為(interactive behavior):我的計算必須考慮你的計算,而你的計算也考慮了我的計算。當所有人的計算都考慮到其他人的計算,結果是什麼?互動式的計算無所不在,所以博弈理論的影響也隨處可見,從數學、哲學、資訊科學、生物學到各類社會科學都可發現其蹤跡。然而,由於該理論慣常使用數學語言,常使人望之卻步,錯失瞭解的機會。本課程的宗旨有三。第一,讓修習者明瞭博弈理論對於分析群體現象的不可或缺性。第二、讓修習者對博弈理論有一個初步的瞭解,至少成為「明智的消費者」,而非「不明智的使用者」。第三,我們更希望透過此課程,讓修課者產生學習更高階博弈理論的興趣,或將理論運用到自己的研究上。

 

本課程並不要求修課者有很好的數學基礎。基本上,只要會加減乘除並有邏輯觀念,以及一顆好奇與喜愛思考的心就行了。修好本課的祕訣在於不斷地思考與演練。當然,授課教師會儘量將課講地清楚、有趣。分數取決於課後所發的作業,及期末報告一篇。如果要學好,就必須認真做課後作業。如果課後不複習,很快就會忘記課堂所學,並加深學習上的挫折。這堂課的成績是由課後作業60%與期末報告40%所決定。課後作業請交word檔。課堂上會討論如何用word書寫數學符號或畫賽局圖。期末報告必須在倒數第二堂課做主題和大綱報告,並在最後一堂課後的一個月內e-mail給授課教師。

以下所列的是教材及進度表。進度表涵蓋了初級博弈理論的主要課題。我們希望循序漸進,因此每個子題所佔的授課時數依修課者的學習狀況而定。本學期不一定能教完所有的課題,但認真修完本課應可具備進一步自修的能力。基本上,授課老師會準備自己的授課內容,但會配合以下教材的相關進度。

 

理性與感性 賽局理論解讀大腦

 
 
別再說血拚不理性,學者研究顯示,這可是經過理性的思考!台大和陽明大學結合著名賽局理論和腦神經科學,發現理性和直覺思考,是大腦不同區域掌理,論文昨天刊登在《Science》科學雜誌,這也是台灣首次有經濟議題論文刊登在該雜誌。

論文作者包括台大經濟系副教授黃貞穎、陽明神經科學研究所助理教授郭文瑞、美國羅格斯大學經濟系教授Tomas Sjostrom、台大經濟系碩士生陳瑀屏及大電機系畢業生王彥襄,這篇論文不但跨國、跨校,且結合人文和自然領域。

黃貞穎應用經濟學兩種典型的賽局理論,再分析受試者在不同情境時的大腦活動,找出人腦在做決定時的神經變化。黃貞穎表示,推理型思考主宰的「優勢可解賽局」,推理過程因有依循步驟,所以較緩慢;「協調賽局」思考過程相對快速,但易受情緒影響,較屬直覺思考。

她舉例,買股票前,大家通常會先參考公司財務報表,理性篩選出幾支股票,但真正下決定時,則多靠直覺;另如愛情降臨時,雖然是直覺的一時被電,但實質上會理性考量人品、個性再做選擇。

郭文瑞說,研究結果指出,在進行推理思考時,人類大腦皮質的前額葉及顱葉活化程度較高。

但偏向直覺思考時,大腦中的腦島及前扣帶皮質區相對活躍;最近研究顯示,此大腦區域與人類很多社會行為相關,如合作、信任、同理心,甚至是愛情。

他表示,這類社會性行為多伴隨著複雜而交織的因素,決策需要迅速找出關鍵適當方式,這與「協調賽局」受試者必須快速仰賴直覺找出焦點所在,有相當程度的相似。

黃貞穎指出,探討經濟行為大腦表現的神經經濟學,經濟研究結合神經科學,是新興研究領域,這次研究以功能性磁振造影技術分析參與者大腦活動。郭文瑞表示,這也是目前少有的研究主題。

新聞辭典》賽局理論

賽局理論(Game Theory)原本是應用數學的分支,但目前在生物學、經濟學、國際關係、軍事戰略和很多學科都被廣泛應用。

只要有利益衝突的地方,就有賽局。例如檢察官將兩名共犯分開就訊,兩人都不說,法官未必能查得出,但是「坦白從寬、說謊從嚴」。兩犯人就會反覆推演,說或不說才能為自己爭取最大利益,這就是賽局理論中最著名的「囚徒兩難賽局」(Prisoner's dilemma)。

優勢可解賽局(dominance solvable game)即是在參局者無法溝通下,要反覆思考、推理後,和對方同時做選擇,如果兩人的選擇符合目標,可達到雙贏。「囚徒兩難賽局」屬此類。

「協調賽局」(coordination game)是指在無法溝通情形情況下,和對方同時做出選擇,如果兩人相同,就可達到雙贏。如兩人狹路相逢,都走右邊或左邊,就不會相撞;或在幾個數字中兩人都選出相同的字,仰賴直覺,思考快,但易受情緒影響。
 

賽局高手


如果人生如棋局局新, 而棋與局我都不太懂, 只好以無招面對老天爺所設好的局.

看到以下這一則新聞, 突然想起曾有位台大EMBA書卷獎得主送我這麼一本書--棋局高手. 2003年看了第一次, 一知半解收獲有限, 有機會應該再看第二回, 融入這些年的生活經驗, 應該會了解更多一些.

推這一本書的理由,1.  一本會刺激思考的書,  2. 人生的最適解, 不一定是最佳解 ..

書摘簡介:

人生無處不權謀,策略選擇隨時隨地出現在每一個生活的小細節,甚至包括每天上班的交通動線選擇。賽局理論其實就是一種策略思考,透過策略推估,尋求自己的最大勝算或利益,從而在競爭中求生存。賽局理論是數學的一個分支,在社會科學上應用卻極為廣泛,人際關係的互動、球賽或橋牌的出招、股市的投資、乃至國際關係中的戰與和,影響二十世紀人類社會至深。


++++++++++++++++++++++++++++++++++++++++++++++++++++++

 

理性與直覺思考 賽局理論可解


 

【記者鄭恆峰報導】「買股票要理性,談戀愛靠感性?」這可不一定。台大昨日發布消息指出,由該校經濟系副教授黃貞穎領導的研究團隊,結合賽局理論與腦神經科學研究結果,發現人類的理性與直覺思考,分別是由大腦不同區域管理,該論文近日也或獲登在「Science科學」雜誌。


由黃貞穎帶領,與陽明神經科學研究所助理教授郭文瑞等人組成的跨校研究團隊,以兩種典型的賽局理論,設計實驗「優勢可解賽局」與「協調賽局」,同時以「功能性磁振造影」技術分析參與者的大腦活動,找出兩種賽局背後隱含的神經心理歷程。


他們發現,人類的推理與直覺過程,運用截然不同的大腦皮質活化區及不同的活化程度。


黃貞穎說,透過實驗發現,「優勢可解賽局」為一種推理過程,且所有所依循步驟,因此思考過程緩慢,偏向理性思考,人類大腦皮質的前額葉及顱葉活化程度則較高。然而在「協調賽局」中,則偏向直覺型思考,使得大腦中的腦島及前扣帶皮質區相對活躍,情緒也容易受到影響,屬於感性思維範疇。


黃貞穎表示,以股票投資為例,一般人會參考各公司的財務報表,理性選擇投資標的股,但真正買進或賣出時,仍常以持續性的直覺做決定。另外,當人陷入熱戀時,雖然看似是直覺感性的「一見鍾情」,但實際上仍會將對方的人品、個性列入考量。


郭文瑞也指出,這種類型的社會性行為,經常伴隨著多重的考量因素,決策需要迅速找出關鍵適當方式,這與「協調賽局」受試者必須快速仰賴直覺找出焦點所在,有相當程度的相似。


賽局理論來自於西方國家,探討當個體面臨利害衝突時,其謀略運用之學。其中最有名的例子是「囚犯困境」,指出個人經過評估後的理性決定,不一定為團體的最佳選擇。該理論由諾貝爾得獎者納許提出,其故事後來被改編為電影「美麗境界」,引發各界對賽局理論的熱烈討論。

 


賽局理論

 

賽局理論(Game Theory),有時也稱為對策論,或者博弈論,應用數學的一個分支,目前在生物學、經濟學、國際關係、計算機科學、政治學、軍事戰略和其他很多學科都有廣泛的應用。主要研究公式化了的激勵結構(遊戲或者博弈(Game))間的相互作用。是研究具有鬥爭或競爭性質現象的數學理論和方法。也是運籌學的一個重要學科。 賽局理論考慮遊戲中的個體的預測行為和實際行為,並研究它們的優化策略。 表面上不同的相互作用可能表現出相似的激勵結構(incentive structure),所以他們是同一個遊戲的特例。其中一個有名有趣的應用例子是囚徒困境(Prisoner's dilemma)。

具有競爭或對抗性質的行為成為博弈行為。在這類行為中,參加鬥爭或競爭的各方各自具有不同的目標或利益。為了達到各自的目標和利益,各方必須考慮對手的各種可能的行動方案,并力圖選取對自己最為有利或最為合理的方案。比如日常生活中的下棋,打牌等。賽局理論就是研究博弈行為中鬥爭各方是否存在著最合理的行為方案,以及如何找到這個合理的行為方案的數學理論和方法。

生物學家使用博弈理論來理解和預測演化(論)的某些結果。例如,John Maynard Smith 和George R. Price 在1973年發表於《自然》雜誌上的論文中提出的「evolutionarily stable strategy」的這個概念就是使用了博弈理論。還可以參見演化博弈理論(evolutionary game theory)和行為生態學(behavioral ecology)。

賽局理論也應用於數學的其他分支,如機率,統計和線性規劃等。

1 數學定義
1.1 正規形式的博弈(Normal form game)
1.2 展開形式的博弈(Extensive form game)
2 賽局理論簡史
2.1 當代賽局理論領軍人物
3 博弈分類
4 賽局理論相關概念
5 參考書目
6 外部連結
 
數學定義
對於「博弈」(game)有不少可以互換的定義。 這裡給出簡短的介紹和相互關係的說明。

[編輯] 正規形式的博弈(Normal form game)
正規形式的博弈又被譯為正則形式的博弈、策略型賽局或標準型賽局。

設定 N 是一個「參與者」(players)的集合。對於每一個「參與者」 都有一個給定的「策略」集合. 博弈(遊戲)是一個函數, 定義為:


也就是說,如果我們知道了參與者的策略集合是什麼,那麼就可以有一個實數值與之對應。 我們可以把上面的方程拆成兩個方程來進一步把它一般化。一個方程是正則形式(Normal form game)的參與者程,描述策略規定結果的方式。 另外一個方程描寫參與者對於結果(outcome)集合的偏好(preference)。也就是:


這裡  是遊戲(博弈)的結果集合(outcome set)。對於每一個參與者 都有一個偏好函數( preference function)

.
展開形式的博弈(Extensive form game)
展開形式的博弈又可譯為擴展形式的博弈、擴展式賽局或擴展型賽局。

正則形式的定義為數學家們提供了「均衡」(equilibria)問題的研究一個容易使用的表達式。 因為它避免了怎麼計算「策略」的問題,也就是說遊戲是怎麼進行的問題。 處理這類問題的一個比較方便的表達式, 是展開形式的博弈。 這個形式與組合賽局理論關係密切。 這個定義通過一個樹的形式給定。在樹的每一個節點(vertex),不同的參與者選擇一個邊(edge)。

賽局理論簡史
對於賽局理論的研究,開始於策墨洛(Zermelo,1913),波雷爾(Borel,1921)及馮·諾伊曼(von Neumann, 1928),後來由馮·諾伊曼和奧斯卡·摩根斯坦(von Neumann and Morgenstern,1944,1947)首次對其系統化和形式化(參照Myerson, 1991)。隨後約翰·福布斯·納什(John Forbes Nash Jr., 1950, 1951)利用不動點定理證明了均衡點的存在,為賽局理論的一般化奠定了堅實的基礎。

當代賽局理論領軍人物
約翰·福布斯·納什、約翰·C·海薩尼,以及萊因哈德·澤爾騰。這三人同時因為他們對賽局理論的突出貢獻而獲得1994年的瑞典銀行經濟學獎(也稱諾貝爾經濟學獎)。
羅伯特·J·奧曼、肯·賓摩爾、戴維·克瑞普斯,以及阿里爾·魯賓斯坦。

 

博弈分類
博弈的分類根據不同的基準也有不同的分類。一般認為,博弈主要可以分為合作博弈和非合作博弈。它們的區別在於相互發生作用的當事人之間有沒有一個具有約束力的協議,如果有,就是合作博弈,如果沒有,就是非合作博弈。

從行為的時間序列性,賽局理論進一步分為兩類:靜態博弈是指在博弈中,參與人同時選擇或雖非同時選擇但後行動者並不知道先行動者採取了什麼具體行動;動態博弈是指在博弈中,參與人的行動有先後順序,且後行動者能夠觀察到先行動者所選擇的行動。通俗的理解:"囚徒困境"就是同時決策的,屬於靜態博弈;而棋牌類遊戲等決策或行動有先後次序的,屬於動態博弈

按照參與人對其他參與人的了解程度分為完全信息博弈和不完全信息博弈。完全博弈是指在博弈過程中,每一位參與人對其他參與人的特徵、策略空間及收益函數有準確的信息。如果參與人對其他參與人的特徵、策略空間及收益函數信息了解的不夠準確、或者不是對所有參與人的特徵、策略空間及收益函數都有準確的準確信息,在這種情況下進行的博弈就是不完全信息博弈。

目前經濟學家們現在所談的賽局理論一般是指非合作博弈,由於合作賽局理論比非合作賽局理論複雜,在理論上的成熟度遠遠不如非合作賽局理論。非合作博弈又分為:完全信息靜態博弈,完全信息動態博弈,不完全信息靜態博弈,不完全信息動態博弈。與上述四種博弈相對應的均衡概念為:納什均衡(Nash equilibrium),子博弈精鍊納什均衡(subgame perfect Nash equilibrium),貝葉斯納什均衡(Bayesian Nash equilibrium),精鍊貝葉斯納什均衡(perfect Bayesian Nash equilibrium)。

賽局理論還又很多分類,比如:以博弈進行的次數或者持續長短可以分為有限博弈和無限博弈;以表現形式也可以分為一般型(戰略型)或者展開型,等等。

[編輯] 賽局理論相關概念
納什均衡
囚徒困境
重複博弈
大眾定理
信息
帕累托最優
零和博弈
非零和博弈
微分包含式

 

 

學上賽局理論(Game Theory)推演邏輯為基礎,教人如何在商場上交易、協商及做決策。作者指出,在賽局理論的領域中,每個人的行為都是以本身的利益為出發點,其應用在日常生活中,則諸如買保險、玩股票、約會、甚至在公司組織中與老闆 員工 同事間的互動等,在在皆可運用到賽局理論以取得勝算或打開僵局。提到賽局理論絕不會漏掉傳奇人物納許(John F. Nash),他提出許多有關賽局理論的重要論文,其中最著名的均衡理論( N a s hE q u i l i b r i u m)更獲得1 9 9 4年的諾貝爾經濟學獎的肯定。有關納許的生平故事已出版成專書《美麗境界》甚至拍成電影。就如同我國古代名著《孫子兵法》所強調的「知己知彼」等策略,賽局理論主要在教人如何推演對手可能的想法,並且運用已知的與推估出的關鍵訊息,進而「掌握機先」,在競爭中勝出。對於從未接觸過賽局理論,好奇想要一窺究竟,卻又被其「數學」的外表弄得心虛卻步的一般大眾而言,本書相當適合做為初級的入門書,因為作者已貼心的將艱澀難懂的數學運算減到最少,且儘量利用生活化的案例及簡單的圖表來說明,使得其中的理論部分不至於又冷又硬。由於注重理論的實際運用,此書多以淺顯易懂的方式探討賽局理論在經濟、政治、社會與人際關係等各個層面的應用,希望讀者能輕鬆掌握商業布局、事業格局,看清混沌的時局與政局,並在思維上解開困局、突破僵局。本書第一章即從生活中管教小孩常用的策略如威脅、承諾等方式,漸次引出序列賽局的分析,同時還顛覆了傳統概念中對於「誠實=好」、「不理性=不好」的觀念。第二章的主題為企業最重視的「利潤」以及價格戰的危機,同時說明商場對手間彼此對價格上漲或降價策略的考量。在第三章同步賽局中解說所謂的「優勢策略」,並舉美國與蘇聯處理古巴危機之例,探討美國最後勝出的原因。第四章在大規模協調賽局中,說明了致使美國微軟公司相對比蘋果電腦成功的發展經驗。第五章闡述「納許均衡」的意義,並應用在酒店邂逅尤物的成功策略剖析。第六章的囚犯困境,則從人性的弱點為出發26.事實不因被忽視而不存在—赫胥黎◆英國小說家及評論家活用賽局理論穩操勝算—評介《洞悉商場賽局》國立臺中圖書館助理輔導員 ◎李序元洞悉商場賽局
詹姆斯‧米勒著;戴至中譯

 


ISBN 9574938239/平裝活用賽局理論穩操勝算—評介《洞悉商場賽局》全國新書資訊月刊.民國93年6月號.27點,分析人們為謀取最大利益而在不同處境下的因應對策,這也是賽局理論中最廣為人知的範例。另外,在第七章逆向選擇一章中,提示在一般生活中供需雙方的互制情形;由於本身的條件限制,需求一方所期望的,往往會是供給一方最後才給的;甚至乃會出現惡性循環的後果。第八章闡明靠有限訊息存活的重要性,並以新加坡早期發跡的策略為例:新加坡政府從機場周邊道路的灌木叢開始整理,透過這一個小小的動作取得廣大外資對這個國家行政效率的信任,進而願意投資。在第九章中討論到差別取價與其他價格策略,以最常見的商品折價券為例,說明其主要目的乃是利用些微的價差吸引客戶上門,再用時間換取金錢。這招有沒有用?只要看看百貨公司舉辦卡友回店禮活動期間的營業額就清楚了。又在第十章的要脅策略當中,可看到大公司面對具有專門技術的員工罷工、或是產品被變相壟斷所控制時,當事雙方的競合關係。用別人的錢買東西當然比較開心,第十一章即以航空公司提供免費里程數給商務飛行常客、和書商送免費教材給學校老師等商業手法的深層意義,暗示企業也得防備被佔便宜。第十二章則針對員工管理問題,提出主管應跳脫傳統以薪資為誘因的思維,改採較符合人性之績效獎金制度來增加員工工作的積極性,方能提高公司的營運效率。第十三章在活用談判策略中,以長年互相敵對的印度與巴基斯坦為例,說明後者如何運用核子邊緣政策來對抗國力比強它大的印度。另外,第十四章教人如何洞悉拍賣機制,此後不管是扮演拍賣活動的任何一方,皆能有一明晰的買賣策略,不致因一時不查而追高殺低。最後,第十五章談到極可能會影響個人退休品質的股市投資分析及策略。作者雖然同意對於商品基本面的精準認識有助於選擇出手的時機,但最聰明的投資策略仍首推長時間多樣化的組合。如果讀者看完前面十五章仍意猶未盡,且對本身的邏輯能力深具信心,可以挑戰書後附錄一所提供的練習,看看自己是否真的已對賽局理論融會貫通。就我個人而言,做練習時的思考過程就如同閱讀前面篇章時一般,不時會因「無限迴圈」轉不出來而腦袋當機,或是在腦海突然跳出「也難怪納許會整天喃喃自語,情緒焦躁。雖說人生處處是賽局,此書應可提供現代人策略性思維的框架與行動方針的依據,但若從人性本善的觀點來評價此書,賽局理論卻儼然為功利主義崇拜者的行為提供了合理化的學理基礎,似又有不足取之處;一如厚黑學,純由功利現實為出發點,為達目的,不擇手段,因此雖然被認定為成功新顯學,卻也隱隱為現下紛擾的世界,又平添了破壞社會和諧秩序的因子。但是,讀者若能從防禦的觀點來閱讀此書,必定可以增進對事物看法的角度和廣度,就如同熟知《孫子兵法》者之知彼知己,一方面可避免有誤觸引信、錯落陷阱的情事發生,另一方面又可吸收專業學者的智慧精華,對照觀察發生於真實世界的人事物,增加人生閱歷,也是一大樂事。不過在此仍得提醒讀者,東西方民族性及文化差異會造成對人對事的態度不同,這點變數也該額外列入考量,否則一旦發現本書所舉出的例子與個人體驗不符時,反而會越來越迷惑。


賽局理論與應用


第一章:策略式賽局:親身體驗,定義策略式賽局,小中取大和壓倒性策略,小學生合作應用

第二章:納許均衡:最佳反應函數,定義納許均衡,混合策略及混合策略納許均衡

第三章:納許均衡之應用:數量競爭雙佔市場,奈許均衡與外部性,投票賽局,談判賽局

第四章:不完全資訊靜態賽局:定義貝氏賽局,類型與策略,貝氏納許均衡,拍賣與唐榮應用

第五章:完全資訊動態賽局:詳盡式賽局,序列理性與反向歸納,子賽局完美奈許均衡,應用


第一部份:完全資訊靜態賽局
 
第一章:策略式賽局

第一節:親身體驗參賽者的想法

第二節:定義策略式賽局

第三節:小中取大和壓倒性策略

第四節:應用:教小學生合作
 第二章:納許均衡

第一節:最佳反應函數(例:雙佔廠商)

第二節:定義納許均衡

第三節:混合策略及混合策略納許均衡

 
 
第三章:納許均衡之應用

第一節:數量競爭雙佔市場

第1.1節:總額預算下的醫師支付制度

第二節:奈許均衡與外部性

第三節:投票賽局

第四節:談判賽局
  
第二部份:不完全資訊靜態賽局
 
第四章:不完全資訊靜態賽局

第一節:定義貝氏賽局(類型與策略)

第二節:貝氏納許均衡(雙佔市場)

第三節:應用:1. 拍賣,2.唐榮危機
  
第三部份:完全資訊動態賽局
 
第五章:完全資訊動態賽局

第一節:定義詳盡式賽局

第二節:序列理性與反向歸納

第三節:子賽局完美奈許均衡

        第四節:詳盡式賽局應用:
1. 雙佔市場賽局,2.君主抽稅賽局
 第六章:重複賽局

第一節:有限重複賽局

第二節:無窮重複賽局

第三節:應用:

     1. 雙佔市場,2.貨幣政策
 
第四部份:不完全資訊動態賽局
 
第八章:不完全資訊動態賽局

第一節:信念與信念一致性

        第二節:完美貝氏均衡

 
 第九章:傳訊賽局

第一節:簡介兩種資訊不對稱

第二節:一般化的傳訊模型

第四節:分離與混合均衡

        第五節:應用:台灣利率政策
第十章:代理問題

第一節:一般化的代理模型

第二節:個人理性與誘因相容

        第三節:應用:訂定工資契約  
第五部份:合作賽局
 
第十一章:合作賽局簡介

第一節:定義特性函數賽局

第二節:核心與夏氏價值

第三節:應用:少數的權力,權力指數