求解博弈论实际例子?

kuaidi.ping-jia.net  作者:佚名   更新日期:2024-08-01
生活中的博弈论有那些例子


博弈论分析
一、经济学中的“智猪博弈”(Pigs’payoffs)
这个例子讲的是:猪圈里有两头猪,一头大猪,一头小猪。猪圈的一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时,大猪会在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏板,则还有机会在小猪吃完落下的食物之前跑到食槽,争吃到另一半残羹。

那么,两只猪各会采取什么策略?答案是:小猪将选择“搭便车”策略,也就是舒舒服服地等在食槽边;而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。

原因何在?因为,小猪踩踏板将一无所获,不踩踏板反而能吃上食物。对小猪而言,无论大猪是否踩动踏板,不踩踏板总是好的选择。反观大猪,已明知小猪是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧,所以只好亲力亲为了。

“小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是:每次落下的事物数量和踏板与投食口之间的距离。
如果改变一下核心指标,猪圈里还会出现同样的“小猪躺着大猪跑”的景象吗?试试看。
改变方案一:减量方案。投食仅原来的一半分量。结果是小猪大猪都不去踩踏板了。小猪去踩,大猪将会把食物吃完;大猪去踩,小猪将也会把食物吃完。谁去踩踏板,就意味着为对方贡献食物,所以谁也不会有踩踏板的动力了。

如果目的是想让猪们去多踩踏板,这个游戏规则的设计显然是失败的。
改变方案二:增量方案。投食为原来的一倍分量。结果是小猪、大猪都会去踩踏板。谁想吃,谁就会去踩踏板。反正对方不会一次把食物吃完。小猪和大猪相当于生活在物质相对丰富的“共产主义”社会,所以竞争意识却不会很强。

对于游戏规则的设计者来说,这个规则的成本相当高(每次提供双份的食物);而且因为竞争不强烈,想让猪们去多踩踏板的效果并不好。
  改变方案三:减量加移位方案。投食仅原来的一半分量,但同时将投食口移到踏板附近。结果呢,小猪和大猪都在拼命地抢着踩踏板。等待者不得食,而多劳者多得。每次的收获刚好消费完。

对于游戏设计者,这是一个最好的方案。成本不高,但收获最大。
原版的“智猪博弈”故事给了竞争中的弱者(小猪)以等待为最佳策略的启发。但是对于社会而言,因为小猪未能参与竞争,小猪搭便车时的社会资源配置的并不是最佳状态。为使资源最有效配置,规则的设计者是不愿看见有人搭便车的,政府如此,公司的老板也是如此。而能否完全杜绝“搭便车”现象,就要看游戏规则的核心指标设置是否合适了。

  比如,公司的激励制度设计,奖励力度太大,又是持股,又是期权,公司职员个个都成了百万富翁,成本高不说,员工的积极性并不一定很高。这相当于“智猪博弈”增量方案所描述的情形。但是如果奖励力度不大,而且见者有份(不劳动的“小猪”也有),一度十分努力的大猪也不会有动力了----就象“智猪博弈”减量方案一所描述的情形。最好的激励机制设计就象改变方案三----减量加移位的办法,奖励并非人人有份,而是直接针对个人(如业务按比例提成),既节约了成本(对公司而言),又消除了“搭便车”现象,能实现有效的激励。

  许多人并未读过“智猪博弈”的故事,但是却在自觉地使用小猪的策略。股市上等待庄家抬轿的散户;等待产业市场中出现具有赢利能力新产品、继而大举仿制牟取暴利的游资;公司里不创造效益但分享成果的人,等等。因此,对于制订各种经济管理的游戏规则的人,必须深谙“智猪博弈”指标改变的个中道理。

  二、囚徒困境博弈
  在博弈论中,含有占优战略均衡的一个著名例子是由塔克给出的“囚徒困境”(prisoners’
dilemma)博弈模型。该模型用一种特别的方式为我们讲述了一个警察与小偷的故事。假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果一个犯罪嫌疑人坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白,则两人各被判刑8年;如果另一个犯罪嫌人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放。如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年。下表给出了这个博弈的支付矩阵。

  表 囚徒困境博弈 [Prisoner's dilemma]
B 坦白   B 抵赖
A  坦白 –8, –8  0, –10
A  抵赖 –10, 0  –1, –1
  我们来看看这个博弈可预测的均衡是什么。对A来说,尽管他不知道B作何选择,但他知道无论B选择什么,他选择“坦白”总是最优的。显然,根据对称性,B也会选择“坦白”,结果是两人都被判刑8年。但是,倘若他们都选择“抵赖”,每人只被判刑1年。在表2.2中的四种行动选择组合中,(抵赖、抵赖)是帕累托最优的,因为偏离这个行动选择组合的任何其他行动选择组合都至少会使一个人的境况变差。不难看出,“坦白”是任一犯罪嫌疑人的占优战略,而(坦白,坦白)是一个占优战略均衡。

  要了解纳什的贡献,首先要知道什么是非合作博弈问题。现在几乎所有的博弈论教科书上都会讲“囚犯的两难处境”的例子,每本书上的例子都大同小异。

  博弈论毕竟是数学,更确切地说是运筹学的一个分支,谈经论道自然少不了数学语言,外行人看来只是一大堆数学公式。好在博弈论关心的是日常经济生活问题,所以不能不食人间烟火。其实这一理论是从棋弈、扑克和战争等带有竞赛、对抗和决策性质的问题中借用的术语,听上去有点玄奥,实际上却具有重要现实意义。博弈论大师看经济社会问题犹如棋局,常常寓深刻道理于游戏之中。所以,多从我们的日常生活中的凡人小事入手,以我们身边的故事做例子,娓娓道来,并不乏味。

  话说有一天,一位富翁在家中被杀,财物被盗。警方在此案的侦破过程中,抓到两个犯罪嫌疑人,斯卡尔菲丝和那库尔斯,并从他们的住处搜出被害人家中丢失的财物。但是,他们矢口否认曾杀过人,辩称是先发现富翁被杀,然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离,分别关在不同的房间进行审讯。由地方检察官分别和每个人单独谈话。

  检察官说,“由于你们的偷盗罪已有确凿的证据,所以可以判你们一年刑期。但是,我可以和你做个交易。如果你单独坦白杀人的罪行,我只判你三个月的监禁,但你的同伙要被判十年刑。如果你拒不坦白,而被同伙检举,那么你就将被判十年刑,他只判三个月的监禁。但是,如果你们两人都坦白交代,那么,你们都要被判5年刑。”斯卡尔菲丝和那库尔斯该怎么办呢?他们面临着两难的选择——坦白或抵赖。显然最好的策略是双方都抵赖,结果是大家都只被判一年。但是由于两人处于隔离的情况下无法串供。所以,按照亚当·斯密的理论,每一个人都是从利己的目的出发,他们选择坦白交代是最佳策略。因为坦白交代可以期望得到很短的监禁———3个月,但前提是同伙抵赖,显然要比自己抵赖要坐10年牢好。这种策略是损人利己的策略。不仅如此,坦白还有更多的好处。如果对方坦白了而自己抵赖了,那自己就得坐10年牢。太不划算了!因此,在这种情况下还是应该选择坦白交代,即使两人同时坦白,至多也只判5年,总比被判
10年好吧。所以,两人合理的选择是坦白,原本对双方都有利的策略(抵赖)和结局(被判1年刑)就不会出现。
  这样两人都选择坦白的策略以及因此被判5年的结局被称为“纳什均衡”,也叫非合作均衡。因为,每一方在选择策略时都没有“共谋”(串供),他们只是选择对自己最有利的策略,而不考虑社会福利或任何其他对手的利益。也就是说,这种策略组合由所有局中人(也称当事人、参与者)的最佳策略组合构成。没有人会主动改变自己的策略以便使自己获得更大利益。“囚徒的两难选择”有着广泛而深刻的意义。个人理性与集体理性的冲突,各人追求利己行为而导致的最终结局是一个“纳什均衡”,也是对所有人都不利的结局。他们两人都是在坦白与抵赖策略上首先想到自己,这样他们必然要服长的刑期。只有当他们都首先替对方着想时,或者相互合谋(串供)时,才可以得到最短时间的监禁的结果。“纳什均衡”首先对亚当·斯密的“看不见的手”的原理提出挑战。按照斯密的理论,在市场经济中,每一个人都从利己的目的出发,而最终全社会达到利他的效果。

  不妨让我们重温一下这位经济学圣人在《国富论》中的名言:“通过追求(个人的)自身利益,他常常会比其实际上想做的那样更有效地促进社会利益。”从“纳什均衡”我们引出了“看不见的手”的原理的一个悖论:从利己目的出发,结果损人不利己,既不利己也不利他。两个囚徒的命运就是如此。从这个意义上说,“纳什均衡”提出的悖论实际上动摇了西方经济学的基石。因此,从“纳什均衡”中我们还可以悟出一条真理:合作是有利的“利己策略”。但它必须符合以下黄金律:按照你愿意别人对你的方式来对别人,但只有他们也按同样方式行事才行。也就是中国人说的“己所不欲勿施于人”。但前提是人所不欲勿施于我。其次,“纳什均衡”是一种非合作博弈均衡,在现实中非合作的情况要比合作情况普遍。所以“纳什均衡”是对冯·诺依曼和摩根斯特恩的合作博弈理论的重大发展,甚至可以说是一场革命。

  从“纳什均衡”的普遍意义中我们可以深刻领悟司空见惯的经济、社会、政治、国防、管理和日常生活中的博弈现象。我们将例举出许多类似于“囚徒的两难处境”
这样的例子。如价格战博弈、军奋竞赛博弈、污染博弈等等。一般的博弈问题由三个要素所构成:即局中人(players)又称当事人、参与者、策略等等的集合,策略
(strategies)集合以及每一对局中人所做的选择和赢得(payoffs)集合。其中所谓赢得是指如果一个特定的策略关系被选择,每一局中人所得到的效用。所有的博弈问题都会遇到这三个要素。

美国密西根大学一位叫做罗伯特·爱克斯罗德的人。爱克斯罗德是一个政治科学家,他组织了一场计算机竞赛。这个竞赛的思路非常简单:任何想参加这个计算机竞赛的人都扮演“囚徒困境”案例中一个囚犯的角色。他们把自己的策略编入计算机程序,然后他们的程序会被成双成对地融入不同的组合。分好组以后,参与者就开始玩“囚徒困境”的游戏。他们每个人都要在合作与背叛之间做出选择。关键问题在于,他们不只玩一遍这个游戏,而是一遍一遍地玩上200次。这就是博弈论专家所谓的“重复的囚徒困境”。

  “重复的囚徒困境”更逼真地反映了具有经常而长期性的人际关系。而且,这种重复的游戏允许程序在做出合作或背叛的抉择时参考对手程序前几次的选择。如果两个程序只玩过一个回合,则背叛显然就是唯一理性的选择。但如果两个程序已经交手过多次,则双方就建立了各自的历史档案,用以记录与对手的交往情况。同时,它们各自也通过多次的交手树立了或好或差的声誉。虽然如此,对方的程序下一步将会如何举动却仍然极难确定。实际上,这也是该竞赛的组织者爱克斯罗德希望从这个竞赛中了解的事情之一。一个程序总是不管对手作何种举动都采取合作的态度吗?或者,它能总是采取背叛行动吗?它是否应该对对手的举动回之以更为复杂的举措?如果是,那会是怎么样的举措呢?

  事实上,竞赛的第一个回合交上来的14个程序中包含了各种复杂的策略。但使爱克斯罗德和其他人深为吃惊的是,竞赛的桂冠属于其中最简单的策略:一报还一报。我把它叫做“以其人之道,还治其人之身”。

  “一报还一报”的策略是这样的:它总是以合作开局,但从此以后就采取以其人之道还治其人之身的策略。也就是说,一报还一报的策略实行了胡萝卜加大棒的原则。它永远不先背叛对方,从这个意义上来说它是“善意的”。它会在下一轮中对对手的前一次合作给予回报(哪怕以前这个对手曾经背叛过它),从这个意义上来说它是“宽容的”。但它会采取背叛的行动来惩罚对手前一次的背叛,从这个意义上来说它又是“强硬的”。而且,它的策略极为简单,对手程序一望便知其用意何在,从这个意义来说它又是“简单明了的”。
  三、价格战博弈
  现在我们经常会遇到各种各样的家电价格大战,彩电大战、冰箱大战、空调大战、微波炉大战……这些大战的受益者首先是消费者。每当看到一种家电产品的价格大战,百姓都会“没事儿偷着乐”。在这里,我们可以解释厂家价格大战的结局也是一个“纳什均衡”,而且价格战的结果是谁都没钱赚。因为博弈双方的利润正好是零。竞争的结果是稳定的,即是一个“纳什均衡”。这个结果可能对消费者是有利的,但对厂商而言是灾难性的。所以,价格战对厂商而言意味着自杀。从这个案例中我们可以引伸出两个问题,一是竞争削价的结果或“纳什均衡”可能导致一个有效率的零利润结局。二是如果不采取价格战,作为一种敌对博弈论
(vivalry
game)其结果会如何呢?每一个企业,都会考虑采取正常价格策略,还是采取高价格策略形成垄断价格,并尽力获取垄断利润。如果垄断可以形成,则博弈双方的共同利润最大。这种情况就是垄断经营所做的,通常会抬高价格。另一个极端的情况是厂商用正常的价格,双方都可以获得利润。从这一点,我们又引出一条基本准则:“把你自己的战略建立在假定对手会按其最佳利益行动的基础上”。事实上,完全竞争的均衡就是“纳什均衡”或“非合作博弈均衡”。在这种状态下,每一个厂商或消费者都是按照所有的别人已定的价格来进行决策。在这种均衡中,每一企业要使利润最大化,消费者要使效用最大化,结果导致了零利润,也就是说价格等于边际成本。在完全竞争的情况下,非合作行为导致了社会所期望的经济效率状态。如果厂商采取合作行动并决定转向垄断价格,那么社会的经济效率就会遭到破坏。这就是为什么WTO和各国政府要加强反垄断的意义所在。

  四、贸易战博弈论
  这个问题对于刚刚加入WTO的中国而言尤为重要。任何一个国家在国际贸易中都面临着保持贸易自由与实行贸易保护主义的两难选择。贸易自由与壁垒问题,也是一个“纳什均衡”,这个均衡是贸易双方采取不合作博弈的策略,结果使双方因贸易战受到损害。X国试图对Y国进行进口贸易限制,比如提高关税,则Y国必然会进行反击,也提高关税,结果谁也没有捞到好处。反之,如X和Y能达成合作性均衡,即从互惠互利的原则出发,双方都减少关税限制,结果大家都从贸易自由中获得了最大利益,而且全球贸易的总收益也增加了。

博弈论案例分析
案例一:博弈论在企业人力资本投资中的应用[1]
  一、引言
  一个企业能否在市场中取得经济优势,依赖于企业科技优势、产品的市场适应性等等,而这一切又源于人才优势。因此,一个企业面临着如何尽可能地保持自己人力资源的优势,如何吸引优秀人才加入企业添加新动力,如何有效培训使己有员工获得技能的提高,如何使员工适应外部环境变化的要求,如何有效挽留公司的核心人才等等。但是统计调查显示,我国的培训现状不尽如人意。总体来看,我国企业培训管理的制度化、规范化程度有待加强,培训计划执行不力,培训效果跟踪与评价环节薄弱,培训对改善员工绩效的效用没有发挥,培训结果与员工晋升没有太大影响等。造成这种现状的原因固然是多方面的,其中一个主要原因就是人力资本投资收益的滞后性和不确定性,担心员工“硬了翅膀就飞走”,得不偿失。企业是否增加人力资本投资,员工是否留任企业,都是利益的博弈,结果是选择有利于自己的战略。本文用博弈论对企业人力资本投资作分析,说明企业应当进行人力资本投资和投资后应采取措施保证人力资本投资收益的获取。

  二、概念和假定
  1.概念界定
  ①人力资本。人力资本是通过投资于已有人力资源而形成的、以复杂劳动力为载体的、能实现价值增值的可变资本。
  ②企业人力资本投资。企业人力资本投资是指企业通过一定的投入(货币、资本或实物)获得人力资源,增加企业员工的知识、技能、健康水平,提高企业管理、文化水平和企业形象,从而提升企业人力资本存量,使企业经济效益提高的一种投资行为。

  2.基本假设
  ①经济人。经济人假设是指无论是组织还是个人,追求自身利益的最大化。
  ②完全信息。完全信息是指信息是完全通畅的,不存在滞塞,而且客观存在的信息的获取是不需要成本的。
  ③物质资本充足。商品的生产总是物质资本和人力资本结合在一起进行的。
  要使生产高效率的进行,物质资本和人力资本必须保持适当的比例。
  三、人力资本投资与员工个人的博弈分析
  本文从企业与员工之间的角度作人力资本投资的完全信息静态博弈分析,重点分析企业是否增加人力资本投资以及投资后如何行动。
  假定在完全信息的条件下,企业和员工都是理性的。企业可以选择对员工培训或不培训。根据企业的选择,员工会做出留下或是转投其他企业的选择。假设企业不对员工进行培训是员工的收入为d,当企业选择培训,假设分摊到员工个人的培训费用为c,经过培训后多支付员工的薪水为e(e可以为零,即经过培训后不增加员工薪水),经过培训后员工为企业带来的收益增加值为b。又假设员工离职去另一单位获得的报酬为a。这里为了分析更简单一些,假设员工经过培训与未经过培训跳槽的收入一样,都为a。有时候培训后由于员工技能提高跳槽会获得更多的收入,但是并不影响下面的分析。企业培训博弈分析如表1所示:  当b-c-e<0时,即企业对员工培训后得到的收益增加值小于支出时,不管员工做出如何决策,企业都不会得到任何的收益增加值,因此企业是不会对员工进行培训投入的。

  当b-c-e>0时,该博弈成立并可能会出现两种均衡:如果此时员工选择留下所获得的收益d+e大于其选择跳槽时所获的收益a时,理性的员工必定会留在原来的企业,企业也必然会选择培训投入,这也是这个博弈中双方的最优决策;如果此时员工选择留下所获得的收益d+e小于其选择跳槽时所获的收益a时,理性的员工必定选择跳槽,此时企业损失为c,损失最惨重。对企业而言,如果知道这样做令员工跳槽的话,那么企业还不如刚开始就不培训,那样蒙受的损失会少些。这里需要指出的是,一个员工是否跳槽并不简单的取决于对方企业开出的薪酬。影响因素有很多,比如员工个性是否与企业匹配、员工个人发展前景、员工兴趣与岗位的匹配等等。上述表格中,企业如果不对员工进行培训,那么员工留下或离职取决于现有收入d和跳槽企业的薪酬a。

  如果d>a,员工留下:反之员工跳槽

总之,员工是否留任企业,是一种利益的博弈,并且企业与员工之间存在着信息的不对称,企业必须采取先发行动传递信号减弱员工离任的动机,只要企业能留住员工,人力资本投资就会给企业带来巨大的经济效益。

[编辑]案例二:博弈论在企业经营活动的应用策略[2]
  哈佛商学院波特教授的竞争五种力量,给出了我们思考行业市场竞争状况和态势时一种全面而详细的分析方法,其中一种力量是潜在进入者的威胁。
  那么,根据市场类型(完全竞争市场、垄断竞争市场、完全垄断市场和寡头垄断市场),由于多数行业市场属于垄断竞争市场,就存在现有企业和新进入者之间的进入和退出博弈,这取决于彼此结构性的进入障碍、对关键资源的控制度、规模经济效应及现有企业的市场优势的因素。

  如果你是现有行业的垄断者和一定程度的影响者,阻止潜在进入者进入市场或遏止现有企业恶性竞争的博弈策略有:
  1.扩大生产能力策略
  垄断者为阻止潜在进入者进入市场,垄断者可能对潜在进入者进行威胁。但垄断者的这种威胁是否能达到阻止进入的目的,取决于其承诺。所谓承诺(Promise),是指对局者所采取的某种行动,这种行动使其威胁成为一种令人可信的威胁。那么,一种威胁在什么条件下会变得令人可信呢?一般是,只有当对局者在不实行这种威胁会遭受更大损失的时候,与承诺行动相比,空头威胁无法有效阻止市场进入的主要原因是,它是不需要任何成本的。发表声明是容易的,仅仅宣称将要做什么或者标榜自己是说一不二的人也都缺乏实质性的意义。因此,只有当对局者采取了某种行动,而且这种行动需要较高的成本或代价,才会使威胁变得可信。

  2.保证最低价格条款的策略
  所谓“保证最低价格”条款策略,即可采取限制性定价策略,通过收取低于进入发生时的价格来防范进入。如某商店规定,顾客在本商店购买这种商品一定时期内(如一个月),如果其他任何商店以更低的价格出售同样的商品,本店将退还差价,并补偿差额的一定百分比(如10%
)。例如,如果你在该商店花5
000元购买了一架尼康相机,一周后你在另一家商店发现那里只卖4500元,那么你就可以向该商店交涉,并获得550元的退款。
  又如假定一个将存在两期的市场。在第1期只有一个厂商,面临两种选择:
  ①制定一个垄断高价60元,可获1
000元的利润,但会使潜在企业认为该行业有利可图,从而选择在第2期进入;而一旦该市场有两个企业存在,将会使市场价格下降到30元,企业利润降为200元。这样,两期的总利润是1000+200=1200元。

  ②制定低价40元,潜在企业如果进来,价格降到20元,两个企业的利润都将是0。
  故此时潜在企业将不会进入。这样,第二期的价格可以确定一个垄断高价60元,因此总利润将为600+1000=1600元。
  对消费者来说,保证最低价格条款使你至少在一个月内不会因为商品降价而后悔你的购买,但这种条款对消费者是承诺,对竞争者是警告,无疑是企业之间竞争的一种手段。

  保证最低价格条款是一种承诺,由于法律的限制,商店在向消费者公布了这一条款之后是不能不实行的,因此它是绝对可信的。这一承诺隐含着企业A向企业B发出的不要降价竞争的威胁,并使这种威胁产生其预期的效果。

  3.限制进入定价策略
  限制进入定价是指现有企业通过收取低于进入发生的价格的策略来防范进入,潜在进入者看到这一低价后,推测出进入后价格也会那么低甚至更低,因而进入该市场终将无利可图而放弃进入。

  4.掠夺性定价策略
  掠夺性定价是指将价格设定为低于成本来达到驱逐其他企业的目的,而期望由此发生的损失在新进入企业或者竞争对手被逐出市场后,掠夺企业能够行使市场权力时可能得到补偿,即在驱逐其他企业后,再制定垄断高价以弥补前期的损失。这也是一种价格报复策略。掠夺性定价与限制定价之间的差异在于限制定价是针对那些尚未进入市场的企业,是想较长一段时间内维持低价来限制新企业的进入,而掠夺性定价则将矛头指向已经进入的企业或即将来临之际。如你产能过剩,在新企业进入时可以进行产能扩张,将商品大幅降价防堵其进入。

  5.广告战博弈
  有些商品只有在使用后才知道其质量真正如何,我们把这种商品称为经验品。只有生产那些高质量经验品的企业才会选择做巨额广告,而低质量的企业将不会做广告。原因是高质量经验品会有大量的回头客,而低质量经验品则鲜有人再次光顾。

  另外现有厂商之间产量、价格竞争的博弈,尚有古诺模型、伯川德模型可以描述。博弈理论在宏微观层面对企业参与竞争、制定竞争策略均有指导意义。著名营销专家希顿曾说,企业家的艺术就是对企业的策略性经营和管理,博弈作为策略,企业在当今激烈的市场竞争中需要博弈!

博弈论,又称为对策论(Game Theory)、赛局理论等,既是现代数学的一个新分支,也是运筹学的一个重要学科。

博弈论主要研究公式化了的激励结构间的相互作用,是研究具有斗争或竞争性质现象的数学理论和方法。 博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。生物学家使用博弈理论来理解和预测进化论的某些结果。博弈论已经成为经济学的标准分析工具之一。在金融学、证券学、生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。

案例一:囚徒困境

在博弈论中,含有占优战略均衡的一个著名例子是由塔克给出的“囚徒困境”(prisoner's dilemma)博弈模型。该模型用一种特别的方式为我们讲述了一个警察与小偷的故事。假设有两个小偷A和B联合犯事、私入民宅被警察抓住。

警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果两个犯罪嫌疑人都坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪,各被判刑8年;如果只有一个犯罪嫌疑人坦白,另一个人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放。如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年。下表给出了这个博弈的支付矩阵

对A来说,尽管他不知道B作何选择,但他知道无论B选择什么,他选择“坦白”总是最优的。显然,根据对称性,B也会选择“坦白”,结果是两人都被判刑8年。但是,倘若他们都选择“抵赖”,每人只被判刑1年。在表2.2中的四种行动选择组合中,(抵赖、抵赖)是帕累托最优,因为偏离这个行动选择组合的任何其他行动选择组合都至少会使一个人的境况变差。但是,“坦白”是任一犯罪嫌疑人的占优战略,而(坦白,坦白)是一个占优战略均衡,即纳什均衡。不难看出,此处纳什均衡与帕累托存在冲突。

单从数学角度讲,这个理论是合理的,也就是选择都坦白。但在这样多维信息共同作用的社会学领域显然是不合适的。正如中国古代将官员之间的行贿受贿称为“陋规”而不是想方设法清查,这是因为社会体系给人行为的束缚作用迫使人的决策发生改变。比如,从心理学角度讲,选择坦白的成本会更大,一方坦白害得另一方加罪,那么事后的报复行为以及从而不会轻易在周围知情人当中的“出卖”角色将会使他损失更多。

而8年到10年间的增加比例会被淡化,人的尊严会使人产生复仇情绪,略打破“行规”。我们正处于大数据时代,想更接近事实的处理一件事就要尽可能多地掌握相关资料并合理加权分析,人的活动动影像动因复杂,所以囚徒困境只能作为简化模型参考,具体决策还得具体分析。

案例二:智猪博弈

一、经济学中的“智猪博弈”(Pigs’payoffs) 这个例子讲的是:

假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽,另一头安装着控制猪食供应的按钮,按一下按钮会有10个单位的猪食进槽,但是谁按按钮就会首先付出2个单位的成本,若大猪先到槽边,大小猪吃到食物的收益比是6∶4;同时到槽边,大小猪收益比是7∶3;小猪先到槽边,大小猪收益比是9∶1。那么,在两头猪都有智慧的前提下,最终结果是小猪选择等待。

"智猪博弈"由纳什于1950年提出。实际上小猪选择等待,让大猪去按控制按钮,而自己选择“坐船”(或称为搭便车)的原因很简单:在大猪选择行动的前提下,小猪选择等待的话,小猪可得到4个单位的纯收益,而小猪行动的话,则仅仅可以获得大猪吃剩的1个单位的纯收益,所以等待优于行动;在大猪选择等待的前提下,小猪如果行动的话,小猪的收入将不抵成本,纯收益为-1单位,如果小猪也选择等待的话,那么小猪的收益为零,成本也为零,总之,等待还是要优于行动。

用博弈论中的报酬矩阵可以更清晰的刻画出小猪的选择:

从矩阵中可以看出,当大猪选择行动的时候,小猪如果行动,其收益是1,而小猪等待的话,收益是4,所以小猪选择等待;当大猪选择等待的时候,小猪如果行动的话,其收益是-1,而小猪等待的话,收益是0,所以小猪也选择等待。综合来看,无论大猪是选择行动还是等待,小猪的选择都将是等待,即等待是小猪的占优策略。

在小企业经营中,学会如何“搭便车”是一个精明的职业经理人最为基本的素质。在某些时候,如果能够注意等待,让其他大的企业首先开发市场,是一种明智的选择。这时候有所不为才能有所为!高明的管理者善于利用各种有利的条件来为自己服务。“搭便车”实际上是提供给职业经理人面对每一项花费的另一种选择,对它的留意和研究可以给企业节省很多不必要的费用,从而使企业的管理和发展走上一个新的台阶。这种现象在经济生活中十分常见,却很少为小企业的经理人所熟识。在智猪博弈中,虽然小猪的“捡现成”的行为从道义上来讲令人不齿,但是博弈策略的主要目的不正是使用谋略最大化自己的利益吗?

案例三:美女的硬币

一位陌生美女主动过来和你搭讪,并要求和你一起玩个游戏。美女提议:“让我们各自亮出硬币的一面,或正或反。如果我们都是正面,那么我给你3元,如果我们都是反面,我给你1元,剩下的情况你给我2元就可以了。”听起来不错的提议。如果我是男性,无论如何我是要玩的,不过经济学考虑就是另外一回事了,这个游戏真的够公平吗?

假设我们出正面的概率是x,反面的概率是1-x。为了使利益最大化,应该在对手出正面或反面的时候我们的收益都相等,不然对手总是可以改变正反面出现的概率让我们的总收入减少,由此列出方程就是3x+(-2)*(1-x)=(-2)*x+1*(1-x)。这个方程通俗的说就是在对手一直出正面你得到的利益,和你对手一直出反面得到利益是一样的且最大。解方程得x=3/8,也就是说平均每八次出示3次正面,5次反面是我们的最优策略。而将x=3/8代入到收益表达式3*x+(-2)*(1-x)中就可得到每次的期望收入,计算结果是-1/8元。

同样,设美女出正面的概率是y,反面的概率是1-y,列方程-3y+2(1-y)=2y+(-1)*(1-y)。解得y也等于3/8,而美女每次的期望收益则是2(1-y)-3y=1/8元。这告诉我们,在双方都采取最优策略的情况下,平均每次美女赢1/8元。其实只要美女采取了(3/8,5/8)这个方案,不论你再采用什么方案,都是不能改变局面的。如果全部出正面,每次的期望收益是(3+3+3-2-2-2-2-2)/8=-1/8元

如果全部出反面,每次的期望收益也是(-2-2-2+1+1+1+1+1)/8=-1/8元。而任何策略无非只是上面两种策略的线性组合,所以期望还是-1/8元。但是当你也采用最佳策略时,至少可以保证自己输得最少。否则,你肯定就会被美女采用的策略针对,从而赔掉更多。看起来这个博弈模型似乎没有什么用处,但是其实这可能牵涉了金融市场定价中最重要的一个模型:定价权重模型了。

总的来说“博弈论”其本质是将日常生活中的竞争矛盾以游戏的形式表现出来,并使用数学和逻辑学的方法来分析事物的运作规律。既然有游戏的参与者那么也必然存在游戏规则的制定者。深入的了解竞争行为的本质,有助于我们分析和掌握竞争中事物之间的关系,更方便我们对规则进行制定和调整,使其最终按照我们所预期的目的进行运作。

资料来源:博弈论百度百科

案例四:普通范式博弈

GOO公司和SAM公司是某手机产品生态的两大重量级参与者,双方在产业链的不同位置上各司其职且关系暧昧,有时也往往因商业利益和产品影响力的争夺而各怀异心。二者的收益也随着博弈的变化而不断更替。

上图表格模拟了两家公司的博弈现状,双方各有两个可选策略“合作”与“背叛”,格中的四组数据表示四个博弈结局的分数(收益),每组数据的第一个数字表示GOO公司的收益,后一个数字表示SAM公司的收益。博弈是同时进行的,一方参与者必须站在对方的角度上来思考我方的策略选择,以追求收益最大化。这在博弈论里称作Putting yourselves into other people's shoes。

现在我们以GOO公司为第一人称视角来思考应对SAM公司的博弈策略。假如SAM公司选择合作,那么我方也选择合作带来的收益是3,而我方选择背叛带来的收益是5,基于理性的收益最大化考虑,我方应该选择背叛,这叫严格优势策略;假如SAM公司选择背叛,那么我方选择合作带来的收益是-3,而选择背叛带来的收益为-1,为使损失降到最低,我方应该选择背叛。最后,GOO公司的分析结果是,无论SAM公司选择合作还是背叛策略,我方都必须选择背叛策略才能获得最大化的收益。同理,当SAM公司也以严格优势策略来应对GOO公司的策略选择时,我们重复上述分析过程,就能得出结论:无论GOO公司选择合作还是背叛策略,SAM公司都必须选择背叛策略才能获得最大化收益。

最后我们发现,本次博弈的双方都采取了背叛策略,各自的收益都为-1,这是一个比较糟糕的结局,尽管对任何一方来说都不是最糟糕的那种。这种局面就是著名的“囚徒困境”。但是,博弈的次数往往不止一次,就像COO与SAM公司双方的商业往来也许会有很多机会。当二者经历了多次背叛策略的博弈之后,发现公式上还有一个(3,3)收益的双赢局面,这比(-1,-1)的收益结果显然要好很多,因此二者在之后的博弈过程中必然会尝试互建信任,从而驱使双方都选择合作策略。

这里有一个理想化假设,那就是假设双方都知道博弈次数是无限的话,也就是说双方的商业往来是无止尽的,那么二者的策略都将持续选择合作,最终的博弈收益将定格在(3,3),这就是一个纳什均衡。既然博弈次数是无限的,那么任何一方都没有理由选择背叛策略去冒险追求5点短暂收益,而招致对方在下一轮博弈中的报复(这种报复在博弈论里称作“以牙还牙”策略)。还有另一种假设情况是,假使双方都知道博弈次数是有限的,也许下一次博弈就是最后一次,那么为了避免对方在最后一轮博弈中选择背叛策略而使我方遭受-3的收益损失,于是双方都重新采取了背叛的策略选择,最后的博弈结果又回到了(-1,-1),这就形成了第二个纳什均衡。随着次数(博弈性质)的变化,纳什均衡点也并非唯一。

案例五:饿狮博弈

题设为A、B、C、D、E、F六只狮子(强弱从左到右依次排序)和一只绵羊。假设狮子A吃掉绵羊后就会打盹午睡,这时比A稍弱的狮子B就会趁机吃掉狮子A,接着B也会午睡,然后狮子C就会吃掉狮子B,以此类推。那么问题来了,狮子A敢不敢吃绵羊?

为简化说明,我们先给出此题的解法。该题须采用逆向分析法,也就是从最弱的狮子F开始分析,依次前推。假设狮子E睡着了,狮子F敢不敢吃掉狮子E?答案是肯定的,因为在狮子F的后面已没有其它狮子,所以狮子F可以放心地吃掉午睡中的狮子E。继续前推,既然狮子E睡着会被狮子F吃掉,那么狮子E必然不敢吃在他前面睡着的狮子D。再往前推,既然狮子E不敢吃掉狮子D,那么D则可以放心去吃午睡中的狮子C。依次前推,得出C不吃,B吃,A不吃。所以答案是狮子A不敢吃掉绵羊。细心的人也许会发现,假如增加或减少狮子的总数,博弈的结果会完全不同。

我们在狮子F的后面增加了一只狮子G,总数变成7只。用逆向分析法按照上题步骤再推一次,很容易得出结论:狮子G吃,狮子F不吃,E吃,D不吃,C吃,B不吃,A吃。这次的答案变成了狮子A敢吃掉绵羊。

对比两次博弈我们发现,狮子A敢不敢吃绵羊取决于狮子总数的奇偶性,总数为奇数时,A敢吃掉绵羊;总数为偶数时,A则不敢吃。因此,总数为奇数和总数为偶数的狮群博弈结果形成了两个稳定的纳什均衡点。

通过上述案例的多轮博弈,初学者应该能够隐约发现纳什均衡的轮廓。当博弈次数不止一次地进行着时,博弈结果将重复定格在某个状态,那个状态即是纳什均衡点。公理解释是如果博弈在某情况下无任一参与者可以通过独自行动而增加收益,则此时的策略组合被称为纳什均衡。

简单的博弈案例看上去似乎有趣,但博弈论始终是一门深奥复杂的学问,它的复杂之处就在于博弈分析所用的理想化模型与现实永远存在差异。比如博弈论要求各方参与者必须是经济学意义上的“理性人”,而事实上完全的“理性人”并不存在。现实世界存在着太多超出博弈论的变数,这为追求精确预测的博弈模型构建工作带来难度。

尽管如此,博弈论仍然改变了世界,成为人类理性认识世界的一个重要工具。而纳什均衡的提出无疑丰富了博弈论的理论体系,它是人类文明的一片砖瓦。可以肯定的是,百年之后,人们依然不会忘记约翰•纳什的名字,亦不会忘记那个神奇的纳什均衡。资料来源:两个经典例子,揭开博弈论以及纳什均衡的神秘面纱,本文系作者 水哥



饿狮博弈

假设有A、B、C、D、E、F六只狮子(强弱从左到右依次排序)和一只绵羊。假设A吃掉绵羊后就会打盹,这时比A稍弱的B就会趁机吃掉A,接着B也会打盹,然后比B稍弱的C就会吃掉B,以此类推。问:狮子A敢不敢吃绵羊?

该题须采用逆向分析法,从最弱的F开始分析,依次前推。假设E睡着了,F肯定会吃掉E,因为在F的后面已没有其它狮子了,不用担心自己被吃掉。继续前推,既然E知道自己睡着会被F吃掉,那么E必然不敢吃睡着了的D。既然E不敢吃掉D,那么D则可以放心去吃睡着的C。依次前推,得出C不吃,B吃,A不吃。所以答案是狮子A不敢吃掉绵羊。

但是,如果我们在狮子F的后面增加了一只狮子G,总数变成7只,用逆向分析法按照上题步骤再推一次,如下图。这次的答案变成了狮子A敢吃掉绵羊。

对比两次博弈我们发现,狮子A敢不敢吃绵羊取决于狮子总数的奇偶性:当总数为奇数时,A敢吃;总数为偶数时,A则不敢吃。因此,总数为奇数和总数为偶数的狮群博弈结果形成了两个稳定的纳什均衡点。

  • 生活中的博弈论有那些例子
    答:假如你做的策划被上司偷了 那你是要向更高级的领导告状还是忍受 这也算一个博弈论问题 你要是告状,也许能够伸冤,但也会若到上司 他可能会给你下绊子 但不上诉他也许会再偷,你的工作就白废了 还有 物价方面 假如几个店铺联合起来 自然能够把东西卖的比较贵 但只要其中一个降价 其他店的客人就会...
  • 博弈论案例
    答:我们通过这个例子,可以理解人们在博弈中能否获胜,不单纯取决于他们的实力,更重要的是取决于博弈方实力对比所形成的关系。在上面的例子中,乙和丙实际上是一种联盟关系,先把甲干掉,他们的生存几率都上升了。我们现在来判断一下,乙和丙之中,谁更有可能背叛,谁更可能忠诚?任何一个联盟的成员都会时刻权衡利弊,一旦背叛...
  • 在日常生活中,人们如何运用博弈论?
    答:两个都想赢得时间的话只会两败俱伤,而如果一方选择倒退会给两方都带来好处。当然,我们在生活中还会遇到很多其他的博弈例子,例如恋爱中的男女是选择去看电影还是去选择看足球赛,男方是该求婚还是该放弃求婚。甚至是在儿童游戏剪刀石头布中是出剪刀,石头还是布都会涉及到博弈论。
  • 生活中博弈论的例子
    答:生活中两方如果争锋相对,比如两辆车同时开到一条小道,顶住了,让对方感觉到你绝对不会后退,那么对方权衡下,还是自己后退吧,至少不会僵持,这就是勇者博弈(或者叫斗鸡博弈)。两个小偷被抓到,一定是分开讯问,为了怕对方出卖自己,只能都供认,这就是囚徒博弈。
  • 博弈论的应用体现在生活中的哪些方面?
    答:我们逛街买衣服的时候,也作用到了伟大的博弈论,当你在某商店看到一件漂亮的裙子,然后试穿了之后很合你心意,但是你看了那个标价,价格太高你有所顾虑,这时候你就要跟老板讲讲价格了,博弈论的应用就能派上用场了,你想得到这条裙子,又希望老板的价格能降低,然而老板这边呢,她希望她的裙子能...
  • 博弈论在我们生活中有什么例子?
    答:案例研究 囚犯两难处境的比赛 假想你正与被关在另一个屋子里的“嫌疑”人进行囚犯两难处境的博弈。而且,再设想这种博弈不是进行一次而是多次。你博弈最后的得分是你被监禁的总年数。你希望使这种得分尽可能地少。你应该用什么战略?你应该从坦白还是保持沉默开始?另一个参与者的行动会如何影响你以后...
  • 生活中的博弈论有那些例子
    答:要了解纳什的贡献,首先要知道什么是非合作博弈问题。现在几乎所有的博弈论教科书上都会讲“囚犯的两难处境”的例子,每本书上的例子都大同小异。 博弈论毕竟是数学,更确切地说是运筹学的一个分支,谈经论道自然少不了数学语言,外行人看来只是一大堆数学公式。好在博弈论关心的是日常经济生活问题,所以不能不食人间烟...
  • 关于博弈论的问题,帮解答下啊
    答:案例-囚徒困境 在博弈论中,含有占优战略均衡的一个著名例子是由塔克给出的“囚徒困境”(prisoner's dilemma)博弈模型。该模型用一种特别的方式为我们讲述了一个警察与小偷的故事。假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人...
  • 以日常生活中的常见例子,怎么运用博弈论的基本思想指导生活决策的方法...
    答:AB是两个要好的朋友,一起到公司,为了加薪,一起与公司谈判,如果不成共同离开,最后共同得到加薪。这是“正和博弈”的结果。随着时间的推移,AB分开,一个在技术开发部门,当部长,一个在技术(营销)支持部门,当主管。偶尔在一起,当A在B面前诉说工作的艰辛和处事的艰难,B也全力支持A,出点子,...
  • 负和博弈生活中的例子
    答:这种情况下,博弈论称之为“负和博弈”,即双方在争夺中都遭受了损失,愿望未达成,关系也因此变得紧张,对兄弟间的感情造成负面影响。这种情况并非偶然,生活中随处可见。当人们为了个人利益或占有欲而无法达成共识,交际中的冲突和矛盾就会产生,最终导致双方都受到损害。在上述例子中,兄弟俩因为无法妥协...