纳什均衡

纳什均衡是不是帕累托均衡?

长文“帕累托最优处处满足吗?”中的一部分:帕累托最优与纳什均衡是不同的。譬如,“囚徒困境”是博弈论(或称对策论、赛局理论)中经常使用的一个理论分析模型。该模型说的是,甲和乙合伙抢了银行,被抓获。他们被关进分隔的牢房。检察官分别告诉他们:如果两人都不坦白,他们会因非法携带枪支的罪名各判刑1年;如果其中一人招供而另一人不招供,坦白者作为证人将不会被起诉,另一人将会被重判10年徒刑;如果两人都招供,则两人都会以抢劫罪名各判5年徒刑。结果,两个人都招供了。在博弈论中,这种结果是一种纳什均衡,即给定别人策略的情况下,没有任何单个局中人有积极性选择其他策略,从而没有任何人有积极性打破这种均衡。在上述囚徒困境模型中,如果甲相信乙招供,那么他的最佳策略是招供,而如果乙相信甲招供,那么他的最佳策略仍是招供。这就是一个纳什均衡,它是“自确定”的。但是,这个纳什均衡不是帕累托最优。在经济学上,帕累托最优指的是:在给定现有资源条件下,不存在任何其他配置结果使某些人情况更好,而又不使任何其他人处境更坏。显然,在上述囚徒困境模型当中,甲乙两个人都从理性的角度出发,追求自身效用的最大,结果是双方不合作,都认罪了。也就是说,实现了纳什均衡。但是,如果甲与乙合作,产生的结果要比双方不合作好得多。也就是说,如果双方合作,就存在帕累托改进(帕累托改进是指一种变化,在没有使任何人境况变坏的前提下,使得至少一个人变得更好。帕累托改进是达到帕累托最优的路径和方法)。那么,为什么两人不敢合作呢?甲会这样推理:“假如乙不招供,我只要一招供,立即可以获得自由,而不招供却要坐牢1年,显然招供比不招供好;假如乙招供了,我若不招供,则要坐牢10年,招供了只坐5年牢,显然还是招供的好。可见,无论乙招供与不招供,我的最佳选择都是招供。”同理,乙也会如此推理。于是,谁也不敢选择合作。所以,在囚徒困境这个模型当中,从个人的理性出发,推导不出帕累托最优。由此可见,纳什均衡只是一种平衡,而不是一种帕累托最优,不是一种完美的结局。

纳什均衡是不是帕累托均衡?

长文“帕累托最优处处满足吗?”中的一部分:帕累托最优与纳什均衡是不同的。譬如,“囚徒困境”是博弈论(或称对策论、赛局理论)中经常使用的一个理论分析模型。该模型说的是,甲和乙合伙抢了银行,被抓获。他们被关进分隔的牢房。检察官分别告诉他们:如果两人都不坦白,他们会因非法携带枪支的罪名各判刑1年;如果其中一人招供而另一人不招供,坦白者作为证人将不会被起诉,另一人将会被重判10年徒刑;如果两人都招供,则两人都会以抢劫罪名各判5年徒刑。结果,两个人都招供了。在博弈论中,这种结果是一种纳什均衡,即给定别人策略的情况下,没有任何单个局中人有积极性选择其他策略,从而没有任何人有积极性打破这种均衡。在上述囚徒困境模型中,如果甲相信乙招供,那么他的最佳策略是招供,而如果乙相信甲招供,那么他的最佳策略仍是招供。这就是一个纳什均衡,它是“自确定”的。但是,这个纳什均衡不是帕累托最优。在经济学上,帕累托最优指的是:在给定现有资源条件下,不存在任何其他配置结果使某些人情况更好,而又不使任何其他人处境更坏。显然,在上述囚徒困境模型当中,甲乙两个人都从理性的角度出发,追求自身效用的最大,结果是双方不合作,都认罪了。也就是说,实现了纳什均衡。但是,如果甲与乙合作,产生的结果要比双方不合作好得多。也就是说,如果双方合作,就存在帕累托改进(帕累托改进是指一种变化,在没有使任何人境况变坏的前提下,使得至少一个人变得更好。帕累托改进是达到帕累托最优的路径和方法)。那么,为什么两人不敢合作呢?甲会这样推理:“假如乙不招供,我只要一招供,立即可以获得自由,而不招供却要坐牢1年,显然招供比不招供好;假如乙招供了,我若不招供,则要坐牢10年,招供了只坐5年牢,显然还是招供的好。可见,无论乙招供与不招供,我的最佳选择都是招供。”同理,乙也会如此推理。于是,谁也不敢选择合作。所以,在囚徒困境这个模型当中,从个人的理性出发,推导不出帕累托最优。由此可见,纳什均衡只是一种平衡,而不是一种帕累托最优,不是一种完美的结局。

“帕累托最优”和“纳什均衡”

假设现在为固定的一群人分配一些定量的资源,分配方案肯定有许多种。如果对某一种方案而言,存在着一种调整策略,使得原方案经过调整后,能让至少一个人受益的同时不让任何人受到损失,那么这种调整策略就称为帕累托改进。简单说,帕累托改进就是在没有人变得不好的前提下让有些人更好。如果对于某种分配方案,再也找不到任何的帕累托改进的余地,我们就说这个方案达到了帕累托最优。这意味着,帕累托最优的局面是所有人都满意的整体有利的方案。在这种情形下,如果某些人还想增加自己的利益,就只能损害别人的利益。所以很明显的是, 帕累托最优是一种整体上的评价。 纳什均衡是非合作博弈论中的一个基础概念。所谓非合作博弈,是指一组博弈者在给定各自策略空间时,以期望效用最大化为目的进行策略选择,最终基于全部博弈者的策略实现一组结果的过程。非合作博弈按照静态/动态和信息是否完全两个维度可以分为四类,分别是:完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈和不完全信息动态博弈。简单地说,博弈论是一门把经济活动(或者其他活动)看作一个众多玩家参与的博弈游戏,对在规则约束下的游戏过程进行量化研究的学科。与传统经济学不同,博弈论研究的变量是一个个参与的玩家个体,而非整体的一些经济指标。经济过程是众多参与者为了实现各自利益最大化而独立决策并相互竞合产生的结果。而非合作博弈是指排除玩家结盟的情形,每个玩家都是独立的。 一般而言,每个玩家的决策都会影响到别人,所以当你改变策略时,别的玩家就会相应变换自己的对策,整个游戏局面就会不断地发生变化。而纳什均衡却指出了游戏过程中可能出现的一种特殊状态。在这个局面下,如果其他玩家的策略不变,每一个玩家都没有动机改变自己现在的策略。这个时候所有的玩家就进入了一种平衡态,称为纳什均衡。也就是说,在纳什均衡下,每个人都满意自己当前的策略。 请注意,刚才说的帕累托最优是所有人都满意的一种分配方案,现在讲的纳什均衡也是所有玩家都接受的一种博弈局面。那么帕累托最优和纳什均衡是不是一回事呢?答案是:不是一回事。帕累托最优是从静态全局的角度来看待问题,是问题的最优解;而纳什均衡是从动态局部的角度来看待问题,是问题求解过程中的临时解。

一个关于纳什均衡的问题

效用函数看不清楚。思路是把r写成r_i+r_-i,后一项是指除了i之外所有人的r之和,然后对r_i求一阶导数,然后把r_-i写成(n-1)r_i就可以得出纳什均衡解了。看上去求解很困难。你可以把全文发到我的邮箱shiqimail@126.com。