三人二难推理

我们可以把囚犯的二难推理博奕延伸至三人或三个集团上去,如 X、Y、Z 集团或约翰、汤姆和山姆等。我们用图 10.11 这样的树状图研究。这个树状图的基本方法是顺次选择,首先是约翰选择,然后是汤姆选择,最后是山姆选择。每个集团有两选择:协调行动 c;或非协调行动 d。因为约翰首先选择,向下就分为两

图 10.11 决策树:选择和报偿的顺序

枝。一枝是约翰选择的协调行动(c)。另一支是约翰选择的非协调行动(d)。尔后到达两个节点;在每个节点,汤姆可能选 c(协调行动)或 d(非协

① :均衡相关行动方案不是任何一个对手单方面主动改变其行动方案所能确定的。均衡报偿和结果是与该类行动方案有关的报偿和结果。注

调行动)。然后又引出四个节点,在此,山姆可以选 c(协调行动)或 d(非协调行动)。最后,我们有了八个节点,在每个节点,都可以用与此点有关的三个一组的数来表示每个集团的最终报偿。这三个一组的数中的第一个数字代表约翰的报偿,第二个代表汤姆的报偿,第三个则代表山姆的报偿。例如, 如果我们看图最上面那个节点,该节点就表明三个集团中任一集团的报偿都是 3。

假设约翰首先选择一个方案。如果他选择了行动方案 c(协调方案),他的推想如下:“汤姆可能选择 c 或 d,如果汤姆选 c,那么,山姆,随后必将选 d。照此而推,他有可能得到的报偿是 8 而不是 3。因此,如果我选 c,汤姆也选 c,山姆选 d,那么我们的报偿会是-3。”

然而,约翰认为,如果他选了 c,汤姆有可能选 d,“如果汤姆选 c,而山姆选了 d,那汤姆的报偿就是-3。另一方面,我知道,如果我自己选 c,而他选了 d,届时不论山姆选 c 还是 d,他的报偿都还较为满意。如果山姆选 c, 他的报偿是 8,如果山姆选 d,其报偿就是 1。因此,汤姆不会选 c。他将选 d 而且随汤姆之后的山姆肯定会选 d。照此而推,山姆得到的报偿是 1,因为如果他选 c,那他得到的报偿就会是-3。看来如果汤姆选 d,且山姆也选 d, 那么我,约翰,如果选 c,得到的报偿会是-5。”

因此,约翰发现,如果他选 c,他的报偿不大可能会超过-3,且有可能不超过-5。因为不论哪个数字都是负值,因此约翰考虑如果他选取树状图的另一枝即 d 会得到什么报偿。如果他选 d,汤姆可能考虑选 c。在这种情况下, 如果山姆选择 c,约翰的报偿是 8;如果选 d,约翰的报偿是 1。因此,约翰的推论认为,至少就此而言,选 d 比 c 更好些。现在约翰还必须考虑如果他

——约翰选 d,汤姆也很有可能选 d。在这种情况下,如果山姆选 c,约翰的报偿是 1;如果山姆选 d,约翰的报偿是-2。约翰又一次得出结论,选 d 比选c 要好。因此,约翰选 d。

如果约翰选 d,汤姆的推论为,如果他选 c,山姆选 c,他的报偿是-3, 如果山姆选 d,他的报偿是-5。另一方面,如果汤姆选 d,他的报偿将肯定会多些。因为,如果山姆选 c,汤姆的报偿是 1,且如果山姆选 d,汤姆的报偿是-2。因而,汤姆选 d。

如果约翰选 d,汤姆随后也选 d,那么山姆就会知道,如果他选 c,其报偿是-5,如果他选 d,报偿是-2。因此,山姆选 d。那么,在图 10.11,我们一直推论到树状图的顶端节点,其结果是,每位参与者得到的报偿都是-2。注意我们又一次面临着低效用的均衡状态。如果各方都选 c,我们也会达到树状图的 顶端节点,而在那个节点上,每方的报偿都是 3。但是,不幸的是, 每位参与者的行为都是单独的,动机是狭隘自私的,结果导致每位的报偿都是-2。这再次表明,有必要而且也必需建立一个协调程序。

大家注意到,每位参与者得到的结果都是-2 是靠约翰是否犯错误而定, 而他本应首先选 c。因为他可以改变自己的行动方案,他会发现如果他选了c,他的报偿会是-3,或更有可能是-5,因此,他肯定如果他改 c 为 d,情形会好些。选 d,充其量最坏的结果也是-2。

到此,我们已经描述了两个有关囚犯二难推理问题的例子——一个例子包括两个人,而另一个例子包括三个人。这类情况是非常重要的。由于这类相互依存的决策情况的存在导致常常出现社会问题。一个例子就是街区退化问题,在贫民区和少数民族居住区中,房产主放任其房屋条件不断恶化。在

这样的地区,景观恶化是非常常见的,而且,房产主对于他所有的地段的环境恶化听之任之。常见的特征是噪音污染逐步上升,噪音污染对城市地域的影响日益增大。

有关住宅区恶化的例子。让我们更明确些,我们来详述与街区恶化有关的例子。设在某一街区的房屋由三个房地产主所有。我们设想了表示其利润的数额。假定行动方案 c(协调方案)表示决策和决策生效,该决策要重新维修房屋并在原有基础上进行纯投资建设;假定我们拟定行动方案 d(非协调方案)表示的行动包括不再维修房屋,且任其恶化。由图 10.11 就可明白最后的结果就是每个房地产主都选择 d。因此,谁也不会维修房屋——导致街区环境恶化。

然而,你可能疑惑图 10.11 中的数字是否符合实际,而且怀疑街区恶化

只是因为我们选择了一组特定的数字造成的。因此,必须判断图 10.11 中的数字合适与否或提出其正确的理由。假定,我们设约翰和汤姆都选 d(不再维修房屋)。那么山姆可能会选择维修或不维修房屋。如果他选定维修房屋, 结果他就要花费大笔开支用于油漆、粉刷、安装管道等——但是由于约翰和汤姆不再维修他们的房子,因此,房租就会下跌。因此,山姆的报偿就会比其不再维修房屋所得的报偿少。假设不去维修房屋,或许房租下跌更多,因为该街区恶化会更加严重。但是,由此带来的总租金收入的减少额将小于在维修房屋情况下额外开支的数额。因此,他将选 d。换言之,要使他选 c,他就必须得到足够的补偿,即报偿为 3,这样可以抵销维修时的额外开支。但是这种可能只有在房租足够高时才能实行,只有在约翰和汤姆都维修房屋时才有可能出现这种情况。

设想我们沿树状图再向左看。设约翰选 d,而汤姆考虑选 c 或 d。他知道出于狭隘的自私自利,山姆会力图获取最大利润。因此,他知道,如果他选c,花钱维修房屋,山姆将会选 d。因为如果山姆选 c,山姆的报偿会是-3; 如果选择不再维修房屋,其报偿会是+1。在这个例子中,他(汤姆)选 c,而山姆选 d,那么,他(汤姆)的报偿会是-5;因此,汤姆不会选 c 使其收益成为-5。他宁愿将房租降低一些,虽然收入少了,但只要他选择 d 就可以实现, 这样可以避免因他选 c 方案而带来的维修房屋的额外开支和遭受很大损失。用这种办法由相应于报偿为-5 的方案变为-3 的方案,他便减少了损失。

出于同样的考虑,我们可以指出约翰将不会选 c。如果约翰选 c,那么, 他知道如果汤姆也选 c,山姆将选 d。山姆这样做是因为他这样做得到的利润较多——如果他不维修他的房子,虽然在总的房租收入上遭受了少量的损失,但却不必花大价钱去维修。因此,他将选 d,因为这时他得到的报偿较高——此时可得到 8 而不是 3。但是应注意到由于山姆不去维修他的房产, 租金会下跌,约翰和汤姆所得报偿也减少,实际上,他们的报偿都是负值。因此,约翰不会对 c 感兴趣。当约翰考虑到万一汤姆选 d 而不选 c 而发生的情况时,约翰对 c 不感兴趣就更显而易见了。在这种情况下,山姆也会选 d, 而约翰的报偿将是-5。因此,约翰推想,没有办法取得更好结果,也没有办法证明花钱维修是值得的,因此,他只好选 d。

现在,假如你怀疑本例所用数字的合理性。你有充分理由这样做。不过, 其结果,即每位参与者都选行动方案 d(不维修房屋,或非协调),不论在任何情况下都总是一样,就如在图 10.12 的决策树中那样,对这些集团的几种可能的报偿之间的关系是 P>R>S>T>U>V。请注意,图 10.11 的数字也可

满足上述关系。

另外,我们可以把与图 10.12 中字母 P 对应的图 10.11 中的数字 8 变成

任一比 3(3 在图 10.12 中对应的字母是 R)大的数字,这样做结果不会有变化。或者,我们把图 10.11 的数字 3 变成+1 和+8 之间的任一其他数,在图

  1. 中+1 变为字母 S,+8 变为字母 P,这样做结果也不变。或者,我们可把数字 3 和 8 任意改变,只要相应于 R 的数字比相应于 S 的数字大,而比相应于 P 的数字小即可。

简言之,在房产主问题中采用可表示报偿的数字组,或保持 P>R>S>T

>U>V 的关系的字母,最后的结果都一样;即是说,每个房产主不会选择维修房屋的方案。这就是现实生活中常出现的情况。

但是,你可能争辩说这并非现实世界的真实写照。事实上,你可以争论说现实世界的决策是不能伸缩的;而且也不能逆推。人们在作出决策时,他人的决策有可能没确定下来。进而,你可以争辩说他们不知道其他对手要做的决策对他们的结果或利益有何影响。但是可以肯定的是,在一段较长的时间内上述说法不能成立。在房地产主例子中,假定有一个房产主,约翰,在某一时刻做出了维修其房屋的决策,这是一个百分之百的出自狭隘自私自利的决策,他判断会获得最大利润。假定过了一段时间,第二个房产主,汤姆, 需要做出决策是否要花钱维修其房屋。假设他消息并不灵通;而且在他做了最大努力的计算后,他也得出结论维修房屋可获最大利润。现在,第三个房产主,山姆也出来了,他也得做出决策。他的动机也很简单,就是要获得最大利润——获得金钱是其兴趣所在。他可能看到约翰和汤姆投资于房屋维修上,或看到房租上涨了。那么他会断言:“如果我投资,开销很大。这有可能使我得到更高的房租,而且因此会使总收益有所增加。但是另一方面,如果我不再投资,我可以节省好多钱。或许我的房租会便宜些,但是我们收到的总的房租额的下降肯定不会超出我免于支付的总额。因此,这使我还是以不维修房屋为好。”

因此,我们所面临的情况是在一年之内约翰和汤姆维修房屋,而同时山姆却不维修房屋。约翰和汤姆的报偿不会高。事实上,因为山姆不再维修房屋而引起的房租下跌使他们的收入呈负值,而同时约翰和汤姆却为维修房屋花掉大笔开销。因此,在后一年,当再次需要做出决策是否继续维修房屋时, 汤姆可能推断,如果他不再维修房屋,他的情况会好转。结果是当房租仍在下降时,他就不会有维修上开支的损失。如果约翰继续维修房屋,他的报偿将是 1,而如果约翰不再继续维修房屋,其报偿就是-2。在以上任一情况下, 他的情况都比其报偿为-3 更好些,因此他决定不再继续维修房屋。

以同样方式而言,作为一个狭隘自私自利的决策者的约翰迟早也会懂得在这种单独竞争行动的情况下再继续维修房屋是不明智的。

注意,即便是山姆最初也选择了维修房屋的决策——假设说他恰好在决策的那天早上脑子没转过来,或暂时还受到高尚精神的影响(在前一天晚上刚在福音会上受过训戒)——但最后我们假定的这些房产主中至少有一个在某时会突然清醒,且主动地去追求自身狭隘的私利,他会看到在别人做出决策修维房屋时,他不那样做,其报偿会如何增加。那么,他会选择不维修房屋的决策。在同一情况下,其他每一房产主也将选择不维修房屋。因而,我们再次得出了街区恶化的结果。这也是一个有助于很好地研究协调程序的问

题。