第九章附录:附加报偿值以及后悔值的计算报偿的计算:

我们希望在本附录中更加确切地解释正文所使用的概念,并且在某些方面作深入的分析。

考察表 9.1 的报偿矩阵。我们把它标为π。它由报偿πij 组成。在这里, i 代表行(i=A、B、C、D),j 代表列(j=Ⅰ,Ⅱ,Ⅲ,Ⅳ)。

现在看预.计.报.偿.的概念。有几种计算预计报偿的方法。一种方法是确定

事态j出现的可能性a j (j = Ⅰ,Ⅱ,Ⅲ,Ⅳ),这里0≤a j≤1以及∑a j = 1。

j=1

因此任何行动 i(i=A,B,C,D)的值为下述总数:

见∑a jπij(j = Ⅰ,Ⅱ,Ⅲ,Ⅳ) (9A.1)

j

另一规定预计报偿的含义的方法是按大小排列任何一行中的报偿如下πi(1)≥πi(2)≥πi(3)≥πi(4)

这里的括号中的下标仅涉及大小顺序而不涉及任何具体事态。设β(1) 为有关决策人的任何一行的最大报偿实现的可能性,β( 2)为第二大报偿实现的可能性,β(3)为第三大报偿实现的可能性,β(4)为最小报偿实现的

可能性。于是,当0≤β( k) ≤1,而且∑β( k ) = 1时,任何行动i的报偿值为下

k =1

述总数:

∑β ( k ),π i( k) (k = 1, 2, 3, 4) (9A.2)

k

现在来考察那些一心谋求最大预计报偿的人。百分之百乐观主义者用9A.2 式来规定任何行动的预计报偿。他还规定β(1)=1;β(2),β(3),β

(4)=0。于是,在选择可以使预计报偿达到最大值的行动时,他会选择最大

值中值最大的行动,即,他遵循一条最大-最大策略。

百分之百的悲观主义者也用 9A.2 式来规定任何行动的预计报偿。然而, 他设β(1),β(2),β(3)=0;β(4)=1。于是在选择使预计报偿达到最大值的行动时,他会选择最小值中值最大的行动,即,他遵循一条最大-最小策略。(注意,完全保守型的人也遵循一条最大-最小策略)。然而他不是按预计报偿来看问题。反之,他要做那些“确有把握的”事,与任何行动相关联的确有把握的事是该行动所造成的最低的可能报偿。因此,作为一个追求最大值的人,他选择这些确有把握的事中产生最高的可能报偿的行动,每一行动仅有一个确有把握的事。

现在考察那些认为每种事态都有可能实现,但由于缺少信息而认为每种事态发生的可能性大体相等的预期最大报偿者。他用 9A.1 式来规定任何行动的预计报偿。他设 aⅠ,aⅡ,aⅢ,aⅣ=0.25,从而得到每个行动 i 的值

0.25∑ π ij j

他选择具有最高值的行动,我们能够预料到这一选择。

然而,总的说来,当我们不知道决策人确定的 ai 时,我们就不能预测他的行为。

观察乐观主义-悲观主义混合型人物,他用 9A.2 式来规定任何行动的报

偿并且认为每一行中最大报偿与最小报偿的出现机会各为 50%。按他的思

路,我们可以认为β (1) ,β (4 ) = 0.5;β(2 ) ,β(3) = 0.0。因此, 每个

行动 i 的值(i=A,B,C,D)为下述总数

0.5〔πI(1)+πI(4)〕

因而我们能够预料他的行为。一般说,当我们不知道β(k)时,我们就不能预测这位预期最大报偿追求者的行为。