诚信困境的博弈分析


 ;

诚信困境问题的博弈分析

西安理工大学 熊义杰(710054

一.囚徒困境与诚信困境

“囚徒困境”(Prisoner’s Dilemma)是博弈论中用来说明集体理性与个体理性矛盾的典型案例,非常耐人回味,西方经济学者围绕这个例子发表过不下百篇学术论文。它虽然非常简单,但却很好地反映了博弈问题的基本特征,而且这个博弈模型正是解释众多经济现象和研究经济效率问题的非常有效的基本模型和范式,对博弈论的发展起了不小的推动作用。

      这一案例是这样说的,有两个嫌疑犯(A B )作案后被警察抓住,隔离审讯;警方的政策是 “坦白从宽,抗拒从严”,如果两人都坦白各判 5 年,如果一人坦白另一人不坦白,坦白的放出去,不坦白的重判 10 年,如果都不坦白则因证据不足各判 1 年。在这个例子里,局中人就是两个嫌疑犯A B ,他们每个人都有两个策略即坦白和不坦白,判刑的年数就是他们的支付。可能出现的四种情况:A B 均坦白或均不坦白,A坦白 B 不坦白或者 B 坦白A不坦白,是博弈的结果。A B 均坦白是这个博弈的均衡解。我们可以用下面的图1表来表述这个博弈,方格中,第一个数字是A的赢得(因为是判刑为负效用,故以负号记之),第二个数字是 B 的赢得 。

       我们看到,假定A选择坦白的话,B 最好是选择坦白,因为 B 坦白判 5 年而抵赖却要判 10 年;假定A选择抵赖的话,B 最好还是选择坦白,因为 B 坦白将不被判刑而抵赖却要被判刑 1 年。即是说,不管A坦白或抵赖, B 的最佳选择都是坦白。反过来,同样地,不管 B 是坦白还是抵赖,A的最佳选择也是坦白。结果,两个人都选择了坦白,各判刑 5 年。

                                                

 

      在(坦白,坦白)这个组合中,A B 都不能通过单方面的改变行动增加自己的收益,于是谁也没有动力游离这个组合,因此这个组合便是博弈的均衡解。 ;

囚徒困境深刻地揭示了个人理性和集体理性的矛盾。如果A B 都选择抵赖,各判刑 1 年,显然比都选择坦白各判刑 5 年好得多。当然,A B 可以在被警察抓到之前订立一个 “攻守同盟” ,但是这可能不会有用,因为它不构成博弈的均衡解,没有人有积极性遵守这个协定。个体理性与集体理性的矛盾在社会经济领域是具有普遍性的一对矛盾,个体自身利益的追求往往可能会损害集体的利益。

此外,囚徒困境博弈还说明,单纯地追求“个体理性”往往并不一定能够实现个体利益的最大化。囚徒困境博弈中双方博弈的原则都是选择对自己而言的最优策略,每个局中人的惟一决策目标都是追求自身的最大利益,然而到头来,却都事与愿违,得到的都不是对个人而言的最优策略。

囚徒困境的例子在现实中很多。下面可我们来看诚信困境的例子。

企业在市场营销过程中,通常都会有两种选择,即或者诚信经营或者选择欺诈。面对日益激烈的市场竞争,按照诚信经营的要求,企业要提高产品竞争力,只有不断地改善产品质量。然而改进产品质量无疑需要投入大量的研发经费,这无疑就增加了产品成本。因此,对于一些经费不足的小企业来说,模仿或者以次充好,或者生产中偷工减料就在所难免了,这也就是经营欺诈。无疑选择诚信经营者,成本高,利润低,而选择经营欺诈者,成本低,利润高。现假定有甲乙两个企业在同意区域市场经销同一商品,双方均有两个策略供选择,即诚信经营和经营欺诈。如果两家都诚信经营,则由于信誉好销路畅,销售成本较低,双方各得到8个单位的利润,如果两家都选择经营欺诈,则由于信誉差销路不畅,双方各得到4个单位的利润。如果一家选择诚信经营另一家选择经营欺诈,则选择欺诈经营者由于生产成本较低得到10个单位的利润,诚信经营者由于成本较高只得到2个单位的利润。于是得到如图2所示的博弈矩阵。


                                                   

 

对如图2所示的博弈矩阵进行分析,其均衡解显然应该是双方都选择经营欺诈。因为,不论是给定对方诚信经营还是经营欺诈,决策方的最优选择都只能是经营欺诈。同样,我们不难看出,对于双方集体而言,最好的策略是双方都选择诚信经营,可得到16个单位的社会总产品(利润),而在双方都选择经营欺诈的条件下,则只能得到8个单位的社会总产品(利润)。这种情况跟囚徒困境博弈所揭示的集体理性与个体理性的矛盾是一致的,这种现象博弈论中通常也称作社会两难现象,即博弈中每一方都从最大化自身利益的角度出发,得到的却并不是对双方而言的最好策略选择。

二.应对诚信困境的策略探讨

       诚信困境是一种与囚徒困境相类似的一种反映集体理性与个体理性矛盾的现实问题。如何克服这种困境问题呢?

实际上,产生囚徒困境的根本原因是局中人双方缺乏必要的先期交流。假如,俩囚徒在审讯前能达成一个协议(以不背叛为前提),或者在审讯之前他们都得到了黑帮老大的警示,如果谁出卖朋友谁将在黑帮的牢狱中被禁闭8年甚至被干掉,那么俩囚徒的选择就会很容易,不会发生囚徒困境。这相当于给如图1所示的博弈矩阵加上一个如图3所示的惩罚矩阵。加上惩罚矩阵后的博弈矩阵如图4所示。对于如图4所示的博弈矩阵,按照理性原则,俩囚徒的必然选择将是(不坦白,不坦白)。

                                                       

 

                                                         

 

这种做法给了我们一个很重要的启发,即要避免由囚徒困境导致的社会两难现象,唯有借助于国家和道德的作用。国家和道德的作用,乃在于建立一套赏罚机制,这种机制的建立正是为了调整人们的行为,使人们摆脱囚徒困境,走向合作。就数学形式而言,赏罚机制的建立,就是在赢得矩阵上加一个赏罚矩阵,或者在赢得函数上加一个赏罚函数。从实际效果上来看,实际上就是通过改变行为规则来对人们的某些行为给予一定奖赏,而对另一些行为给予一定惩罚。

如对于图1中的囚徒困境博弈,也可以通过加一个奖赏矩阵的方式来改变博弈的均衡。假定两个囚犯在审讯之前都得到了黑帮老大的警示,如果谁能顽抗到底不予坦白,谁的妻儿家小都将得到黑帮社会大约可抵偿8年刑期的抚恤。这实际上就相当于在如图1所示的博弈矩阵上加了一个如图5所示的奖赏矩阵,于是得到形如图6所示的博弈矩阵。在图6所示的博弈矩阵中,显然均衡解同样不再是(坦白,坦白),而是(不坦白,不坦白)。


 

                                                     

 

 

 

                                                     

 

 

       再比如,对于图2中的诚信困境来说,要改变博弈的均衡,既可以通过加上一个形如图7所示的奖赏矩阵的方法达到,也可以通过加上一个形如图8所示的惩罚矩阵的方法达到,当然也还可以两种方法并用,即奖赏和惩罚双管齐下。加上奖赏矩阵的诚信博弈矩阵如图9所示,加上惩罚矩阵的诚信博弈矩阵如图10所示。这两个博弈矩阵的均衡解与合作解都是一致的。


 

                                                          

 

 

                                                             

 

  

                                                                   

 


 

                                                                    

 

       要使得奖惩能够充分发挥效力,这里有必要研究和探讨一下均衡解形成的条件。

       一种意见认为,囚徒困境之所以会发生,是因为存在着占优策略。所谓占有策略,即不管别人如何选择,我选择某种策略都是最优的。用囚徒困境的例子来说,即不管对方选择坦白还是不坦白,我选择坦白总是最好的。在诚信困境中,就是说不管对方选择诚信还是欺诈,我选择欺诈总是最有利的。正是因为如此,就导致了均衡解与合作解的不一致,或者说就导致了个体理性与集体理性的矛盾。所谓合作解就是通过双方的合作获得对社会整体和个体均有利的结果。要使得奖惩能够达到如此效果,需要满足一定的条件。

       如果将加上奖惩矩阵后的博弈矩阵与原博弈矩阵进行比较,则不难发现,占优策略均衡与合作解是否一致,关键的一点是在于,当两个博弈参与者选择不同策略时所得到的不同收益是否介于当两个博弈参与者选择相同策略时所得到的最大收益和最小收益之间。运用数学语言来表述,即可以假定当两个博弈参与人选择相同策略时如诚信博弈中的(诚信,诚信)和(欺诈,欺诈)的最大收益和最小收益分别为abab),两个博弈参与人选择不同策略时(如一个选择诚信,另一个选择欺诈,或者相反)所得到的不同收益分别为cd,则可得到如图11所示的诚信博弈矩阵。


 

                                                       

 

        显然,不管cd之间的关系如何(但一般应成立cd),只要成立关系式:(aa)>(cd)>(bb),则均衡解与合作解就一定是一致的。这时的合作解和均衡解都是(诚信,诚信),即两人都选择诚信。

       否则,如果成立关系式:cabd,则均衡解与合作解就一定是不一致的。这时,合作解为(诚信,诚信),均衡解为(欺诈,欺诈)。

这一发现非常重要。它告诫我们,奖惩必须达到一定的力度,必须使得博弈参与人选择不同策略时所得到的不同收益能够控制在博弈参与人都选择相同策略时所得到的最大收益和最小收益之间,否则,就必然发生社会两难现象,必达不到奖惩的应有目的。如在图2所示的诚信困境中,如将奖惩的额度改为2,则均衡解与合作解仍然会不相一致。原因是奖惩并没有使关系式cabd变为(aa)>(cd)>(bb)。