《自私的基因》读书笔记:第十三章:合作的策略:一场计算机的竞赛

吴小庆

<p class="ql-block"> 如何在博弈中将主动权掌握在自己手里?如何由自己来选择博弈策略,而不只是被动地迎合别人?如何在博弈中采用能获得最大利益的策略呢?</p><p class="ql-block" style="text-align: justify;"> 这种困惑不仅我们有,所有博弈参与者都有。</p> <p class="ql-block"> 从人的本性来说,人都是自私的,一个人做有利于社会及他人的事,是做好事;而做损害他人利益及社会的事,就是做坏事。人做事总是以自己的利益为出发点,这样就倾向于做“坏事”!有怀疑吗?是的,但这确实是真的!!人的自然倾向是“做坏事”。</p><p class="ql-block"> 而从社会博弈论来说,背叛总能取得最大的利益,特别是在他的背叛本能还没有被大家识破之前,总能得利,选择的还是做“坏事”。所以从人的本性来讲,是无所谓好坏的,是以获取最大利益为其目的的。</p><p class="ql-block"> </p> <p class="ql-block"> 但遗憾的是,你的“合作伙伴”也是这么想的。大家都做坏事,互相损坏,结果大家都吃亏,合作难以进行。为获取利益最大化,人们不得不反过来争做“好人”,而不做“坏人”。因为“做好人”带来的长远利益最大化远远超过了“做坏人”。做好人带来的利益是长期的,而做坏人获得的利益是一过性的。于是人们一方面做着好人,但又时刻准备着随时“背叛”,做次坏人。在博弈中,“没有好坏、只有利益”。</p><p class="ql-block" style="text-align: justify;"> 在所有非零和博弈游戏参与者中,他们一部分利益是一致的,另一部分是冲突的,一个策略的有效性不仅取决于这个策略的本身特点,而且取决于当它遇到其他策略时它的应对性。</p> <p class="ql-block" style="text-align: justify;"> 世界很快就来到20世纪后期,大型电子计算机进入临床应用,使超级矩阵计算成为可能。博弈论专家终于有了验证之地,为了选择最佳的博弈策略,用计算机设计了博弈策略方案的竞赛。</p><p class="ql-block" style="text-align: justify;"> 竞赛是循环进行的,每一个竞赛程序都随机地与其他程序相遇,以相等的概率随机地选择合作或背叛。每轮游戏有200次对局,支付矩阵按照“囚徒困境”来设计:</p><p class="ql-block" style="text-align: justify;"> 对双方合作奖励每人3分;对双方背叛每人只给1分;如果一人背叛一人合作,背叛者得5分,而合作者仅得0分。整个循化赛重复了5次,一共进行了12万次对局,24万个不同的选择。</p> <p class="ql-block" style="text-align: justify;"> 竞赛开始了,来自全世界心理学、经济学、数学、社会学、政治学精英们,共设计了14个程序参加了比赛,绝大部分程序来自那些博弈论或在“囚徒困境”方面有过深入研究的人员,允许不同学科的人以相同的语言和规则进行相互竞赛。</p><p class="ql-block" style="text-align: justify;"> 14个程序中包含了各种复杂的策略。竞赛的结果却使阿克塞尔罗德和其他人大为吃惊,竞赛的桂冠居然属于多伦多大学心理学家阿纳托·拉帕波特提交上来的,也是其中最简单的策略:一报还一报(TIT FOR TAT)策略,总得分为504.5分。</p><p class="ql-block" style="text-align: justify;"> 比赛的总分是600分,那些善意的程序(指不首先背叛的程序),平均得分在472-504分之间,而那些不善良的程序(常常首先背叛的程序)的平均得分仅401分。比赛的前8名均是善意的程序。</p> <p class="ql-block" style="text-align: justify;"> 一报还一报策略是这样的:它总是以合作开局,但从此以后就采取以其人之道还治其人之身的策略(即针锋相对策略)。也就是说,如对方采取合作策略,就继续合作下去;如对方一旦采取背叛策略,就马上强硬采取背叛策略,决不拖延。</p><p class="ql-block" style="text-align: justify;"> 一报还一报的策略实行了胡萝卜加大棒的原则。胡萝卜在先,大炮在后。它永远不首先背叛对方,从这个意义上来说它是“善意的” 。它会在下一轮中对对手的前一次合作给予回报(哪怕以前这个对手曾经背叛过它),而不管对方以前的表现,从这个意义上来说它是“宽容的”。但它一旦遭到背叛就会立即以背叛来惩罚对手前一次的背叛,从这个意义上来说它又是“强硬的”。而且,它的策略极为简单,针锋相对,对手一望便知其用意何在,从这个意义来说它又是“简单明了的”。</p> <p class="ql-block" style="text-align: justify;"> 因为竞赛的结果太出乎意料了,于是阿克塞尔罗德又组织了第二次竞赛,并在竞赛前将第一次竞赛的结果公布,即参赛者都知道第一轮“一报还一报”策略赢得了第一轮竞赛,一报还一报策略亮相公开。大家惊叹其策略的简单、明了。于是围绕着一报还一报的策略设计出许多更复杂、更精细、更大胆的方案。针对修改过的程序再次进行测试,但这次比赛为无限循环,没有人知道最后一步会什么时候到来(这消除了游戏最后一步的影响)。</p><p class="ql-block" style="text-align: justify;"> 来自美国、加拿大、英国、挪威、瑞士、新西兰等6个国家的专家提供了62个程序参加了竞赛,63个规则(包括随机程序)在循环赛中有3969个配对,第二次竞赛一共进行了上百万次对局。</p><p class="ql-block" style="text-align: justify;"> 在竞赛中,许多程序的表现是耐人寻味的,如“检验者”程序,经常出其不意背叛一下,以求得最大利益,如遇到对手反击,就赶紧道歉,恢复合作,以后有机会再不定期背叛。而“镇定者”程序则是以合作为主,间歇主动背叛,但不会连续2次,背叛人数也不超过群体的1/4。其他还有“一报还二报”与“二保还一报”策略。</p><p class="ql-block" style="text-align: justify;"> </p> <p class="ql-block"> 值得一提的是“哈林顿”程序,这是一个占便宜的程序,也是唯一一位列前15名的非善良程序。一开始就跑在前列,在竞争头200代以前,它还名列前茅,但到了200代以后,情况发生了变化,那些不成功的策略纷纷淘汰,这意味着被“哈林顿”占便宜的“冤大头”也越来越少,但当这些老实人都消失以后,“哈林顿”失去了猎物,其命运也与其猎物相同了,到1000代时就完全消失了,正如那些被他消灭的“冤大头”一样。</p><p class="ql-block" style="text-align: justify;"> 最终,结果出来了,还是“是一报还一报”策略又一次夺魁。竞赛的进程与结论都是无可争议的,一开始,“一报还一报”并不是最领先的,但慢慢地,随着竞赛的发展,其得分越来越靠前,最终夺得胜利,<b>这意味着好人总有好报</b>,具有这种策略的人,最终总会是赢家。</p> <p class="ql-block" style="text-align: justify;"> 后来,举办者又进行了第三次“重复囚徒困境博弈对抗赛”,这一次并未采取新的程序,而是改变了电脑程序后将第二次参与比赛的63个程序进行了重新比赛。比赛的胜负不是以得分高低来决定,而是依据其产生多少后代来决定。到200代时,几乎所有的狡诈的恶意程序都消失了,“一报还一报策略”仍然表现良好,其他5种“善良而不懦弱”的策略表现也与“一报还一报”一样表现良好。</p><p class="ql-block" style="text-align: justify;"> 到1000代时,策略与环境都已不能再改变而达到了“进化稳定策略(EES)状态,当所有的欺诈程序都消失后,“一报还一报”和别的善良程序已无法区分,趋向融合,因为他们全是善良的,采取合作策略。难怪道金斯评论说:就是在“自私的基因”控制下,好人仍有好报。“好人有好报”终于有了理论上的依据。</p> <p class="ql-block" style="text-align: justify;"> 组织者将这次竞赛的所有程序分为三种:</p><p class="ql-block" style="text-align: justify;"> 1、善良的程序,在任何时候都不会首先背叛;</p><p class="ql-block" style="text-align: justify;"> 2、恶意的程序,会经常在你不注意时进行背叛,以求占便宜获得高分; </p><p class="ql-block" style="text-align: justify;"> 3、冤大头、逆来顺受者程序,受到背叛时不会有力反击者。</p><p class="ql-block" style="text-align: justify;"> 在竞赛开始的阶段,善良的程序并不占先,恶意的程序一路领先,而逆来顺受者程序得分最少,远远落在后面。到竞赛中期,逆来顺受者程序基本被消灭,而恶意者程序互相遭遇的机会增多,相互背叛的机会增多,得分开始下降。而到了竞赛后期,善良的程序开始领先,恶意的程序由于相互背叛增多并受到善良但不懦弱程序的反击,得分直线下降,最终完全消除。</p> <p class="ql-block" style="text-align: justify;"> 而在现实中也是如此,最初背叛侵略进攻者,一开始都能获利匪浅,而那些软弱的逆来顺受者往往最先被消灭。而那些挺过了第一波攻击,并采取反击者,则慢慢获利。随着时间的推移,那些坚定反击而不背叛者,获利则越来越多,而那些背叛侵略者则越来越弱,渐渐消失。最终胜利归于善良反击者。</p><p class="ql-block" style="text-align: justify;"> 而“一报还一报”策略,又称“针锋相对”策略,就是这样一个策略,始终在竞赛中取得胜利,可见这种策略是一个“<b>进化稳定策略(EES)</b>”,成功必有其内在的原因。这就是原因!拿这个去理解当前世界上的争执,战争、和平、合作,还有什么不明白的吗?谁胜谁负早已确定。(吴小庆)</p>