《自私的基因》读书笔记：第十三章：合作的策略：一场计算机的竞赛

吴小庆

如何在博弈中将主动权掌握在自己手里？如何由自己来选择博弈策略，而不只是被动地迎合别人？如何在博弈中采用能获得最大利益的策略呢？ 这种困惑不仅我们有，所有博弈参与者都有。 从人的本性来说，人都是自私的，一个人做有利于社会及他人的事，是做好事；而做损害他人利益及社会的事，就是做坏事。人做事总是以自己的利益为出发点，这样就倾向于做“坏事”！有怀疑吗？是的，但这确实是真的！！人的自然倾向是“做坏事”。 而从社会博弈论来说，背叛总能取得最大的利益，特别是在他的背叛本能还没有被大家识破之前，总能得利，选择的还是做“坏事”。所以从人的本性来讲，是无所谓好坏的，是以获取最大利益为其目的的。 但遗憾的是，你的“合作伙伴”也是这么想的。大家都做坏事，互相损坏，结果大家都吃亏，合作难以进行。为获取利益最大化，人们不得不反过来争做“好人”，而不做“坏人”。因为“做好人”带来的长远利益最大化远远超过了“做坏人”。做好人带来的利益是长期的，而做坏人获得的利益是一过性的。于是人们一方面做着好人，但又时刻准备着随时“背叛”，做次坏人。在博弈中，“没有好坏、只有利益”。 在所有非零和博弈游戏参与者中，他们一部分利益是一致的，另一部分是冲突的，一个策略的有效性不仅取决于这个策略的本身特点，而且取决于当它遇到其他策略时它的应对性。 世界很快就来到20世纪后期，大型电子计算机进入临床应用，使超级矩阵计算成为可能。博弈论专家终于有了验证之地，为了选择最佳的博弈策略，用计算机设计了博弈策略方案的竞赛。 竞赛是循环进行的，每一个竞赛程序都随机地与其他程序相遇，以相等的概率随机地选择合作或背叛。每轮游戏有200次对局，支付矩阵按照“囚徒困境”来设计： 对双方合作奖励每人3分；对双方背叛每人只给1分；如果一人背叛一人合作，背叛者得5分，而合作者仅得0分。整个循化赛重复了5次，一共进行了12万次对局，24万个不同的选择。 竞赛开始了，来自全世界心理学、经济学、数学、社会学、政治学精英们，共设计了14个程序参加了比赛，绝大部分程序来自那些博弈论或在“囚徒困境”方面有过深入研究的人员，允许不同学科的人以相同的语言和规则进行相互竞赛。 14个程序中包含了各种复杂的策略。竞赛的结果却使阿克塞尔罗德和其他人大为吃惊，竞赛的桂冠居然属于多伦多大学心理学家阿纳托·拉帕波特提交上来的，也是其中最简单的策略：一报还一报（TIT FOR TAT）策略，总得分为504.5分。 比赛的总分是600分，那些善意的程序（指不首先背叛的程序），平均得分在472-504分之间，而那些不善良的程序（常常首先背叛的程序）的平均得分仅401分。比赛的前8名均是善意的程序。 一报还一报策略是这样的：它总是以合作开局，但从此以后就采取以其人之道还治其人之身的策略（即针锋相对策略）。也就是说，如对方采取合作策略，就继续合作下去；如对方一旦采取背叛策略，就马上强硬采取背叛策略，决不拖延。 一报还一报的策略实行了胡萝卜加大棒的原则。胡萝卜在先，大炮在后。它永远不首先背叛对方，从这个意义上来说它是“善意的” 。它会在下一轮中对对手的前一次合作给予回报（哪怕以前这个对手曾经背叛过它），而不管对方以前的表现，从这个意义上来说它是“宽容的”。但它一旦遭到背叛就会立即以背叛来惩罚对手前一次的背叛，从这个意义上来说它又是“强硬的”。而且，它的策略极为简单，针锋相对，对手一望便知其用意何在，从这个意义来说它又是“简单明了的”。 因为竞赛的结果太出乎意料了，于是阿克塞尔罗德又组织了第二次竞赛，并在竞赛前将第一次竞赛的结果公布，即参赛者都知道第一轮“一报还一报”策略赢得了第一轮竞赛，一报还一报策略亮相公开。大家惊叹其策略的简单、明了。于是围绕着一报还一报的策略设计出许多更复杂、更精细、更大胆的方案。针对修改过的程序再次进行测试，但这次比赛为无限循环，没有人知道最后一步会什么时候到来（这消除了游戏最后一步的影响）。 来自美国、加拿大、英国、挪威、瑞士、新西兰等6个国家的专家提供了62个程序参加了竞赛，63个规则（包括随机程序）在循环赛中有3969个配对，第二次竞赛一共进行了上百万次对局。 在竞赛中，许多程序的表现是耐人寻味的，如“检验者”程序，经常出其不意背叛一下，以求得最大利益，如遇到对手反击，就赶紧道歉，恢复合作，以后有机会再不定期背叛。而“镇定者”程序则是以合作为主，间歇主动背叛，但不会连续2次，背叛人数也不超过群体的1/4。其他还有“一报还二报”与“二保还一报”策略。 值得一提的是“哈林顿”程序，这是一个占便宜的程序，也是唯一一位列前15名的非善良程序。一开始就跑在前列，在竞争头200代以前，它还名列前茅，但到了200代以后，情况发生了变化，那些不成功的策略纷纷淘汰，这意味着被“哈林顿”占便宜的“冤大头”也越来越少，但当这些老实人都消失以后，“哈林顿”失去了猎物，其命运也与其猎物相同了，到1000代时就完全消失了，正如那些被他消灭的“冤大头”一样。 最终，结果出来了，还是“是一报还一报”策略又一次夺魁。竞赛的进程与结论都是无可争议的，一开始，“一报还一报”并不是最领先的，但慢慢地，随着竞赛的发展，其得分越来越靠前，最终夺得胜利，这意味着好人总有好报，具有这种策略的人，最终总会是赢家。 后来，举办者又进行了第三次“重复囚徒困境博弈对抗赛”，这一次并未采取新的程序，而是改变了电脑程序后将第二次参与比赛的63个程序进行了重新比赛。比赛的胜负不是以得分高低来决定，而是依据其产生多少后代来决定。到200代时，几乎所有的狡诈的恶意程序都消失了，“一报还一报策略”仍然表现良好，其他5种“善良而不懦弱”的策略表现也与“一报还一报”一样表现良好。 到1000代时，策略与环境都已不能再改变而达到了“进化稳定策略（EES）状态，当所有的欺诈程序都消失后，“一报还一报”和别的善良程序已无法区分，趋向融合，因为他们全是善良的，采取合作策略。难怪道金斯评论说：就是在“自私的基因”控制下，好人仍有好报。“好人有好报”终于有了理论上的依据。 组织者将这次竞赛的所有程序分为三种： 1、善良的程序，在任何时候都不会首先背叛； 2、恶意的程序，会经常在你不注意时进行背叛，以求占便宜获得高分； 3、冤大头、逆来顺受者程序，受到背叛时不会有力反击者。 在竞赛开始的阶段，善良的程序并不占先，恶意的程序一路领先，而逆来顺受者程序得分最少，远远落在后面。到竞赛中期，逆来顺受者程序基本被消灭，而恶意者程序互相遭遇的机会增多，相互背叛的机会增多，得分开始下降。而到了竞赛后期，善良的程序开始领先，恶意的程序由于相互背叛增多并受到善良但不懦弱程序的反击，得分直线下降，最终完全消除。 而在现实中也是如此，最初背叛侵略进攻者，一开始都能获利匪浅，而那些软弱的逆来顺受者往往最先被消灭。而那些挺过了第一波攻击，并采取反击者，则慢慢获利。随着时间的推移，那些坚定反击而不背叛者，获利则越来越多，而那些背叛侵略者则越来越弱，渐渐消失。最终胜利归于善良反击者。 而“一报还一报”策略，又称“针锋相对”策略，就是这样一个策略，始终在竞赛中取得胜利，可见这种策略是一个“进化稳定策略（EES）”，成功必有其内在的原因。这就是原因！拿这个去理解当前世界上的争执，战争、和平、合作，还有什么不明白的吗？谁胜谁负早已确定。（吴小庆）