Repeated Games
1. Concepts
1.1 Motivation
从理论上回答,如何走出囚徒困境
- 重复博弈的情况下,合作对每个理性⼈来说可能是最好的选择
- ⾮合作博弈的⽅法可以得出⼀个合作的结果
1.2 Terms
stage game 阶段博弈
- 重复博弈中的每一个子博弈
- 可能是一个动态博弈
repeated game 重复博弈的三个特点
- no physical link: 前一阶段的结果不改变后一阶段博弈的结构
- 田忌赛马不是
- 现实中不一定严格保持,比如企业与客户之间,产品和偏好会变化
- 每个参与人都能看到博弈过去的历史
- 最终报酬 = 各个阶段博弈支付的贴现值之和
1.3 Strategy Space
一次性博弈中的策略:信息集到行动空间的映射
重复博弈中的策略:「历史依存性」;历史到行动空间的映射
- 拓展了每个人的战略空间,使合作有可能作为均衡结果出现
不会出现合作结果的策略
- Always defect 永远不合作
- Always cooperate 永远合作
- 一方选择永远合作,另一方的最优策略是永远不合作(一直占便宜),因此这不是 NE
被人们普遍使用的两种最可能导致合作的战略
- tit-for-tat 针锋相对/以牙还牙,以眼还眼
- 一开始合作
- 被欺骗一次,下次就不合作;如果下次又不被欺骗,再下次就恢复合作
- trigger 触发战略/冷酷战略
- 一旦被欺骗一次,就永远不合作
1.4 贴现因子
贴现因子反映耐心、对未来的重视程度;其可能组成/解释:
- 未来的收益比不上等量的当下的收益
- 博弈下一次重复的可能性(可能会结束)
宗教:使人接受在来世去得回报,即更重视未来利益,从而促进社会成员的合作
folk theorem 无名氏定理:在无限期重复博弈中,如果每个参与人都对未来足够重视,即贴现因子 \(\delta\) 足够大,那么「任何程度的合作」都可以作为一个精炼纳什均衡结果出现。
- 「任何程度的合作」:即合作程度,在整个博弈中合作出现的频率;如 100% (每次都不欺骗)、 0% (每次都欺骗)。
2. 战略与案例
2.1 tit-for-tat 针锋相对
Robert Axelrod 罗伯特·阿克塞尔罗德 通过计算机模拟,在重复囚徒困境博弈的设置下发现 tit-for-tat 是最好的策略(《合作的进化》)
- 善良性:从不首先背叛,防止陷入非合作的麻烦
- 可激怒性:报复对方的背叛行为,使对方选择背叛时更加谨慎,不敢坚持背叛
- 宽容性:助于在对方背叛后重新展开合作
- 可预测性:对合作与背叛的态度很简单,易于他人理解,减少不必要的试探
合作的基础不是信任或者友谊,而是关系的可持续性!
双方都使用针锋相对策略是 NE ,但不是 SPNE
- 一方不合作之后,另一方如果惩罚,则双方错位地进入合作/不合作的交替循环,不如另一方不惩罚而是合作的收益高
- 一方判断出另一方没有惩罚的积极性(不可信惩罚),就会继续行骗(不合作)
2.2 trigger/grim strategy 触发战略
在信息完全的情况下,这个战略反倒最容易导致合作的出现:⿊社会组织成员最团结、最忠诚(?
双方都选择触发策略,是 NE ,也是 SPNE
2.3 信息与合作
3. 不同的重复博弈
两人零和博弈的有限次重复博弈:唯一 SPNE 就是双方使用原博弈 NE 的(混合策略的)重复
- 可推广至非零和、没有纯策略 NE 的严格竞争博弈
阶段博弈有唯一的纯策略 NE ,则有限次重复博弈的唯一 SPNE 就是阶段博弈 NE 的重复
两人零和博弈的无限次重复博弈:仍然是阶段博弈混合策略 NE 的重复
阶段博弈有唯一的纯策略 NE ,则无限次重复博弈
- 若 NE 本身是帕累托最优,则无论有限还是无限,都和一次性博弈无区别
- 若 NE 处效率不是最高的,可以通过触发策略构建效率较高的均衡,这同时也是 SPNE
- 前提:存在潜在合作利益且未未利益相当重要(贴现因子足够大)
4. 信誉
重视信誉的条件:
- 重复博弈
- 足够耐心
- 相对确定的环境:农村社会与工业社会
- 欺骗可以被观察到
- 受骗人有积极性进行惩罚
中国农村社会现象:
- 成家立业与随礼
- 标会
商业社会
- 匿名社会;流动性大
- third-party enforcement
例子:
世代交替
多人合作
长期参与人与不固定的短期参与人
电商评论
多重交易与合作行为
- 多种交易关系叠加,可以降低其中某些交易中达成合作的难度(对贴现因子要求更低)
- 市场交易常常镶嵌在复杂的社会关系中,这种关系可以提高交易的合作程度,这是人们愿意发展社会关系的原因
- 经济史:人格化交易 \(\rightarrow\) 制度化交易
- 中国社会:关系文化:用社交关系支撑商业关系
- 近期对二手交易平台转转的研究:信用分数对达成交易的影响显著大于微信好友连接的影响
- 多重交易的负面影响:杀熟:惩罚对惩罚者本身的损害太大,惩罚就是不可信的,就难以使人注重信誉
阶段博弈有唯一的 NE ,则对于有限次重复博弈,其有唯一的子博弈精炼 NE ,为阶段博弈 NE 的策略重复使用
- 有限次,阶段博弈有多个纳什均衡
- 无限次,取决于贴现因子,与具体的策略
- 重复博弈扩展,多人,
计算机模拟:一报还一报的收益最大(《合作的演化》)