Dynamic Games

完全信息动态博弈：序贯理性，与静态博弈中的理性有啥区别？动态博弈中以什么方式刻画序贯理性的要求？（完全信息：逆向归纳；不完美信息：子博弈精炼刻画序贯理性）

1. 逆向归纳

静态理性

事前：博弈开始之前

sequential rationality 序贯理性

一般来说，在完美信息博弈中，先行一方有优势
后行一方试图用言语影响先行一方的选择，从而摆脱后行劣势：许诺、威胁
许诺/威胁的可信性：关键是事先最优与事后最优是否一致——动态一致性
序贯理性比纳什均衡对应的静态理性要求更高：可以用于 refinement of NE
- 静态博弈中，策略无法改变； NE 仅仅要求了事先最优的理性
- 动态博弈中，策略可以调整：存在事前、事后不一致的可能
- 动态博弈中需要排除不可信的威胁或承诺，使事先、事后一致
建立序贯理性的一种方式： backward induction 逆向归纳：从最后一个时间点倒推；

Zermelo 定理：每一个完美信息有限博弈都可以通过逆向归纳求得一个纯策略的纳什均衡
- 有限博弈
- 完美信息
推论：象棋存在唯一的最优的解

逆推归纳法总结：

例子：海盗分赃

注意：现实中不一定所有局中人都是足够理性的，需要沟通
- 从博弈论角度沟通的关键：对未来利益格局的判断与分析
- 现实中，一方理性，一方不理性，很多时候非理性的一方占便宜；非理性可以作为一种博弈的手段；感性打败理性：感性具有力量与价值
- 使用非理性博弈的群体：医闹、地痞、领导、……
- 非理性会透支 reputation ，无法成为最终达成均衡的手段
多人博弈：联盟博弈：谁是盟友？利益格局决定的；拥有主导权的人能使谁收益

但逆向归纳法存在局限

蜈蚣博弈

供应链

子博弈完美纳什均衡 SPNE

斯塔克博格 (Stackelberg) 模型

双曲贴现与指数贴现的区别

类似双曲贴现的一种三期收益表达 $$ u = u(0) + \beta \delta u(1) + \beta \delta^2(2) $$ 自我博弈中不同种类的人

time consistent agents 一以贯之的人：纯指数贴现
naive agents 天真的人：双曲贴现，但不考虑自我控制的问题，具有偏好反转的可能
sophisticated agents 世故的人：双曲贴现，但考虑自我控制，今天的自我与未来的自我博弈，用 SPNE 来做决策（逆向归纳）
- 考虑到自己未来的选择，从而在当下做一些承诺行为来约束自己：e.g. 知道自己自学不行，于是参加辅导班

salient costs 速显成本：行动则成本立即显现，回报需要等待；相比 consistent agents 来说：

salient rewards 速显收益：行动则回报及时显现，但成本需要等待；相比 consistent agents 来说：

如何解决不完美信息？

Selten: 理性人向前看，无论事前计划，在新情形下都应该根据情况选择最优行动

确定子博弈精炼纳什均衡的方法：

如何让承诺变得可信？

减少自己的选择：不留退路，破釜沉舟
缩小自己的权力
边缘政策：故意创造风险
- 不是依赖确定性的可怕结果来威胁对方，而是使出现这一结果的风险不断加大来让对方让步
有限政府 limited gov
- 光荣革命前，国王可以随意修改借款条款，导致人们不愿意向政府贷款
  
  光荣革命后，决定国债的权力在议会，议会主要由潜在债权人组成，可以推翻国王

Last update: June 16, 2023

Authors: Co1lin