Skip to content

Dynamic Games

完全信息动态博弈:序贯理性,与静态博弈中的理性有啥区别?动态博弈中以什么方式刻画序贯理性的要求?(完全信息:逆向归纳;不完美信息:子博弈精炼刻画序贯理性)

1. 逆向归纳

静态理性

  • 全局最优
  • 局部最优

事前:博弈开始之前

sequential rationality 序贯理性

  • 一般来说,在完美信息博弈中,先行一方有优势

  • 后行一方试图用言语影响先行一方的选择,从而摆脱后行劣势:许诺、威胁

  • 许诺/威胁的可信性:关键是事先最优与事后最优是否一致——动态一致性

  • 序贯理性比纳什均衡对应的静态理性要求更高:可以用于 refinement of NE

    • 静态博弈中,策略无法改变; NE 仅仅要求了事先最优的理性
    • 动态博弈中,策略可以调整:存在事前、事后不一致的可能
    • 动态博弈中需要排除不可信的威胁或承诺,使事先、事后一致
  • 建立序贯理性的一种方式: backward induction 逆向归纳:从最后一个时间点倒推;

    Zermelo 定理:每一个完美信息有限博弈都可以通过逆向归纳求得一个纯策略的纳什均衡

    • 有限博弈
    • 完美信息

    推论:象棋存在唯一的最优的解

逆推归纳法总结:

  • 把多阶段动态博弈化为一系列的单人博弈
  • 对各个局中人各阶段的选择的判断,建立在后续阶段各个博弈方理性选择基础上,自然排除了包含不可信威胁或承诺的可能性

例子:海盗分赃

  • 注意:现实中不一定所有局中人都是足够理性的,需要沟通
    • 从博弈论角度沟通的关键:对未来利益格局的判断与分析
    • 现实中,一方理性,一方不理性,很多时候非理性的一方占便宜;非理性可以作为一种博弈的手段;感性打败理性:感性具有力量与价值
    • 使用非理性博弈的群体:医闹、地痞、领导、……
    • 非理性会透支 reputation ,无法成为最终达成均衡的手段
  • 多人博弈:联盟博弈:谁是盟友?利益格局决定的;拥有主导权的人能使谁收益

但逆向归纳法存在局限

  • 人数:参与人越多,逆向归纳越难以成立
  • 次数:阶段越多,逆向归纳越难依靠

蜈蚣博弈

供应链

2. 子博弈

  • 从某阶段开始的后续博弈
  • 有初始信息集和进行博弈所需要的全部信息(不能分割信息集),自成一个博弈

子博弈完美纳什均衡 SPNE

  • 完美信息动态博弈中,一个策略组合满足:在整个动态博弈及它的所有子博弈中都构成纳什均衡
  • 不仅在均衡路径上最佳,在非均衡路径上也是最佳的
  • 序贯理性:在每一点上重新优化选择,且把自己在将来会重新优化选择(理性预期)也考虑进去

斯塔克博格 (Stackelberg) 模型

  • 动态的寡头市场产量博弈
  • 较强的一方先选择产量,较弱的一方后选择产量,且选时知道前者的选择
  • 求解:逆向归纳:后者在前者确定产量的情况下,最大化自己的效用函数,得到一个产量;前者将后者的产量代入自己的效用函数,最大化之。
  • 均衡点:边际成本相同时,总产量大于古诺,价格低于古诺,总利润小于古诺;但先选择一方(强者)的得益大于古诺中的任意一者,反映了地位不对称

3. 双曲贴现与自我博弈

Ref

双曲贴现与指数贴现的区别

  • 贴现因子逐期递减的比例是递减的,更接近人们跨期决策的真实情况
  • 人们对推迟当下的事情很敏感,但对推迟未来的事情不敏感
  • 会导致偏好反转
  • 指数型贴现满足时间一致性:不会在未来改变当下的决策
  • 双曲型贴现具有时间不一致性:未来会改变当下的决策

类似双曲贴现的一种三期收益表达 $$ u = u(0) + \beta \delta u(1) + \beta \delta^2(2) $$ 自我博弈中不同种类的人

  • time consistent agents 一以贯之的人:纯指数贴现
  • naive agents 天真的人:双曲贴现,但不考虑自我控制的问题,具有偏好反转的可能
  • sophisticated agents 世故的人:双曲贴现,但考虑自我控制,今天的自我与未来的自我博弈,用 SPNE 来做决策(逆向归纳)
    • 考虑到自己未来的选择,从而在当下做一些承诺行为来约束自己:e.g. 知道自己自学不行,于是参加辅导班

salient costs 速显成本:行动则成本立即显现,回报需要等待;相比 consistent agents 来说:

  • naive agents 会拖延:在每一期,拖延的损失都比行动小
  • sophisticated agents 也会拖延,但拖延情况会减轻

salient rewards 速显收益:行动则回报及时显现,但成本需要等待;相比 consistent agents 来说:

  • naive agents 会赶早:在某一期,立即行动的收益大于等待未来的收益,耐心耗尽
  • sophisticated agents 也会赶早,且赶早的程度更大、更提前:享受在前,吃苦在后

如何解决不完美信息?

Selten: 理性人向前看,无论事前计划,在新情形下都应该根据情况选择最优行动

确定子博弈精炼纳什均衡的方法:

  • 从最小的子博弈开始
  • 找到纳什均衡,用均衡支付替代该子博弈
  • 逆向求解直到根节点

如何让承诺变得可信?

  • 减少自己的选择:不留退路,破釜沉舟

  • 缩小自己的权力

  • 边缘政策:故意创造风险

    • 不是依赖确定性的可怕结果来威胁对方,而是使出现这一结果的风险不断加大来让对方让步
  • 有限政府 limited gov

    • 光荣革命前,国王可以随意修改借款条款,导致人们不愿意向政府贷款

      光荣革命后,决定国债的权力在议会,议会主要由潜在债权人组成,可以推翻国王


Last update: June 16, 2023
Authors: Co1lin