诅咒均衡

本文介绍诅咒均衡 (Cursed Equilibirum), 它由 Eyster and Rabin (2005) 提出.

诅咒均衡的主要动机来自行为经济学: 参与人有时会忽视对手策略和类型的相关性. 诅咒均衡可以用来解释部分经典理论无法解释的行为经济学异象 (eg, 赢家诅咒).

诅咒均衡适用于贝叶斯博弈. 作为热身, 我们先定义贝叶斯博弈和贝叶斯均衡.

有限贝叶斯博弈

有限贝叶斯博弈的规范表示如下: (A1,...,AN;T0,T1,...,TN;p;u1,...,uN) (A_1,...,A_N ; T_0, T_1, ..., T_N; p; u_1, ..., u_N)

G=(A,T,p,u){G = (A, T, p, u)} 表示贝叶斯博弈. 我们可以按照如下动态博弈的方式 (ie, 海萨尼转换) 来理解博弈 GG:

  1. 自然按照先验分布 pΔTp \in ΔT 决定 t=(t0,t1,...,tN)t = (t_0,t_1,...,t_N);

  2. 每个参与人 kk 私下观察到 tkt_k, 随后选择行动 akAka_k \in A_k

  3. 博弈结束, 参与人 kk 效用为 uk(a,t)u_k(a, t).

下面我们定义随机行动和策略, 并约定一些记号:

贝叶斯均衡

事中信念:

确定事中信念后, 参与人 tk{t_k} 会分别计算其在每个可能 tk{t_{-k}} 下的效用, 然后按照信念 pk(|tk)p_{-k} ( \cdot | t_k) 进行加总计算期望效用.

定义 (贝叶斯均衡). 称策略组合 (σ1,...,σN)(σ_1, ..., σ_N) 构成贝叶斯均衡, 若对所有参与人 kk 的所有可能类型 tk{t_k}, 其任意可能行动 ak*suppσk(|tk)a_k^* \in \text{supp} \, σ_k(\cdot | t_k) 都是对 σkσ_{-k} 的最优反应: ak*argmaxakAk𝔼tkpk(tk)uk(ak,σk(tk),tk,tk) a_k^* \in \text{argmax}_{a_k \in A_k} 𝔼_{t_{-k} \sim p_{-k} (t_k) } u_k (a_k, σ_{-k} (t_{-k}), t_k, t_{-k} )

诅咒均衡: 忽略类型和行动相关性

贝叶斯均衡要求每个参与人都是 “理性人”. 具体地:

  1. 参与人 k{k} 能通过自己的类型推断对手类型: pk(tk){p_{-k} (t_k)}

  2. 参与人 k{k} 能准确利用对手行动和类型的相关性, 计算对手类型 tk{t_{-k}} 下自己选择行动 ak{a_k} 的期望效用 uk(ak,σk(tk),tk,tk)u_k (a_k, σ_{-k} (t_{-k}) , t_k, t_{-k})

诅咒均衡放宽了上述限制 2. Eyster and Rabin 称忽略了类型和行动相关性的参与人是被诅咒的, 其诅咒程度可用参数 χ[0,1]\chi \in [0,1] 量化.

假设所有参与人诅咒程度均为 χ[0,1]{\chi \in [0,1]}. 对每个参与人 tk{t_k}, 给定其他参与人策略 σk{σ_{-k}}, 他会按照如下方式计算事中期望效用: 𝔼tkpk(tk)Ukχ(ak;tk,tk,σk) 𝔼 _{t_{-k} \sim p_{-k} (t_k)} U_k^χ (a_k; t_k, t_{-k}, σ_{-k})

定义 (χχ诅咒均衡). 对任意 χ[0,1]{\chi \in [0,1]}, 称策略组合 (σ1,...,σN)(σ_1, ..., σ_N) 构成 χχ 诅咒均衡, 若对所有参与人 kk 的所有可能类型 tk{t_k}, 其所有可能行动 ak*suppσk(tk)a_k^* \in \text{supp} \, σ_k(t_k) 均为如下最优化问题的解: maxakAk𝔼tkpk(tk)Ukχ(ak;tk,tk,σk) \max_{a_k \in A_k} 𝔼 _{t_{-k} \sim p_{-k} (t_k)} U_k^χ (a_k; t_k, t_{-k}, σ_{-k})

对于有限贝叶斯博弈, χ{\chi} 诅咒均衡总存在. 因为原始博弈中的每个 χ{\chi} 诅咒均衡都对应着某个新博弈的贝叶斯均衡. 我们下面介绍这个新博弈.

χ{\chi} 虚拟博弈

为了简化论述, 假设下面的论述中所有参与人都使用分离策略 (分离策略下, 可以从参与人行动直接确定其类型):

ukχ(ak,ak,tk,tk)\bar u_k^\chi (a_k, a_{-k}, t_k, t_{-k}) 为参与人 tk{t_k} 的虚拟效用.

如果将原博弈 G=(A,T,p,u){G = (A,T,p,u)} 中的参与人效用替换为对应的虚拟效用 uχ{\bar u^\chi}, 称该博弈为原博弈的 χ{\chi} 虚拟博弈: Gχ=(A,T,p,uχ){G^\chi = (A,T,p,\bar u^\chi)}

命题.σ{σ} 为原博弈 G{G}χχ 诅咒均衡, 则 σ{σ} 为虚拟博弈 Gχ{G^\chi} 的贝叶斯均衡.

When 诅咒均衡 == 贝叶斯均衡?

诅咒均衡和贝叶斯均衡何时等价? 首先, 若均衡中所有参与人的行动总是独立于其类型 (ie, 混同策略), 诅咒均衡自然退化为贝叶斯均衡.

一般而言, 若对任意类型 tkt_k 的参与人 k{k}, 固定任意行动 aAa \in A 时, 知道对手类型 t0k{t_{-0k}} 都对参与人 k{k} 计算其期望效用无益, χχ 诅咒均衡即为贝叶斯均衡. (命题 2, Eyster and Rabin)

诅咒均衡和保守信念更新

问: 诅咒程度为正的参与人, 其信念更新服从贝叶斯规则么?

然而, 在很多贝叶斯均衡 (尤其是纯策略贝叶斯均衡) 的求解中, 直接用到的并非参与人 tk{t_k} 对对手 tk{t_{-k}} 行动的信念, 而是参与人 tk{t_k} 在给定对手行动 ak{a_{-k}} 时对对手类型 tk{t_{-k}} 的信念.

p̂(tk|ak,σk,tk){\hat p(t_ {-k} | a_ {-k}, σ_{-k}, t_k)} 表示参与人 tk{t_k} 在知道对手行动 ak{a_{-k}} 时对对手类型 tk{t_ {-k}} 的后验信念. 如果 χ=0{\chi = 0}, 参与人 tk{t_k} 的后验信念为: p̂(tk|ak,σk,tk)=σk(ak|tk)pk(tk|tk)σk(ak|tk) {\hat p(t_ {-k} | a_ {-k}, σ_{-k}, t_k)} = \frac {σ_{-k} (a_{-k} | t_{-k}) p_k (t_{-k} | t_k)} {\bar σ_{-k} (a_{-k} | t_{k}) }

对一般的 χ(0,1]{\chi \in (0,1]}, 参与人 tk{t_k} 的后验信念会更接近看到 ak{a_{-k}} 前的 “先验信念” pk(tk|tk){p_k (t_{-k} | t_k)}: p̂(tk|ak,σk,tk)=(σk(ak|tk)σk(ak|tk)(1χ)+χ)pk(tk|tk) {\hat p(t_ {-k} | a_ {-k}, σ_{-k}, t_k)} = \Big(\frac { σ_{-k} (a_{-k} | t_{-k}) } {\bar σ_{-k} (a_{-k} | t_{k}) } (1 - χ) + χ \Big) p_k (t_{-k} | t_k)

当我们用后验信念 p̂{\hat p} 来求解均衡时, 参与人 k{k} 的行为也可以解读为其信念更新有误: 相比于完全由贝叶斯法则确定的后验, 他的实际后验会更接近先验 (ie, 更保守), 接近程度取决于诅咒程度 χ{\chi} 和对手策略 σk{σ_{-k}}.

这类后验信念会靠近先验的非贝叶斯更新方式被称为保守更新 (或先验偏误 prior-biased 更新). 它是行为经济学中很常见的一种信念偏差: 人有时很保守, 即使看到了新证据, 也不愿大幅度改变信念.

信念 p̂{\hat p} 的表达式披露了诅咒均衡和保守后验信念的内在联系. 很多时候, 诅咒均衡可以解读为参与人对对手类型的后验信念过于保守, 反之亦然.

广义诅咒均衡

上面的分析假设所有参与人的诅咒程度 χχ 都是相同且非随机的. 下面讨论 χχ 随机的情形.

记参与人 k{k} 的诅咒程度为 χkχ_k. 函数 f(χ1,...,χN;t1,...,tN) f(χ_1, ..., χ_N; t_1, ..., t_N) 表示诅咒程度和类型的联合分布. 参与人 kk 在私下观察到 (tk,χk)(t_k, \chi_k) 后, 使用贝叶斯法则得到更新后的信念: g(tk,χk|tk,χk){g( t_{-k}, \chi_{-k} | t_k, \chi_k)}.

我们仍然用 σk(ak|χk,tk)σ_k (a_k | \chi_k , t_k) 表示参与人 k{k} 选择行动 ak{a_k} 的概率, 注意此时参与人 k{k} 的策略为诅咒程度和类型到随机行动的映射. 对手的策略和平均策略分别为 σk(|χk,tk)σ_{-k} ( \cdot | \chi_{-k} , t_{-k})σk(|χk,tk)\bar σ_{-k} (\cdot | \chi_k , t_k). 对诅咒程度为 χk{\chi_k} 的参与人 tk{t_k}, 其认知中对手的策略为 (χσk,(1χ)σk){(\chi \circ \bar σ_{-k} , (1-\chi) \circ σ_{-k} )}; 策略组合 σ{σ} 构成广义诅咒均衡, 若每个诅咒程度为 χk{\chi_k} 的参与人 tk{t_k} 的行动 σk(|tk){σ_k (\cdot | t_k)} 都是对 (χσk,(1χ)σk){(\chi \circ \bar σ_{-k} , (1-\chi) \circ σ_{-k} )} 的最优反应.

小结

应用: 逆向选择中的赢家诅咒

作为行为经济学解概念, 诅咒均衡可以解释一些经典理论无法解释的实验异象. 相比其它行为经济学理论, 诅咒均衡的主要优势在于它没有非常偏离经典理论, 并且相对 “简约” (parsimonious).

我们以一个简单的逆向选择问题为例, 来说明诅咒均衡中的赢家诅咒现象. 这个例子属于逆向选择问题, 因为卖家有信息优势.

博弈基本设定:

求解贝叶斯均衡:

均衡结果:

诅咒均衡结果中的赢家诅咒

我们接下来求解诅咒均衡. 由于买方没有私人信息, 不需要考虑卖方被诅咒的情形.

记买方诅咒程度为 χ{\chi}, 其认知中卖方的策略为:

χ=1{\chi = 1}, 买方认为其报价 b{b} 时的期望效用为 01b(γvb)dv=b(γ/2b){\int_0^1 b (γ v -b) \, dv = b (γ/2 - b) }.

对于 0<χ<1{0 < \chi < 1} 的一般情形, 下面的结论仍然成立:

实验结果

γ=1.5{γ = 1.5} 时, 贝叶斯均衡预言买方报价为 0, 但实验中买方仍会选择正的报价 b{b}.

相比于贝叶斯均衡, 实验结果更接近 χ=1{\chi = 1} 时的诅咒均衡.

除了这个例子外, Eyster & Rabin 还讨论了共同价值拍卖中的诅咒均衡. 如果读者对这个问题感兴趣并且了解这类博弈的求解套路 (eg, Milgrom & Weber 1982), 建议阅读论文原文.

参考文献

P. Milgrom, and R. Weber, 1982. “A Theory of Auctions and Competitive Bidding.” Econometrica, 50, 1089–1122.

Erik Eyster and Matthew Rabin, 2005. “Cursed Equilibrium.” Econometrica.

Larry Epstein, 2006. “An axiomatic model of non-Bayesian updating.” Review of Economic Studies.

Lee, Y.-J., W. Lim, and C. Zhao (2023). “Cheap-Talk with Prior-biased Inferences.” Games and Economics Behavior.