贝叶斯相关均衡: 定义和动机

本文介绍贝叶斯相关均衡, 它由 Bergemann 和 Morris (2016) 正式提出 (B&M). 贝叶斯相关均衡可以看成完备信息下相关均衡概念在不完备信息下的一种推广.

描述贝叶斯博弈

Review: 完备信息博弈的相关均衡可以表示为所有参与人行动的联合概率分布, 该分布构成相关均衡若且惟若它满足对应的线性不等式约束 (ie, 遵从约束).

问: 如何将相关均衡这个概念进行推广, 使得它适用于不完备信息博弈 (贝叶斯博弈)?

这个问题的答案很大程度上取决于如何描述不完备信息博弈.

我们通常用 Harsanyi 的类型空间来描述不完备信息博弈. Harsanyi 的类型既包括参与人关于博弈收益的不确定性, 也包括参与人关于其他参与人信念的不确定性. 这种描述给推广相关均衡带来了一定阻碍.

为了克服这个问题, B&M 同时使用状态和类型来刻画不确定性. 其中:

状态专门用于表示参与人关于收益的不确定性.
- 参与人关于状态的信息结构很简单, 直接描述为某个状态集上的先验分布即可.
类型是参与人的私人信息, 它决定了参与人的所有其它信念:
- 参与人关于状态的进一步信念
- 参与人关于其他参与人类型的信念
- 等等…
类型涉及的信念可能很复杂, 需要用专门的信息结构 $S{}$ 描述.

基于上述设定, 贝叶斯博弈表示为两个部分: 基本博弈 $G$ + 信息结构 $S$ .

基本博弈 $G$

基本博弈 $G$ 在完备信息博弈的基础上加入了状态空间.

完备信息博弈包括:
1. 参与人集合: $\{1, 2,..., n\}$
2. 参与人的行动集合: $A_1$ , …, $A_n$
3. 参与人效用函数.
状态空间包括所有可能状态构成的集合 $Θ$ 及其上的概率分布 $ψ \in Δ (Θ)$ .

我们用 $θ \in Θ$ 指代某个具体的状态. 参与人 $i$ 的效用函数为 $u_i (a, θ)$ , 其中 $a = (a_1, ..., a_n)$ 为行动向量.

信息结构 S

信息结构 S 由两部分组成: 参与人的类型集 $\{T_i\}$ 及其条件分布族 ${\pi}$ .

参与人 $i$ 的类型集 (或信号集) 记为 $T_i$ .
- 记联合信号集为 $T = T_1 \times ... \times T_n$ .
类型向量 $t=(t_1,...,t_n)$ 的联合分布函数取决于状态 $θ{}$ , 记为 $\pi (\theta) \in Δ(T)$

注意, $t$ 的分布取决于真实状态 $θ$ , 并且参与人的类型可以彼此相关.

贝叶斯博弈 (G, S)

贝叶斯博弈可表示为二元组 $(G, S)$ . 这是一个静态博弈, 但可以借用如下动态过程来理解:

自然按照分布 $ψ$ 选择状态 $θ \in Θ$
给定状态 $θ$ , 自然进一步按照分布 $π (θ)$ 选择所有参与人类型 $t = (t_1,...,t_n)$ .
每个参与人 i 私下观察到 $t_i \in T_i$ 后, 选择行动 $a_i$ .
博弈结束, 参与人 $i$ 的收益为 $u(a_1, ..., a_n,θ)$ .

基本博弈+信息结构这种描述方式的优势:

研究者可以固定基本博弈不变, 专门讨论信息结构的变化会如何影响博弈均衡.

贝叶斯相关均衡 (BCE)

完备信息博弈的相关均衡为某个联合行动的分布 $α \in Δ(A)$ .

由于贝叶斯博弈加入了状态空间和 (关于类型的) 信息结构, 贝叶斯相关均衡可表示为 “状态空间 × 类型空间” 到所有联合行动分布的映射: $σ: T × Θ \to Δ(A)$ $σ: t × θ ↦ σ(t,θ) \in Δ(A)$

映射 $σ$ 可以理解为协调者 (or, 信息设计者) 的决策规则:

协调者私下观察到真实状态 $θ$ 和所有博弈方的类型 $t$ 后, 按分布 $σ( a | t,θ)$ 决定行动向量 $a = (a_1,...,a_n)$ , 并将 $a_i$ 私下告知参与人 $i$ .

给定协调者的建议 $a_i$ , 参与人 ${t_i}$ 选择行动 $a'_i$ 的期望效用为 $U_i(a'_i ; a_i, σ, t_i) = \sum_{a_{-i}, t_{-i}, θ} \psi (θ) \pi (t_i, t_{-i} | θ) σ(a_i, a_{-i} | t_i, t_{-i}, θ) u_i (a'_i, a_{-i},θ)$

参与人 ${t_i}$ 会遵循协调者的建议 ${a_i}$ , 当且仅当 $a_i \in \arg\max_ {a'_i \in A_i} U_i(a'_i ; a_i, σ, t_i)$

称上述约束为 $t_i$ 在收到建议 ${a_i}$ 时的遵从约束 (obediance constraint).

若所有参与人都会遵循协调者建议, 则称 ${σ}$ 构成贝叶斯相关均衡.

定义 (贝叶斯相关均衡). 称 $σ$ 是贝叶斯相关均衡, 若对任意参与人 $t_i$ 及可能的协调者建议 $a_i$ , 上述遵从约束均成立.

类似相关均衡, 贝叶斯相关均衡也可以由一系列线性不等式刻画, 这些线性不等式包括 (1) 遵从约束和 (2) 概率约束.

贝叶斯相关均衡 = 稳健 (贝叶斯) 均衡

B&M (2016) 讨论了贝叶斯相关均衡这个概念和贝叶斯博弈中其他概念的联系, 其中最有价值的解读是贝叶斯相关均衡和 “稳健均衡” 的等价性 (定理 1).

什么是贝叶斯博弈中的稳健均衡:

研究者一般使用贝叶斯均衡来预测博弈 $(G,S)$ 中参与人的行为. 其中, 信息结构 ${S = (T,\pi) }$ 描述了研究者已知的参与人私人信息
但是, 除了 ${S = (T,\pi) }$ 外, 实际情景中还可能包含研究者未知的参与人私人信息. 也就是说, 除了 ${S = (T,\pi) }$ 外, 参与人还可能从某个额外的信息结构 ${S' = (T',\pi') }$ 获取信息.
额外信息结构 ${S'}$ 会改变贝叶斯均衡, 使得研究者原本的预测有误. 为了让预测更稳健, 研究者应该考虑所有可能的额外信息结构 ${S'}$ , 并计算对应的贝叶斯均衡.
考虑所有额外信息结构时, 研究者给出的预测不是一个贝叶斯均衡, 而是一系列贝叶斯均衡, 每个均衡对应着一个额外信息结构 ${S'}$ . 原本的预测对应额外信息结构 ${S'}$ 为空的情形.

当存在两个信息结构 ${(T^1 , \pi^1)}$ 和 ${(T^2 , \pi^2)}$ 时, 博弈参与人可以通过联合信号 ${t^* = (t^1, t^2)}$ 来更新信念. 这两个信息结构等价于满足如下条件的信息结构 ${(T^* , \pi^*)}$ :

对任意参与人 $i$ : ${T^*_i = T^1_i \times T^2_i}$
对任意状态 $θ$ , 联合分布 ${\pi^* (θ) \in Δ (T^1 \times T^2)}$ 在 ${T^1}$ 和 ${T^2}$ 上的边缘分布分别为 $\pi^1(θ)$ 和 $\pi^2(θ)$ : ${ \forall θ, \forall t^2 : \sum_{t^1} \pi^* (t^1, t^2 \,| \,θ) } = \pi^2 (t^2 \,|\, θ)$ ${ \forall θ, \forall t^1 : \sum_{t^2} \pi^* (t^1 , t^2\,| \,θ) } = \pi^1 (t^1 \,|\, θ)$

称满足上述约束的信息结构 ${(T^* , \pi^*)}$ 为 ${(T^1 , \pi^1)}$ 和 ${(T^2 , \pi^2)}$ 的合并信息结构. 请读者留意, 我们并没有要求信息结构 ${(T^2, \pi^2)}$ 和 ${(T^1 , \pi^1)}$ 是独立的. 因此, ${(T^2, \pi^2)}$ 和 ${(T^1 , \pi^1)}$ 的合并信息结构通常不唯一.

定理 1. 决策规则 $σ$ 为博弈 $(G, S)$ 的贝叶斯相关均衡, 若且唯若存在额外信息结构 ${S'}$ 使得 $σ$ 为博弈 $(G, S^*)$ 的贝叶斯均衡结果, 其中 ${S^*}$ 为 ${S}$ 和 ${S'}$ 的合并信息结构.

定理 1 说明, 如果研究者考虑所有可能的额外信息结构 ${S'}$ , 其对应的贝叶斯均衡集合恰好为所有贝叶斯相关均衡构成的集合.

理解贝叶斯相关均衡

对布莱克威尔排序定理有一定了解的读者, 可以进一步阅读 B&M (2016) 的定理2和定理3. 作者将协调者的决策规则 $σ$ 和布莱克威尔实验下的单人决策进行对比, 给出了单人决策中的布莱克威尔定理在 $n$ 人博弈中的对应推广.

最后, 贝叶斯相关均衡可视为贝叶斯劝说博弈在包含多个收方情形下的推广: 当基础博弈 ${G}$ 只包含一个参与人时, 贝叶斯相关均衡退化为贝叶斯劝说博弈中的 (贝叶斯) 均衡. 具体如下:

假设基本博弈只包含一个参与人, 但协调者希望选择某个特定的贝叶斯相关均衡.
用 $v(a,θ)$ 表示协调者的效用函数, 协调者在决策规则 $σ$ 下的期望收益记为 $V(σ)$ .
协调者选择某个贝叶斯相关均衡 $σ^*$ 来最大化 $V(σ)$ ⟺ 协调者选择某个信息披露策略来最大化 $V(σ)$ .
- 这里的等价性由定理 1 保证.

小结

不完备信息博弈可以表示为: 基本博弈 G + 信息结构 S.
基本博弈 G 在完备信息博弈的基础上加入了状态空间, 状态和参与人行动决定了参与人收益.
信息结构 S 指每个参与人能看到一个私人信号, 这个信号同状态以及其他参与人信号都可以是相关的.
决策规则 ${σ}$ 为从状态集和类型集到联合行动的随机映射.
若决策规则 ${σ}$ 满足遵从约束, 称 ${σ}$ 为贝叶斯相关均衡.
贝叶斯相关均衡的三种解读: 稳健均衡, 布莱克威尔定理的多人情形推广, 劝说博弈的多接收方情形推广.