布莱克威尔定理 (二)

承接上文, 我们下面给出有限决策情形的布莱克威尔定理的表述.

Theorem (Blackwell). 令状态空间 Θ, 信号集 S 和行动集 A 均为有限集. 以下三个描述是等价的:

(1) 实验 μ' 是实验 μ 的混淆, 即存在混淆映射 \(g: S ⇉ S\) 使得 \(g \circ \mu = \mu'\).

(2) 对任意有限集 A, 实验 μ 能诱导的行动映射都多于实验 μ'. 也就是说, 对任意策略 \(σ'\) 都存在策略 \(σ\) 使得 \(σ' \circ μ'= σ \circ μ\).

(3) 对任意决策问题 \(D = (p, A, u)\), 张三在实验 μ 下的均衡效用都高于实验 μ' 下的均衡效用.

我们先为证明做一些简单的铺垫, 顺便热身. 在我们的模型中, 张三的效用函数只取决于状态 θ 和行动 a, 而信号 s 的唯一用途是给张三提供关于 θ 的信息. 因此, 就张三的决策而言, 行动映射 \(γ= σ \circ μ\) 可以视作 \((μ,σ)\) 的"充分统计量": 张三在 \((μ,σ)\) 下的期望效用可以直接通过 γ 计算得出, \[ \sum_{a\in A, θ \in Θ}γ(a|θ)p(θ) u(a, θ). \]

给定行动集 A, 实验 μ 所能诱导的行动映射构成集合 \(Γ(μ) := \{ γ = σ \circ μ \,|\, \forall σ: S ⇉ A\}\). 由于所有可能的行动映射对应的行随机矩阵是 \(ℝ^{Θ \times A}\) 的子集, Γ(μ) 也是 \(ℝ^{Θ \times A}\) 的子集. 由行随机矩阵的性质可以验证, \(Γ(μ)\) 是紧凸集.

给定决策问题 (A, u, p) 和实验 μ, 张三的最优化问题可以描述为: \[ \max_{γ} \sum_{a\in A, θ \in Θ} γ(a|θ)p(θ) u(a, θ) \, \, s.t. \, γ \in Γ(μ) \]

由于期望效用关于 \(γ\) 连续, 且 \(Γ(μ)\) 为紧集, 上述最优化问题有解.

热身完毕, 下面开始证明.

证明

(1)=>(2) 可由定义直接得到:

(2)=>(1) 是平凡的:

(2)=>(3) 是我们在热身中对张三最优化问题表述的直接推论:

最后, 我们证明(3)=>(2), 它要用到超平面分离定理来确定某个张三的效用函数 v.

相关文献

本文的证明思路借鉴自 de Oliveira (2018, GEB), 尤其是使用随机映射的观念来统一描述信息结构、策略、混淆映射和行动映射. 我个人认为这种处理方式最为优雅. de Oliveira 原文的证明使用了交换图, 比本文更加酷炫, 也包含了一些其他的结论.

Leshno 和 Spector (1992, MSS) 提供了一个初等证明, 主要通过操作马尔科夫矩阵完成. 除去参考文献, 全文仅有两页纸.

可能是由于信息设计领域的兴起, 最近许多人开始重新关注信息结构 (即布莱克威尔实验) 的比较, 尤其是当张三有多个信源的情形. 信息设计文献一般会用后验信念的分布来描述 (给定先验信念下的) 信息结构, 这时信息结构 μ 优于信息结构 μ', 意味着前者对应的后验信念分布是后者对应的后验信念分布的均值不变展开 (MPS).

我听说过的相关文献有: