布莱克威尔定理

提到 Blackwell (布莱克威尔), 第一反应一般是统计学中的 Rao–Blackwell 定理 (拉奥–布莱克威尔定理). Rao–Blackwell 定理是关于参数估计的: 令 \(\hat θ\) 为 θ 的无偏估计量, 这个定理给出了一个生成比 \(\hat θ\) 更优的无偏估计量的算法, \(E [\hat θ | U]\), 其中 U 是关于 θ 的任一充分统计量. 我最初接触这个定理时, 授课教师给 \(E [\hat θ | U]\) 这个算法起了一个很酷的名字: blackwellization, 中文或许可以译为"布莱克威尔化".

在选择理论与贝叶斯统计领域, 存在另一个 Blackwell 定理. 该定理关注的并非参数估计问题, 而是不确定性信息下的决策问题.

不确定信息下的决策

考虑行为人张三的决策问题. 张三的行动集为集合 A, 他的最终效用取决于他选择的行动 \(a \in A\) 和某个不可观测的状态 \(θ \in Θ\). 张三对状态 \(θ\) 的主观信念可用概率分布 \(p \in Δ(Θ)\) 描述, 这里 \(Δ(Θ)\) 表示所有定义在集合 Θ 上的概率分布.

张三选择某个行动来最大化他的期望效用: \[ \max_{a \in A} 𝔼_p u(a, θ) \] 这里的期望算符是对效用函数 u 关于 θ 求期望 (or, 求积分), 下角标 p 表示的是 θ 服从的分布.

当上面这个最优化问题的解 \(a\) 不唯一时, 张三的最优行动可以是在多个最优解之间随机. 我们用希腊字母 \(α \in Δ(A)\) 表示张三的混合行动, 并将张三的效用函数 u 进行线性延拓: \[ u(α , p) = \int_Θ \int_A u(a ,θ) dα dp, \quad ∀ α \in Δ(A), p \in Δ(Θ) \]

布莱克威尔实验 (信息结构)

假设张三在行动前, 可以观测到某个和状态相关的信号 \(s \in S\). 信号 s 的分布和状态 θ 有关. 尽管张三看不到状态 θ, 但张三可以看到信号 s, 进而对状态进行推断. 记信号 s 的分布为 \(μ (s | θ)\). 这里的分布族 \(μ\) (or, \(\{μ (\cdot | θ) \}_{θ \in Θ}\)) 就是布莱克威尔实验 (很多文献也称它为信息结构).

值得注意的是, 尽管张三事先就知道布莱克威尔实验 \(μ\) 的所有参数, 但由于张三看不到状态, 他并不知道最后生成信号 \(s\) 的分布是集合 \(\{μ (⋅ | θ) \}_{θ \in Θ}\) 中的哪个分布.

小结

目前为止, 我们已经给出了 (1) 张三的决策问题以及 (2) 他如何获取信息的完整描述.

  1. 张三的决策问题可表示为 \(D = (p, A, u )\), 即状态的先验分布 + 行动集 + 效用函数.
  2. 张三获取信息的过程可表示为布莱克威尔实验 \(μ : Θ \to Δ(S)\).

在解读这个模型时, 可以认为决策问题中的先验分布 p 是主观的, 比如李四就很可能和张三关于状态分布持不同意见. 但是, 实验中信号的分布 \(\{μ (⋅ | θ) : θ\in Θ\}\) 是客观的.

后面的讨论中, 我们会在不同的决策问题下比较不同的布莱克威尔实验. 为了简化分析, 我们先固定某个充分大的状态空间 \(Θ\) 和信号集 \(S\), 并允许定义于其上的先验分布 p , 布莱克威尔实验 μ 以及张三的效用函数任意变动.

随机映射

给定任意集合 \(A\)\(B\), 我们称如下形式的映射 f 为 A 到 B 的随机映射: \[ f : A \to \Delta (B) \]

对于 A 中的每一个元素, 映射 f 的输出不是 B 中的某个元素, 而是定义在 B 上的某个概率分布. 我们仍然用符号 \(f(b\,|\,a)\) 来表示随机映射 f 下 a 到 b 的概率, 而不用"语法上"可能更正确的 \(f(a)(b)\).

由于随机映射这个概念可以极大简化布莱克威尔定理的理解, 我们引入新符号(双箭头)来专门表示 A 到 B 的随机映射: \(f : A⇉B\). 给定两个随机映射 \(f : A⇉B\)\(g : B⇉C\), 我们定义这两个随机映射的复合为 A 到 C 的随机映射: \(g \circ f : A ⇉ C\), 其中从 A 的元素 \(a\) 到 C 中元素 \(c\) 的概率, 是通过对所有可能的中间状态 \(x \in B\) 进行加总得到的: \[ (g ∘ f) \, (c | a) = \int_{x \in B} g(c | x) f (x | a) \, {d}x \]

行随机矩阵

布莱克威尔实验就是一个状态空间 Θ 到信号集 S 的随机映射. 如果状态空间 Θ 和信号集 S 都是有限集: \[ Θ = \{ θ_1 ,..., θ_I\}, \quad S = \{ s_1, ..., s_J\} \] 此时 Θ 到 S 的随机映射 (也就是布莱克威尔实验) 可以表示为某个特定的矩阵 \(M \in ℝ^{I \times J}\), 它的第 i 行 j 列元素 \(M[i,j]\) 表示给定状态 \(θ_i\) 下信号为 \(s_j\) 的概率. 这样的矩阵 M 一般被称为行随机矩阵, 它可以结合下表来理解,

        s1       s2     …       sJ
θ1    M[1,1]   M[1,2]   …     M[1,J]
θ2    M[2,1]   M[2,2]   …     M[2,J]
⋮       ⋮        ⋮              ⋮
θI    M[I,1]   M[I,2]   …     M[I,J]

注: 有马氏链基础的读者, 可能已经发现这个行随机矩阵就是状态转移矩阵. 这个发现没错, 只不过我们这里把 s 称为信号, θ 才是状态.

同构: 随机映射的复合与行随机矩阵的乘法

学过线性代数的读者应该熟悉, 每个矩阵 \(M \in ℝ^{m × n}\) 都对应着一个线性映射 \(\mathcal {L}: ℝ^n \to ℝ^m\), 而矩阵的乘法则对应着线性映射的复合. 类似地, 对于行随机矩阵, 它们的矩阵乘法也对应着随机映射的复合.

给定有限集合 \(A, B, C\) 和随机映射 \(f: A ⇉ B\)\(g: B ⇉ C\), 我们用求和符号将这两个随机映射的复合重新表示如下: \[ g ∘ f (c_j | a_i) = \sum_{b \in B} g(c_j | b) f ( b | a_i). \]

读者可以根据矩阵乘法的公式自行验证, \(g ∘ f\) 对应的行随机矩阵, 可以由 g 和 f 分别对应的行随机矩阵相乘得到. 不想动手的读者, 请算一算下面的数值例子:

随机映射和行随机矩阵是我们之后陈述和证明布莱克威尔定理的主要工具. 但即使抛开"实用价值", 它们之间的这种同构关系本身也很有意思.

比较布莱克威尔实验

让我们回到张三的决策. 布莱克威尔感兴趣的问题是: 给定两个不同的实验 μ 和 μ', 哪个对张三更有价值? 这个问题可能无法回答. 下面我们给一个简单的例子, 它只包含两个可能状态:

    1   0    and   1/2 1/2    
    1/2 1/2        0   1

不难看出, 实验 μ 和 实验 μ' 是很对称的. 他们的区别在于:

这时, 哪个实验对于张三更有价值, 取决于张三具体的决策问题 D. 如果张三的最优反应或效用对状态 \(θ_1\) 很敏感, 实验 μ' 就对张三更有价值; 反之, 则是实验 μ 更有价值.

布莱克威尔 (1953) 认为, 实验优劣的判断不应该取决于具体的决策问题 D. 他认为一个实验如果要优于另一个实验, 必须是在任何决策问题下, 这个实验带给张三的价值都要更高. 在这个基础上, 布莱克威尔给出了三个判断实验优劣的等价定义, 他们分别涉及到

  1. 实验本身的信息精度
  2. 实验所能诱导的行动映射
  3. 张三的均衡效用

定义一: 基于实验本身的信息精度

定义一完全不涉及张三的决策问题 D, 只和布莱克威尔实验本身有关.

称实验 \(μ' : Θ ⇉ S\)\(μ : Θ ⇉ S\)混淆 (garbling), 若存在某个随机映射 \(f : S ⇉ S\) 使得 \(f ∘ μ = μ'\). 这里的随机映射 \(f\) 一般也称为混淆映射, 它对应的矩阵则称为混淆矩阵.

直觉上, 分布 \(\mu'\) 产生的信号 = 分布 \(\mu\) 产生的信号 + 来自映射 \(f\) 的随机干扰. 因此, \(\mu'\) 的信息量不如 \(\mu\).

Definition 1. 实验 μ 优于实验 μ', 若后者是前者的混淆.

定义二: 基于实验所能诱导的行动映射

第二个关于实验优劣的定义涉及到张三的可选行动映射. 我们将张三的策略 σ 表示为信号空间 S 到他的行动集 A 的随机映射, 策略 \(σ : S ⇉ A\) 和实验 \(μ: Θ ⇉ S\)
又很自然地诱导出张三的行动映射 (act) \(γ = σ ∘ μ\). 由于张三可以任意选择他的策略 σ, 实验 μ 能诱导的行动映射构成集合: \[ \{ γ = σ ∘ μ \mid \forall σ: S ⇉ A\} \]

考虑下面两个极端例子:

  1. 实验 μ 产生的信号 s 包含了所有关于状态的信息, 即张三看到信号 s 后可以直接确定真实状态 θ. 这时, 张三可以选择任何随机映射 \(γ: Θ ⇉ A\) 作为行动映射. 也就是说, 该实验诱导出的行动映射构成集合: \[ \{γ | γ : Θ⇉ A \} \]

  2. 实验 μ 产生的信号 s 不包含任何关于状态的信息, 如信号 s 只有一个可能的实现值 \(s_0\). 这时, 这个实验对张三没有任何价值. 张三选择策略 \(σ : \{ s_0 \} \to ΔA\) 实质上就是选择某个具体的混合行动 \(α \in ΔA\). 该实验诱导出的行动映射如下: \[ \{ γ: Θ \to α \, | \, ∀α \in ΔA \}, \text{ 这个集合实质上就是 } ΔA. \]

当实验 μ 介于上述两个极端情况之间时, 它所能诱导的行动映射集合也介于两者之间. 直觉上, 当 μ 的信息量多余 μ' 时, 它会诱导出更多的行动映射.

Definition 2. 实验 μ 优于实验 μ', 若前者能诱导出的行动映射多于后者.

定义三: 基于张三的均衡效用

这个定义涉及到张三的最优行动, 需要求解张三的期望效用最大化问题. 对于经济学背景的读者, 理解定义三应该远比理解定义二简单.

Definition 3. 实验 μ 优于实验 μ', 若对于任何的决策问题 \(D = (p, A, u)\), 张三在实验 μ 下的均衡效用都大于等于实验 μ' 下的均衡效用.

我们在另一篇文章中给出布莱克威尔定理的证明, 即上述三个定义是等价的.

参考资料

Blackwell D. (1953), "Equivalent Comparisons of Experiments," Ann. Math. Stat.