布莱克威尔定理 (二)

承接上文, 我们下面给出有限决策情形的布莱克威尔定理的表述.

我的印象里, 对于无限情形的决策问题, Blackwell 定理的成立需要其他限制. 我们下面介绍的证明只适用于有限集的情形.

Theorem (Blackwell). 令状态空间 Θ, 信号集 S 和行动集 A 均为有限集. 以下三个描述是等价的:

(1) 实验 μ' 是实验 μ 的混淆, 即存在混淆映射 $g: S ⇉ S$ 使得 $g \circ \mu = \mu'$ .

(2) 对任意有限集 A, 实验 μ 能诱导的行动映射都多于实验 μ'. 也就是说, 对任意策略 $σ'$ 都存在策略 $σ$ 使得 $σ' \circ μ'= σ \circ μ$ .

(3) 对任意决策问题 $D = (p, A, u)$ , 张三在实验 μ 下的均衡效用都高于实验 μ' 下的均衡效用.

我们先为证明做一些简单的铺垫, 顺便热身. 在我们的模型中, 张三的效用函数只取决于状态 θ 和行动 a, 而信号 s 的唯一用途是给张三提供关于 θ 的信息. 因此, 就张三的决策而言, 行动映射 $γ= σ \circ μ$ 可以视作 $(μ,σ)$ 的"充分统计量": 张三在 $(μ,σ)$ 下的期望效用可以直接通过 γ 计算得出, $\sum_{a\in A, θ \in Θ}γ(a|θ)p(θ) u(a, θ).$

给定行动集 A, 实验 μ 所能诱导的行动映射构成集合 $Γ(μ) := \{ γ = σ \circ μ \,|\, \forall σ: S ⇉ A\}$ . 由于所有可能的行动映射对应的行随机矩阵是 $ℝ^{Θ \times A}$ 的子集, Γ(μ) 也是 $ℝ^{Θ \times A}$ 的子集. 由行随机矩阵的性质可以验证, $Γ(μ)$ 是紧凸集.

给定决策问题 (A, u, p) 和实验 μ, 张三的最优化问题可以描述为: $\max_{γ} \sum_{a\in A, θ \in Θ} γ(a|θ)p(θ) u(a, θ) \, \, s.t. \, γ \in Γ(μ)$

由于期望效用关于 $γ$ 连续, 且 $Γ(μ)$ 为紧集, 上述最优化问题有解.

热身完毕, 下面开始证明.

证明

(1)=>(2) 可由定义直接得到:

$σ' ∘ μ' = σ' ∘ (g \circ \mu) = (σ' ∘ g) \circ \mu$ , 令 $σ=σ' ∘ g$ 即可.
这里用到了随机映射的结合律, 它由矩阵乘法的结合律保证.

(2)=>(1) 是平凡的:

由于条件 (2) 要求对任意有限集 A 和策略 $σ'$ 都成立, 我们可以直接令 A = S, 令 $σ' : S ⇉ A$ 为恒等映射 Id, 此时 $μ' = Id \circ μ'= σ \circ μ$ .
这里的 $σ$ 就是我们要找的混淆映射.

(2)=>(3) 是我们在热身中对张三最优化问题表述的直接推论:

当张三在一个更大的范围内做优化, 最后他的均衡效用也会更高.

最后, 我们证明(3)=>(2), 它要用到超平面分离定理来确定某个张三的效用函数 v.

反设 (2) 不真, 即存在某个 $σ'$ 使得 $γ' = σ' \circ μ' \not\in Γ(μ)$ .
由于 $Γ(μ) \subset R^{Θ × A}$ 是紧凸集, 由超平面分离定理可知存在效用函数 $v \in ℝ^{Θ \times A}$ 使得 $\sum_{θ,a} v(a,θ) γ(a|θ) < \sum_{θ,a} v(a,θ) γ'(a|θ) \forall γ \in Γ(μ)$
上式表明: 当张三的效用函数为 v, 先验信念 p 为均匀分布时, 他在 (μ', σ') 下的期望收益比他在实验 μ 下的均衡收益高. 矛盾.

布莱克威尔定理 (二)

证明

相关文献