空谈博弈中的防新词均衡

本文介绍 Farrell (1993 GEB). Farrell 将空谈博弈中送方的信息集解读为自然语言 (eg, 汉语), 并提出“防新词均衡”的概念. 这个解概念是对空谈博弈均衡的再精炼. “防新词”意味着送方不能通过发送可信新词来提高均衡收益.

空谈博弈及多重均衡问题

Crawford and Sobel (1982, ECMA) 考虑了如下博弈:

作者称这类博弈为空谈博弈, 并分析了空谈博弈的精炼贝叶斯均衡 (后文称为均衡).

空谈博弈均衡性质:

即使送方和收方不存在利益冲突 (即 a,t\forall a,t: uS=uRu^S = u^R), 平凡均衡依然存在: 收方预期送方不会传递任何信息, 因此收到任何信息 mm 都不更新信念; 给定收方不更新信念, 送方也不会传递任何信息.

即使收送方利益一致, 均衡中也可能不传递任何信息. 这个结论似乎"不合常理", 因为如实相告显然是送方的最佳选择. Farrell 提出了一种对空谈博弈的均衡精炼: 防新词 (neologism-proof) 均衡. 防新词精炼可以剔除利益完全一致时的平凡均衡.

下面我们介绍防新词均衡. 这个概念的提出有着语言学上的动机.

语义的由来

空谈博弈中, 送方发送的信息 mm 的语义可以概括为收方对应的后验信念. 此时, mm 的语义是内生的: 它由均衡时的送方策略 (和贝叶斯法则) 决定.

如果将信息集 MM 解读为自然语言, 那么除了上述内生语义外, 每个词 mMm \in M 的还有一个外生的语义. 后文称这个外生语义为字典义.

Crawford and Sobel 博弈中, 语义仅由贝叶斯法则和送方策略决定. 如果送方使用了新词 (即原本均衡路径上送方不会使用的 mm), 贝叶斯法则失效, 研究者可以给新词赋予任何语意, 不同的新词语意可能会导致不同的均衡结果.

Farrell 认为, 除了内生语义外, 还要考虑词语的字典义. 作者进一步指出, 利益一致时平凡均衡存在的原因, 不是送方的可信度问题 (此时送方是可信的, 因为他和收方的利益完全一致), 而是"语言"问题: 平凡均衡下送方能使用的词汇是受限的, 词汇限制使他无法传递关于 tt 的信息.

不难看出, Farrell 讨论的并不是一般的抽象空谈博弈, 而是具体的、日常生活中的语言交流. Farrell 进一步假设博弈中总存在足够多的新词:

我们用记号 nXn_X 来表示字典意为 tTt \in T 的新词. 丰富新词假设下, 送方总可以跳出原本均衡下的信息传递协议, 宣称 tTt \in T. 也就是说, 送方可以使用两套交流语言: 一套语言的语义是内生的, 取决于均衡中规定的协议; 另一套语言的语义是外生的, 它的存在性由丰富新词假设保证.

可信新词和防新词均衡

虽然送方总可以使用字典意为 tTt \in T 的新词, 但收方是否应该相信送方呢? 直觉上, 如果双方的利益完全一致, 送方就是可信的. 我们可以用向前归纳法形式化这个直觉.

如果双方存在利益冲突, 即使收方可以理解新词 nXn_X 的语义 (即 tXt \in X), 但理性的收方知道送方可能会骗人. 理性的收方会推测, 送方传递 tXt \in X 这个信息的意图, 是希望诱导出 tXt \in X 对应后验信念下的最优行动 a(X)a(X); 因此, 送方的真实类型应该是那些偏好行动 a(X)a(X) 的类型, 而不一定是 tXt \in X. 记满足这个约束的类型集为 P(X)P(X): P(X){tT:a(X)argmaxauS(a,t)} P(X) ≡ \{ t \in T : a(X) \in \arg \max_a u^S (a,t) \}

收到新词 nXn_X 时, 收方不会轻信 tXt \in X, 而是会推测 tP(X)t \in P(X). 如果收方推理能力很强, 可能会进一步推测 tP(P(X))t \in P(P(X)), tP(P(P(X)))t \in P(P(P(X))), 等等...

为了回避这个无穷推理问题, Farrell 称新词 nXn_X可信的, 若存在集合 XTX \subseteq T 使得 P(X)=XP(X) = X.

当送方使用可信新词 nXn_X 时, 收方会相信 tXt \in X, 并选择对应行动 a(X)a(X). 在这个设定下, 如果某个类型 tt 的送方可以发送可信新词 nXn_X 实现更高的收益, 送方就会有激励偏离原本的均衡路径. 如果对所有类型 tt, 都不能通过可信新词实现更高收益, 则称该均衡是防新词的 (neologism-proof).

防新词均衡: 例子

下面三个例子中, 总假设 T={t1,t2}T = \{ t_1,t_2 \}, 并且收方的先验信念是均匀分布. 我们将新词简记为 n1n_1, n2n_2, n0n_0, 它们的语意分别为 t=t1t=t_1, t=t2t=t_2tTt \in T.

收方有三个可选行动: {a0,a1,a2}\{ a_0, a_1, a_2 \}. 当收方非常确定送方类型为 t1t_1 (t2t_2) 时, 收方的最优反应为 a1a_1 (a2a_2); 当收方存在较大不确定时, 最优反应为 a0a_0. 我们只关注收方使用非随机行动的均衡: 平凡均衡和分离均衡.

由于我们已经规定了收方的最优行动, 下面每个例子中只给出两类送方的最终收益.

例1

t1t_1 t2t_2
a0a_0 2 2
a1a_1 3 0
a2a_2 0 3

例2

t1t_1 t2t_2
a0a_0 2 2
a1a_1 1 0
a2a_2 0 1

例3

t1t_1 t2t_2
a0a_0 0 2
a1a_1 2 1
a2a_2 -1 0

注: 这个例子中不存在防新词均衡. 这可能是防新词精炼的弊端: 它删得太过了. Farrell 从演化博弈的角度回应了这个弊端.