空谈博弈中的防新词均衡

本文介绍 Farrell (1993 GEB). Farrell 将空谈博弈中送方的信息集解读为自然语言 (eg, 汉语), 并提出“防新词均衡”的概念. 这个解概念是对空谈博弈均衡的再精炼. “防新词”意味着送方不能通过发送可信新词来提高均衡收益.

空谈博弈及多重均衡问题

Crawford and Sobel (1982, ECMA) 考虑了如下博弈:

送方 (Sender, S) 私下观察到随机变量 t∈Tt \in T, 并发送信息 m∈Mm \in M;
- 后文中称 $t$ 为送方的类型
收方 (Receiver, R) 收到信息 $m$ 后, 选择行动 $a \in A$ .
博弈结束. 送方和收方的效用 $u^S$ 和 $u^R$ 仅取决于 $a$ 和 $t$ , 和 $m$ 无关.

作者称这类博弈为空谈博弈, 并分析了空谈博弈的精炼贝叶斯均衡 (后文称为均衡).

空谈博弈均衡性质:

往往存在多个均衡;
对任意空谈博弈, 都存在如下不传递任何信息的平凡均衡: 送方的发信策略和 $t$ 无关; 收方忽略送方的信息, 根据先验信念选择行动.

即使送方和收方不存在利益冲突 (即 $\forall a,t$ : $u^S = u^R$ ), 平凡均衡依然存在: 收方预期送方不会传递任何信息, 因此收到任何信息 $m$ 都不更新信念; 给定收方不更新信念, 送方也不会传递任何信息.

这类均衡被称为自我实现的预言.

即使收送方利益一致, 均衡中也可能不传递任何信息. 这个结论似乎"不合常理", 因为如实相告显然是送方的最佳选择. Farrell 提出了一种对空谈博弈的均衡精炼: 防新词 (neologism-proof) 均衡. 防新词精炼可以剔除利益完全一致时的平凡均衡.

Neologism 是希腊语, 本意是新词 (new word).
空谈博弈中, “新词”指的是均衡中送方不会使用的信息.

下面我们介绍防新词均衡. 这个概念的提出有着语言学上的动机.

语义的由来

空谈博弈中, 送方发送的信息 $m$ 的语义可以概括为收方对应的后验信念. 此时, $m$ 的语义是内生的: 它由均衡时的送方策略 (和贝叶斯法则) 决定.

每个均衡都确定了一种信息传递协议: 送方的策略对应"编码", 收方用贝叶斯法则进行"解码".

如果将信息集 $M$ 解读为自然语言, 那么除了上述内生语义外, 每个词 $m \in M$ 的还有一个外生的语义. 后文称这个外生语义为字典义.

字典义指词语约定俗成的含义. 比如, "书"这个词指的是"装订成册的印刷资料". 这是"书"这个词的字典义.
字典义是外生的: 即使在没有任何语境或事先约定协议的情形下, "书"这个词的字典义也是收送双方的共同知识.
注: Farrell (1993) 原文使用的是 focal meaning 这个说法, 它的直译应该是"主要含义". 本文将它称为字典义, 表达的意思和 Farrell 相同, 即外生的, 不需要考虑协议和语境的词语常用意.

Crawford and Sobel 博弈中, 语义仅由贝叶斯法则和送方策略决定. 如果送方使用了新词 (即原本均衡路径上送方不会使用的 $m$ ), 贝叶斯法则失效, 研究者可以给新词赋予任何语意, 不同的新词语意可能会导致不同的均衡结果.

Farrell 认为, 除了内生语义外, 还要考虑词语的字典义. 作者进一步指出, 利益一致时平凡均衡存在的原因, 不是送方的可信度问题 (此时送方是可信的, 因为他和收方的利益完全一致), 而是"语言"问题: 平凡均衡下送方能使用的词汇是受限的, 词汇限制使他无法传递关于 $t$ 的信息.

不难看出, Farrell 讨论的并不是一般的抽象空谈博弈, 而是具体的、日常生活中的语言交流. Farrell 进一步假设博弈中总存在足够多的新词:

(丰富新词假设)对任意非空类型集 $X \subseteq T$ 以及任意可能的均衡, 都存在某个字典意为 $t \in X$ 的新词.

我们用记号 $n_X$ 来表示字典意为 $t \in T$ 的新词. 丰富新词假设下, 送方总可以跳出原本均衡下的信息传递协议, 宣称 $t \in T$ . 也就是说, 送方可以使用两套交流语言: 一套语言的语义是内生的, 取决于均衡中规定的协议; 另一套语言的语义是外生的, 它的存在性由丰富新词假设保证.

可信新词和防新词均衡

虽然送方总可以使用字典意为 $t \in T$ 的新词, 但收方是否应该相信送方呢? 直觉上, 如果双方的利益完全一致, 送方就是可信的. 我们可以用向前归纳法形式化这个直觉.

如果双方存在利益冲突, 即使收方可以理解新词 $n_X$ 的语义 (即 $t \in X$ ), 但理性的收方知道送方可能会骗人. 理性的收方会推测, 送方传递 $t \in X$ 这个信息的意图, 是希望诱导出 $t \in X$ 对应后验信念下的最优行动 $a(X)$ ; 因此, 送方的真实类型应该是那些偏好行动 $a(X)$ 的类型, 而不一定是 $t \in X$ . 记满足这个约束的类型集为 $P(X)$ : $P(X) ≡ \{ t \in T : a(X) \in \arg \max_a u^S (a,t) \}$

收到新词 $n_X$ 时, 收方不会轻信 $t \in X$ , 而是会推测 $t \in P(X)$ . 如果收方推理能力很强, 可能会进一步推测 $t \in P(P(X))$ , $t \in P(P(P(X)))$ , 等等...

为了回避这个无穷推理问题, Farrell 称新词 $n_X$ 是可信的, 若存在集合 $X \subseteq T$ 使得 $P(X) = X$ .

也就是说, 如果偏爱行动 $a(X)$ 的送方类型恰好构成集合 $X$ , 语义为 $t \in X$ 的新词 $n_X$ 就是可信的.

当送方使用可信新词 $n_X$ 时, 收方会相信 $t \in X$ , 并选择对应行动 $a(X)$ . 在这个设定下, 如果某个类型 $t$ 的送方可以发送可信新词 $n_X$ 实现更高的收益, 送方就会有激励偏离原本的均衡路径. 如果对所有类型 $t$ , 都不能通过可信新词实现更高收益, 则称该均衡是防新词的 (neologism-proof).

防新词均衡: 例子

下面三个例子中, 总假设 $T = \{ t_1,t_2 \}$ , 并且收方的先验信念是均匀分布. 我们将新词简记为 $n_1$ , $n_2$ , $n_0$ , 它们的语意分别为 $t=t_1$ , $t=t_2$ 和 $t \in T$ .

收方有三个可选行动: $\{ a_0, a_1, a_2 \}$ . 当收方非常确定送方类型为 $t_1$ ( $t_2$ ) 时, 收方的最优反应为 $a_1$ ( $a_2$ ); 当收方存在较大不确定时, 最优反应为 $a_0$ . 我们只关注收方使用非随机行动的均衡: 平凡均衡和分离均衡.

由于我们已经规定了收方的最优行动, 下面每个例子中只给出两类送方的最终收益.

例1

	$t_1$	$t_2$
$a_0$	2	2
$a_1$	3	0
$a_2$	0	3

存在两个均衡: 平凡均衡和分离均衡.
平凡均衡不是防新词的: 类型 $t_1$ 的送方可以发送可信新词 $n_1$ 获益.
分离均衡是防新词的.

例2

	$t_1$	$t_2$
$a_0$	2	2
$a_1$	1	0
$a_2$	0	1

存在两个均衡: 平凡均衡和分离均衡.
分离均衡不是防新词的: 任何类型的送方都可以通过可信新词 $n_0$ 获益.
平凡均衡是防新词的.

例3

	$t_1$	$t_2$
$a_0$	0	2
$a_1$	2	1
$a_2$	-1	0

存在一个均衡: 平凡均衡. 这个例子中分离均衡不存在, 否则 $t_2$ 会伪装 $t_1$ .
平凡均衡不是防新词的, 因为类型 $t_1$ 的送方可以通过可信新词 $n_1$ 获益.

注: 这个例子中不存在防新词均衡. 这可能是防新词精炼的弊端: 它删得太过了. Farrell 从演化博弈的角度回应了这个弊端.