寡头合谋: APS (1986)

Green–Porter 描述了一种特定的合谋均衡. 该均衡中, 每个厂商均使用如下触发策略:

公开价格过低时, 寡头联盟进入时长 $T$ 期的惩罚阶段, 惩罚阶段产量为古诺产量.

Abreu, Pearce & Stacchetti (APS 1986) 刻画了 Green–Porter 模型中所有对称均衡下厂商的收益集 $V$ .

此处, “均衡” 指纯策略对称序贯均衡.
APS 不要求厂商在均衡中必须使用公共策略. 但在纯策略情形下, 完美公共均衡就足以刻画所有均衡收益

模型设定

APS (1986) 的模型设定和 Green–Porter 基本一致.

主要变化在于, APS 模型中厂商产量是离散的而非连续的.
离散产量假设简化了主要结论的证明: 由于模型还假设了收入存在固定上界, 而成本函数无上界, 所以厂商的可选行动集本质上是有界的.

模型: 无穷期重复博弈, 单期博弈为需求不确定的古诺博弈.

单期博弈:

$N$ 个同质厂商同时选择产量: $q_i=0,1,2,...$
市场价格 $p$ 是一个随机变量, 其分布取决于总产出 $Q = \sum_{i=1}^N q_i$ .
令 $g(\cdot; Q)$ 表示价格 $p$ 的密度函数, 并且对任意 $Q>0$ , 其支撑均为 $Ω \subseteq ℝ$

所有厂商的成本函数均为 $c(q_i)$

成本函数假设: 存在某个平均成本 $c_0 > 0$ , 使得 $c(q) \ge c_0 q$ 对于充分大的产量 $q$ 总成立.

厂商 $i$ 的单期收益: $\pi_i(q_i; p) = q_i p - c(q_i)$ .

令 $\bar \pi_i (q_i; Q) =𝔼_{g(p ; Q)} [q_i p] -c(q_i)$ 表示厂商 $i$ 的期望收益函数

厂商的贴现系数均为 $δ \in (0,1)$ .

不完美监督: 厂商只能观察到市场价格 $p$ , 无法观察到竞争对手的产量水平.

解概念: 纯策略对称序贯均衡, 后文简称为 SSE.

收益分解与截断博弈

若未特别说明, 后文中的均衡收益 $v$ 均指厂商的跨期总贴现收益, 而非平均收益.

若均衡收益为 $v$ , 厂商的平均收益为 $\frac{1-δ} {δ}v$ , 这里的 “归一化因子” $\frac{1-δ} {δ}$ 是级数和 $δ + δ^2 + \dots$ .

APS (1986) 的求解技巧:

将原重复博弈简化为某个 (单期) 截断博弈, 并利用均衡的迭代结构刻画所有可能的均衡收益.
这种技巧可以刻画均衡收益, 但无法给出具体的均衡策略.

截断博弈的构造源于如下观察:

收益分解: 令 $w$ 表示某个 SSE 中厂商的均衡收益, 该收益一定可以分解为两部分: 当期收益和后续收益, 并且后续收益也是均衡收益.

收益分解的启示: 我们可以用某个简化的单期博弈来分析原重复博弈的均衡收益. 这个单期博弈可以类比合同理论中的委托代理模型来理解:

委托代理模型中, 委托人为了保证代理人会按照合同的约定行事, 必须根据可观测的结果来对代理人进行奖赏或惩罚;
类似的, 在包含不完美监督的重复博弈中, 为了使参与人不偏离均衡, 单期博弈结束后必须用某个后续收益来作为奖赏或惩罚, 这个后续收益的大小可以取决于该单期博弈的公共结果.
不同于委托代理模型, 重复博弈对该后续收益存在额外要求: 后续收益必须也是均衡收益. 也就是说, 只能用均衡收益来维持均衡收益.

可执行收益

接下来正式定义截断博弈和它所能支持的收益.

一些技术细节: 后续收益集 $W$ 必须是紧集, 奖励函数 $u: Ω \to W$ 必须可测.
我们引入 “协调者” 来描述截断博弈, 协调者的作用可以类比合同理论中的 “委托人” 来理解.

后续收益集 $W \subseteq ℝ$ 下的截断博弈:

协调者公布某个对称生产计划 $q_i = q$ ( $∀ i$ ) 和奖励函数 $u: Ω \to W$
厂商 $i$ 选择产量 $q_i$ , 所有厂商产量共同决定了价格的分布 $g(p ; Q)$ .
博弈结束, 厂商 $i$ 的效用为 $\bar π_i(q_i; p) + u(p)$ .

截断博弈的所有参数都继承自原重复博弈, 唯一的例外是协调者可用的收益集 $W$ :

紧集 $W$ 表示协调者可用的后续收益构成的集合, 协调者可以根据公开结果 (即价格 $p$ ) 对参与人进行奖惩.

称二元组 $(q,u(p))$ 是可执行的, 若所有厂商都不会在截断博弈中单方面偏离生产计划 $q$ , 此时对应的厂商收益 $w$ 称为可执行收益.

截断博弈的均衡概念为 (纯策略对称) 纳什均衡.
定义 1 给出了可执行收益所需要满足的具体条件.

定义 1 (可执行收益). 令紧集 $W \subseteq \mathbb{R}$ 表示所有截断博弈中可用的后续收益. 称收益 $w \in ℝ$ 是可执行的, 若存在某个生产计划 $(q,...,q)\in ℝ^N$ 和奖励函数 $u: Ω \to W$ , 使得:

厂商没有动机偏离生产计划 $q$ : $\begin{split} & \bar{\pi}_i (q; Nq ) + \int_{\Omega} u(p) g(p; Nq) dp \ge \\ & \quad \bar{\pi}_i(\tilde{q}, (N-1)q + \tilde q) + \int_{\Omega} u(p) g(p; (N-1)q + \tilde{q}) dp, \, \forall \tilde{q} \end{split}$
厂商的收益为 $w$ : $w = δ \Big(\bar{\pi}_i (q; Nq) + \int_{\Omega} u(p) g(p; Nq) dp \Big)$

若收益 $w$ 在参数为 $W$ 的阶段博弈中是可执行的, 则称 $W$ 可以支撑收益 $w \in ℝ$ . 令 $B(W) \subset ℝ$ 表示所有 $W$ 可以支撑的收益.

不难验证, $B : 2^ℝ \to 2^ℝ$ 是一个集合算子, 并且这个算子是单调的:
$W_1 \subseteq W_2$ $\implies$ $B(W_1) \subseteq B(W_2)$ .
解释: 当协调者可以使用更多的后续收益进行奖励或惩罚时, 截断博弈存在更多的纳什均衡, 对应的可执行收益也会变多.

均衡收益与不动点

接下来我们将截断博弈和原重复博弈联系起来.

令 $V \subset ℝ$ 表示重复博弈中厂商所有可能的均衡收益.

如果截断博弈中, 协调者可以用 $V$ 作为后续收益集 ( $W=V$ ), 截断博弈就可以支撑任何 $w \in V$ 作为均衡收益.

$\forall w \in V$ $\implies$ $w \in B(V)$ . 因此, $V \subseteq B(V)$ .
这个性质源自重复博弈中均衡收益的迭代性质. 当参与人都使用公共策略时, 它的成立是显然的 (可以类比子博弈精炼理解)

我们进一步证明反方向的包含关系也成立: $B(V) \subseteq V$ .

因此, $B(V) = V$ , 即集合 $V$ 是算子 $B$ 的不动点.

包含关系 $B(V) \subseteq V$ 的证明思路如下: 对任意 $w \in B(V)$ , 我们可以构造某个策略 $\hat σ$ 使得 (1) 所有厂商使用策略 $\hat σ$ 构成 SSE; (2) 对应的均衡收益为 $w$ .

假设 $w \in B(V)$ . 由算子 $B$ 的定义可知, 存在某个生产计划 $q$ 和后续收益函数 $u(p)$ 使得

对任意 $p \in Ω$ , $u(p) \in V$ .
对任意 $p \in Ω$ , 如果厂商预期后续收益为 $u(p)$ , 选择生产计划 $q$ 构成纳什均衡.

由 $u(p) \in V$ 可知, 对任意 $p \in Ω$ 都存在一个 SSE 使得所有厂商的均衡收益为 $u(p)$ . 记该 SSE 中厂商的策略为 $σ_p$ . 我们接下来基于 $σ_p$ 和 $q$ 来构造策略 $\hat σ$ :

$t=1$ : 厂商选择产量 $q$
$t\ge 2$ : 给定上一期的公共价格 $p$ , 这一期选择策略 $σ_p$ 对应的行动.

使用单次偏离准则验证 $\hat σ$ 构成 SSE:

从第二阶段起, 公司的策略为 $σ_p$ , 而 $σ_p$ 构成均衡策略.
在第一阶段, 给定后续收益 $u(p)$ , 没有公司愿意偏离生产计划 $q$ .

综上, $w$ 一定为均衡收益.

由 $w$ 的任意性可知 $B(V) \subseteq V$ .

利用不动点性质计算均衡收益集 $V$

算子 $B$ 的不动点不一定是唯一的. APS 进一步证明了, $V$ 一定是最大的不动点.

我们可以借助算子 $B$ 来计算均衡收益集 $V$ :

step 0. 令 $W_0 = [v_{min}, v_{max}]$ 表示所有可行收益
step 1. 迭代: $W_1 = B(W_0)$ .
- 若 $W_1 = W_0$ , $W_0$ 即为不动点;
- 若 $W_1 \subsetneq W_0$ , 继续迭代计算 $W_2=B(W_1)$ , 如此可得到一系列递减集合 $W_0, W_1, W_2, ...$ .
由于这个序列是单调递减且存在下界 (如古诺收益构成的单点集), 它一定会收敛到某个集合 $W^*$ .
APS 证明了: 集合 $W^*$ 就是 $V$ , 即算子 $B$ 的最大不动点.

上述迭代算法理论上可行, 但计算成本很高.

对于一般的集合 $W$ , 计算 $B(W)$ 都需要穷尽所有可能的奖励函数 $u: Ω \to W$ , 这对应一个无穷维的优化问题.

不过, Green–Porter 模型中的效用函数很简单: 所有厂商都只关注期望利润 (ie, 风险中性). 我们可以利用期望效用的线性性来简化计算.

Bang-bang

命题 (bang-bang). 对任意紧集 $W \subset ℝ$ , $B(W) \subseteq B(\{ \underline w, \bar w \})$ .

另一方面, 由算子 $B$ 的单调性可知 $B(W) \supseteq B(\{ \underline w, \bar w \})$

因此, $B(W) = B(\{ \underline w, \bar w \})$
紧集 $W$ 所能支撑的收益集 $B(W)$ 只取决于它的最大元 $\bar w = \max W$ 和最小元 $\underline w = \min W$ .

APS 称 $B(W) = B(\{ \underline w, \bar w \})$ 为算子 $B$ 的 bang-bang 性质. bang-bang 性质大大简化了 $B(W)$ 的计算:

计算 $W$ 所能支撑的收益集 $B(W)$ 时, 只需要考虑形如 $u: Ω \to \{ \min W, \max W\}$ 的奖励函数, 不必考虑所有 $Ω$ 到 $W$ 的映射.

证明 Bang-bang 性质

接下来证明 $B(W) \subseteq B(\{ \underline w, \bar w \})$ .

固定任意紧集 $W \subset ℝ$ 和任意可执行的 $(\hat q, \hat u(\cdot) )$ , 令 $w$ 表示此时截断博弈中的均衡收益.
只需证明, 存在奖励函数 $u^*: Ω \to \{ \min W, \max W \}$ 使得:
- $(q, u^*(\cdot) )$ 也是可执行的, 对应的厂商均衡收益也为 $w$ .

奖励函数 $u^*$ 的存在性由 Krein–Milman 定理保证:

这个定理是实分析与拓扑向量空间理论中的重要结果, 其基本内容如下:
若 $X$ 为局部凸的拓扑向量空间, $K$ 为 $X$ 中的一个非空紧凸集. 则 K 至少有一个端点, 并且 $K$ 可以表示为所有极端点的闭凸包.

具体而言, 我们需要构造一类特殊的函数空间, 说明该空间为紧凸集, 然后利用 Krein–Milman 定理保证端点 $u^*$ 的存在.

考虑满足如下条件的可测函数 $u : Ω \to \operatorname{co}W$ :

$(q, u(\cdot) )$ 在收益集 $W$ 下是可执行的, 并且对应的均衡收益为 $w$

令 $F$ 表示所有满足上述条件的函数 $u$ 构成的集合.

Claim 1: $F$ 是凸的.

只需验证, 所有集合 $F$ 定义中涉及的约束都关于奖励函数 $u$ 线性
IC 条件和厂商利润函数中, 奖励函数 $u$ 都以积分的形式进入: $\int_Ω g(p ; Q) \Big (π_i(p_i,q_i) + u(p) \Big) \mathop{dp}$

Claim 2: $F$ 是紧的. 这里考虑的拓扑是空间 $L^\infty (Ω;ℝ)$ 上的弱星拓扑.

首先说明 $L^\infty$ 是紧的, 这一点由 Alaoglu 定理保证
- 赋范空间的对偶空间中, 单位球在弱星拓扑下是紧的
- $L^\infty$ 是 $L^1$ 的对偶, 并且每个函数 $u$ 都有界. 因此, $L^\infty$ 是紧的.
因为 $F$ 由一族线性不等式定义, 所以它是闭的.
紧集的闭子集也是紧的. 因此, $F$ 是紧的.

至此, 已验证 $F$ 满足 Krein–Milman 定理的前提条件, 故存在端点 $u^*: W \to \{ \min W, \max W\}$ . QED.

bang-bang 均衡

其他结论:

若 $W$ 是紧的, 则 $B(W)$ 也是紧的.
由上述命题和前述的不动点算法可知, 均衡收益集 $V$ 一定是紧的.

由 bang-bang 性质可知:

只需使用最好的均衡收益 ( $\bar{v} =\max V$ ) 和最差的 SSE 收益 ( $\underline{v} =\min V$ ) 作为未来奖励, 就可以支持任意均衡收益 $v \in V$

称上述均衡为 bang-bang 均衡. 如果我们的目标是刻画均衡收益, 可以只关注 bang-bang 均衡.

bang-bang 均衡的跨期结构很简单, 它仅包含两个 “状态”:

好状态 (后续收益 $\bar{v}$ ): 厂商生产一个低产量 (合谋产量) $\bar{q}$ .
坏状态 (后续收益 $\underline{v}$ ): 厂商生产一个高产量 (惩罚产量) $\underline{q}$

不同于 Green–Porter 中的触发策略均衡, bang-bang 均衡中 “惩罚期” 的长度是不确定的, 具体取决于惩罚期内的价格实现.

bang-bang 均衡由四个参数描述:

合谋产量与惩罚产量 $(\bar{q}, \underline{q})$
价格空间 $\Omega$ 的划分 $(R, R')$

价格空间 $\Omega$ 被划分为两个区域:

奖励区域 ( $R$ ): 如果实现的价格 $p \in R$ , 寡头联盟在下一期保持 (或转移到) 好状态 $(\bar{v})$ .
惩罚区域 ( $R'$ ): 如果 $p \in R'$ , 寡头联盟转移到 (或保持在) 坏状态 $(\underline{v})$ .

比较静态分析

最后, 分析均衡收益关于贴现系数 $δ$ 的比较静态.

符号: $V(δ)$ 表示贴现系数为 $δ$ 时的均衡收益集, 它的最大元和最小元分别记为 $\bar v(δ)$ 和 $\underline v(δ)$ , $B(W;δ)$ 表示 (贴现系数为 $δ$ 时) $W$ 能支持的 (截断博弈) 均衡收益.

命题. 令 $δ_1$ 和 $δ_2$ 表示两个贴现系数, 且 $0<δ_1 < δ_2 < 1$ . 则: $\frac{1-δ_2} {δ_2} \bar v(δ_2) \ge \frac{1-δ_1} {δ_1} \bar v(δ_1) \qquad{(1)}$ $\frac{1-δ_2} {δ_2} \Big(\bar v(δ_2) - \underline v(δ_2) \Big) \ge \frac{1-δ_1} {δ_1} \Big(\bar v(δ_1) - \underline v(δ_1) \Big) \qquad{(2)}$

$(1-δ)/δ$ 为归一化系数
方程 (1) 说明最大平均均衡收益关于贴现系数递增
方程 (2) 说明均衡收益集的闭包 $\operatorname{co}(V(δ))$ 关于贴现系数递增