我们讨论关于厂商同时定产的寡头模型.
单期的寡头同时定产模型一般被称为古诺模型.
法国经济学家古诺最早系统研究该问题, 并刻画了单期博弈 (纳什) 均衡中每个寡头厂商的产量. 一般称该均衡为古诺均衡, 称厂商的均衡产量为古诺产量.
这里我们使用了今天 (2025 年) 的博弈论语言来描述古诺的发现. 要知道, 古诺是十九世纪的经济学家, 当时还没有博弈论和纳什均衡这些概念.
古诺均衡中, 所有厂商的总产量 高于垄断产量 .
如果寡头厂商们能联合起来, 集体降低产出, 那么每个厂商的利润都会严格上升. 这种现象通常被称为寡头合谋.
在单期的古诺博弈中, 合谋不构成纳什均衡, 否则每家厂商都会有单方面提高产量的激励.
这个结论和囚徒困境很类似, 个人最佳选择 (纳什均衡) 和团体最佳不一致.
可能是因为这个原因, 有些资料会将古诺博弈形容为包含无穷行动的多人囚徒困境博弈.
我个人不喜欢这个类比, 因为古诺博弈均衡和囚徒困境均衡很不同:
囚徒困境中存在严格的占优策略均衡
作为推论, 囚徒困境中的均衡是唯一的.
古诺均衡只是纳什均衡, 参与人没有严格占优策略.
古诺博弈中是否存在其它 (混合策略) 纳什均衡, 至今仍是一个开问题. 有兴趣的读者可以阅读 Kreps 教科书 Microeconomic Foundations II 相关章节的内容.
如果考虑无穷期重复博弈, 合谋就有可能成为均衡结果. Friedman (1971) 使用重复博弈的框架讨论了寡头合谋问题, 并提出了 “冷酷触发策略” 这一概念.
冷酷触发策略涉及两个阶段: 正常阶段和惩罚阶段
博弈开始时处于正常阶段, 每个厂商 选择某一合谋产量 (如 , 其中 为厂商数目);
一旦有厂商偏离该产量, 博弈将永久进入惩罚阶段, 惩罚阶段中所有厂商均生产古诺产量.
上述策略的 “冷酷” 之处在于:
一旦有任何厂商偏离了合谋产量, 博弈都会进入永久的惩罚阶段, 不会给予犯错厂商任何改过的机会.
对每个厂商而言, 如果当期增产所带来的边际收益小于因未来永久陷入低利润的古诺产量所带来的边际损失, 厂商就不会增产, 合谋就能得以维持.
冷酷触发策略只是一种维持合谋的方式. 不过, 它是 (子博弈精炼) 均衡下能采用的最严厉惩罚机制. 如果我们的目标是求解厂商最优均衡, 考虑冷酷触发策略就是合理的.
冷酷触发策略下合谋均衡的成立, 依赖于厂商总能及时察觉任何对合谋产量的偏离.
换言之, 寡头联盟能够有效监督联盟内每个成员的行动.
上述假设一般被称为 “完美监督” 假设, 我们可以从如下两个情形来理解完美监督:
每期博弈结束后, 厂商能直接观测到竞争对手的产量.
此时, 完美监督假设自然成立.
每期博弈结束后, 厂商不能直接观测竞争对手的产量, 但可以通过当期价格这个公开信号来推断是否有人偏离合谋.
如果价格完全由产量决定 (ie, 没有随机扰动), 寡头联盟通常就可以判断是否有人偏离合谋, 进而决定博弈下一期是否要进入惩罚期.
由于触发策略下的惩罚期通常是无差别地惩罚所有厂商, 所以寡头联盟不需要知道具体是谁发生了偏离, 只需要知道是否有人偏离即可.
然而, 现实中的寡头厂商往往无法观测到竞争对手的产量, 也无法通过价格来完美推断是否有厂商发生偏离.
此时, 完美监督假设不再成立. 一般称此情景为包含不完美监督的合谋问题.
当合谋问题包含不完美监督时, 厂商最优均衡的求解会变得十分复杂. 比如, 我们无法只考虑冷酷触发策略下的均衡.
Green 和 Porter (1984) 使用贝尔曼方程的技巧, 给出了存在不完美监督时的合谋均衡例子.
这个均衡中, 每个厂商仍使用触发策略, 不过该触发策略不再是冷酷的: 惩罚阶段只维持有限期, 而非无穷期.
为简化分析, Green–Porter 只考虑了所有厂商使用公共策略的均衡, 并且也无法证明使用触发策略能实现厂商最优均衡收益.
不过, Green–Porter 基本保留了原本完美监督下寡头合谋的基本直觉, 并且均衡的求解也比较简单直接.
Green & Porter (1984) 考虑了包含如下特征的无穷期厂商定产模型:
产量不可观测: 每个厂商私下选择产量, 并且无法观测到竞争对手的产量
存在需求冲击: 市场价格由总产量以及随机需求冲击共同决定
上述设定下的合谋问题存在不完美监督:
当厂商观测到较低的市场价格时, 它无法区分这是由低需求冲击 (运气不好) 导致, 还是由竞争对手 “作弊” (私下增产) 导致.
Green & Porter 构造了一个对称的合谋均衡, 其中每个厂商均使用如下触发策略:
如果价格高于某个阈值水平 , 厂商选择某个 (较低的) 合谋产量;
否则, 寡头联盟将进入时长为 的 “惩罚阶段”, 惩罚阶段产量为古诺产量.
上述触发策略下的均衡结果中:
惩罚会依概率 1 在均衡路径上触发.
惩罚只会由低需求冲击触发, 不会由厂商私下增产触发.
上述第二点看起来很没有道理: 既然没有人作弊, 为什么还要设置惩罚期?
略加思考后不难发现, 即使总是会误判, 惩罚期的存在对维持合谋仍是必须的. 原因在于, 如果不对坏结果 (低价) 进行惩罚, 厂商就不会遵守合谋产量, 均衡就无法维持.
这些事后看似低效率的惩罚, 在事前是有效的 (ie, 维持了合谋).
模型具体参数:
离散时间:
参与者: 家生产同质产品的厂商
行动: 厂商 在时期 选择产量 .
需求函数为 , 其中:
冲击项为 , 它以乘数的形式进入需求的表达式;
是行业总产出;
是需求函数中确定性的部分, 并且 .
关于冲击 的假设:
独立同分布, 支撑集为
存在概率密度函数 , 累积分布记为
由于冲击以乘数的形式进入需求函数, 其均值标准化为
假设成本为零, 厂商 在时期 的利润为:
不完美监督:
厂商 仅能观测其自身的产量 和公开的市场价格 , 无法观测其他厂商的产量 () 或需求冲击 .
第 期博弈进行如下:
所有厂商 同时选择产量 , . 同时, 自然根据密度函数 决定需求冲击 ;
所有厂商同时观测到价格 , 为当期总产量
该期博弈结束, 厂商 的当期利润为
厂商的目标是最大化跨期贴现利润, 厂商的贴现系数为 .
对于包含不完美监督的重复博弈而言, 均衡定义的 “前摇” 如下:
首先, 定义每个参与人的私人历史, 即每个厂商的私人产量和所有公开价格
然后, 定义每个厂商的 (行为) 策略, 它一般表示为私人历史到行动的映射.
重复博弈中, 一般只考虑纯策略.
接着, 还要定义每个参与人的信念, 即参与人眼中其他参与人 (包括自然) 行动的概率分布
在 Green–Porter 中, 信念的部分并不重要, 原因见后文.
最后, 才能给出均衡的正式表述, 它由所有参与人的策略+信念构成.
Green & Porter (1984) 原文使用的解概念是 (某种修改后的) 纳什均衡.
从今天的观点来看, 作者实际上使用的解概念是完美公共均衡 (Perfect Public Equilibrium).
为了方便定义完美公共均衡, 先引入 (重复博弈中) 公共策略和私人策略的概念.
公共策略: 参与人的行动只取决于公共历史, 不取决于私人信息
私人策略: 参与人的行动取决于其私人信息
定义. 完美公共均衡 (PPE) 是一种特殊的序贯均衡 (或完美贝叶斯均衡), 其中每个参与人都使用公共策略.
和子博弈精炼均衡类似, PPE 具有递归结构:
在第 期开始的博弈中所能支撑的 PPE 收益集, 和在第 期开始的博弈中支撑的 PPE 收益集相同.
我们可以把每个可能的公共历史 (eg, Green–Porter 模型中过去的价格序列 ) 之后的博弈环节类比为 “子博弈”:
由于 PPE 中参与人均使用公共策略, 知道公共历史就足够预测之后参与人在 “子博弈” 里的行为, 进而用单次偏离准则来验证策略组合是否构成 PPE.
注意, 上面的 “子博弈” 打了引号. Green–Porter 模型里不存在子博弈. 如果读者暂时不理解这一点, 可以试着画画博弈树 (考虑只有两家厂商且每个厂商只有两个行动的简单情况即可)
下面以 Q&A 的形式介绍一些 PPE 的性质, 它对于理解 Green–Porter 模型不是必须的, 可以跳过.
Q: PPE 的定义中, 要求参与人行动只和公共历史有关. 为什么不考虑私人策略, 这难道不会有失一般性吗?
A: 不会.
虽然 PPE 中厂商均使用公共策略, 但在考虑厂商的可能偏离时, 私人策略是允许的. 只不过, 给定对手都使用公共策略, 厂商 肯定存在一个是公共策略的最优反应.
换言之, 给定其它厂商的产量都只取决于公共历史, 厂商 在思考自己的最优反应时也不需要考虑自己的私人历史 (想想为什么)
注意上述推理的前提条件: 其他人都使用公共策略. 一般而言, 如果其他参与人使用私人策略, 参与人 的最优反应可能必须是私人策略 (想想为什么)
Q: 给定其它厂商使用公共策略, 厂商 的最优反应可以是公共策略, 这一点很好理解. 但为什么当其他人使用私人策略时, 厂商 的最优反应可能必须是私人策略?
A:
如果对手的行动可以取决于其私人信息 (即对手过去的私人产量), 厂商 在推测厂商 的行动时, 还需要推测厂商 过去的私人产量.
厂商 只能根据 (i) 过去的公共价格和 (ii) 自己过去的私人产量来推测厂商 过去的私人产量.
由于上一期价格的分布和上一期的 和 都有关, 厂商 在推断对手过去行动时, 可能会用到自己过去的产量. 因此, 厂商当期的最优反应也可能取决于自己过去的产量. 当这种情况发生时, 厂商的最优反应只能是私人策略.
Q: 考虑更一般的均衡概念 (如完美贝叶斯均衡或序贯均衡), 并且允许厂商使用私人策略. 如果我们的研究目标是刻画厂商最优均衡或所有均衡收益, 只考虑完美公共均衡会不会有失一般性?
A: 会.
有可能存在参与人使用私人策略的均衡, 其福利性质好于所有 PPE. 我们无法排除这种可能性.
Green–Porter 的解概念是 PPE, 并且只考虑了所有参与人都使用触发策略这一种情形. 因此, Green–Porter 无法计算厂商最优均衡收益.
Q: 如果研究目标是刻画所有均衡收益, 什么时候使用 PPE 是不失一般性的, 什么时候不是? 能不能给一些具体例子?
A: 可以
FLM 94 给出了 PPE 下 folk 定理成立的条件, 此时 PPE 收益集自然等于序贯均衡收益集.
在我有限的阅读经验里, 纯策略序贯均衡在收益上都等价于某个 PPE. 如果只考虑纯策略, 一般不难证明考虑 PPE 是不失一般性的 (如后面介绍的 APS 1986).
问题发生在使用混合策略的情形. 如果参与人在博弈早期采用混合策略, 他就可以利用自己过去的行动实现来选择后续行动, 这使得后续博弈结果中出现类似 “相关均衡” 结果的情形 (即参与人通过前期的随机行动引入了相关装置). 显然, 这些 “相关均衡” 不是 时能有的序贯均衡, 因此破坏了均衡的递归结构.
序贯均衡优于 PPE 的例子常见于不完美私人监督博弈, 比如 Kandori & Obara.
回到 Green–Porter 模型, 考虑如下厂商 的触发策略:
正常阶段: 生产合谋产量 .
例如, , 其中 为垄断产量
触发条件: 如果当期价格 低于某个门槛值 , 博弈切换到惩罚阶段, 惩罚阶段时长为 期.
惩罚阶段: 无论此期间的最终价格如何, 厂商均生产某惩罚产量 .
恢复: 在 期惩罚之后, 博弈回到正常阶段.
上述触发策略包含四个参数:
正常阶段的合谋产量 ,
惩罚阶段的产量 ,
惩罚时长 ,
以及触发价格 .
令 表示厂商 的触发策略. 为简化分析, 我们只关注如下对称情形:
所有厂商 惩罚阶段的产量均为古诺产量
正常阶段的产量均为某个 (高于古诺产量但低于垄断产量的) 合谋产量 ,
令 表示当期总产出, 博弈保持在正常阶段 (即 ) 的概率为:
其中 表示总产量为 时会触发惩罚的概率.
由于更高的产量会压低价格, 一定有 .
私下增产虽然不一定会触发惩罚, 但却会提高触发惩罚的概率, 因此惩罚机制有助于维持合谋
触发策略下, 厂商 的单期收益为:
合谋期: (因为 ).
惩罚期: .
给定其它厂商都使用触发策略, 厂商 的最优化问题可以用贝尔曼方程描述. 具体而言:
厂商 产量为 的当期期望利润为:
惩罚期的单期期望利润为:
令 表示厂商在正常阶段的价值函数, 即厂商 当期产量为 时所有未来利润的贴现值. 该价值函数满足如下递归方程:
方程 (1) 即为贝尔曼方程, 其中 表示刚进入惩罚期时的价值:
将上述 的表达式代入贝尔曼方程 (1):
上式对于 也成立, 因此:
式 (2) 给出了当所有竞争对手均使用触发策略时, 厂商 的价值函数. 其直觉解释如下:
我们可以从 的表达式中分离出 “古诺价值” 的部分:
注意到, 为厂商在古诺均衡下的总贴现利润. 因此, 可以理解为古诺价值加上一个 “合谋溢价”, 这个溢价关于触发惩罚的概率 () 递减.
均衡条件: 给定其它厂商使用触发策略, 厂商 使用触发策略构成最优反应. 因此, 必须最大化 .
关于 的一阶条件:
对递归形式的贝尔曼方程 (1) 求一阶导:
上式中, 表示增加产量带来的额外即时利润, 其机会成本是会提高下一期触发惩罚的概率 (), 是进入惩罚阶段后的损失.
代入价值函数的表达式 (2) 可得:
上述一阶条件给出了均衡中合谋产出 , 惩罚时长 和触发价格 的关系.
满足该一阶条件和约束 的触发策略组合, 都可以构成合谋均衡.