博弈论(二)完全信息静态博弈

简介: 博弈论(二)完全信息静态博弈

 完全信息静态博弈(static games of complete information)。其中假设参与人是理性的(Rationality),也就是参与人的目的是使得自己收益最大化,参与人是完美的计算者。并且参与人知道其它参与人是理性的。

Prisoners’ Dilemma

  上述例子就是完全信息静态博弈的例子。同时行动(simultaneous move)指的是每个参与人在选择他的策略时不知道其他参与人的选择。完全信息(complete information)指的是每个参与人的策略和收益函数都是所有参与人的共同知识(common konwledge)。


Normal-form (or strategic-form) representation


  一个博弈G GG的标准式(或策略式)包括:

image.png

2-player game

  如只有两个player,且每个player的策略有限,则可以用双变量矩阵来表示这个博弈:

  行和列表示策略可选策略,矩阵中的单元格表示策略组合

Prisoners’ Dilemma

  在囚徒困境这个例子中参与人集合可表示为:{ P r i s o n e r 1 , P r i s o n e r 2 } ,策略集合S 1 = S 2 = { M u m , C o n f e s s } 收益函数可表示为:

  那么其双变量矩阵可表示为:

Iterated elimination of strictly dominated strategies

Nash equilibrium

  纳什均衡是一个策略组合。其中,每个参与人选择的策略都是针对其他参与人选择策略的最优反应。

  更一般地考虑2-player game with strategiesS 1 = { s 11 , s 12 , s 13 } S 2 = { s 21 , s 22 },如果u 1 ( s 11 , s 21 ) ≥ u 1 ( s 12 , s 21 ) ,且u 1 ( s 11 , s 21 ) ≥ u 1 ( s 13 , s 21 )。那么player1的策略s 11 是他对player2策略s 21 的最优反应。

  在一个两个参与人的博弈中,当且仅当两个参与人所选策略都为对方所选策略的最优反应时,那么这个策略是一个纳什均衡。

  在一个纳什均衡的策略组合上,每个参与人给定对方策略选择时最大化自己的收益了,不会有任何动机偏离当前的策略选择。

  再看一个纳什均衡解的问题:

Best Response Function


  最优反应(Best Response Function)定义:在标准式博弈(normal-form game) { S 1 , S 2 , ⋯   , S n , u 1 , u 2 , ⋯   , u n } 中,如果其它玩家1 , 2 , ⋯   , i − 1 , i + 1 , ⋯   , n 选择策略s 1 , ⋯   , s i − 1 , s i + 1 , ⋯   , s n ,对于参与人i 来说,如果策略s i s_{i}si带给他的收益不小于他在任何其它策略带给他的收益,那么这个策略s i 就是对于其他参与人所选策略的最优反应:

image.png

或者定义为一个最大化问题:

image.png


依据最优反应定义纳什均衡

Applications of Nash equilibrium

最优反应求解纯策略纳什均衡

严格剔除劣策略纳什均衡

Mixed strategy Nash equilibrium

  混合策略是指定一个实际行动,它是从纯策略集中以某些指定的概率被随机选择出来的。伴随着策略选择的随机化是参与人收益的随机化。因此需要引入期望收益(expected payoff)

目录
打赏
0
0
0
0
25
分享
相关文章
【Tied-Augment】卷出新花样:加强数据增强的有效性!从一篇顶刊论文中窥探的一些信息,
【Tied-Augment】卷出新花样:加强数据增强的有效性!从一篇顶刊论文中窥探的一些信息,
164 0
【Tied-Augment】卷出新花样:加强数据增强的有效性!从一篇顶刊论文中窥探的一些信息,
【FasterVIT】试图从FasterVIT网络结构中窥探出一些有用的信息
【FasterVIT】试图从FasterVIT网络结构中窥探出一些有用的信息
111 0
【FasterVIT】试图从FasterVIT网络结构中窥探出一些有用的信息
|
3月前
|
五种被低估的非常规统计检验方法:数学原理剖析与多领域应用价值研究
本文将详细介绍五种具有重要应用价值的统计检验方法,并探讨它们在免疫学(TCR/BCR库分析)、金融数据分析和运动科学等领域的具体应用。
86 11
|
9月前
|
ACL 2024:大模型性能掺水严重?北大交出答卷:交互评估+动态出题,死记硬背也没用
【7月更文挑战第8天】北大研究团队推出KIEval框架,针对大语言模型(LLMs)的性能评估进行创新。KIEval采用互动评估和动态出题,通过多轮基于知识的对话测试模型理解和应用能力,旨在减少数据污染影响,挑战死记硬背的评估。然而,该方法可能增加计算需求,且评估结果可能受主观因素影响,不适用于所有类型LLMs。[论文链接:](https://arxiv.org/abs/2402.15043)**
148 24
数码相机背后的像素秘密:静态与动态的真相
这篇文章探讨了数码摄影中“动态像素”和“静态像素”的概念。像素是图像质量的关键因素,而CCD或CMOS传感器负责将光信号转化为数字图像。RGB差值补偿算法用于恢复色彩,但牺牲了部分分辨率。所谓“动态像素”更多是营销术语,而非技术标准,它反映了拍照和录像时因硬件限制和处理需求不同而产生的差异。随着技术进步,硬件编码器的引入已显著提升视频处理能力,使得高清摄影和视频录制变得更加普遍。理解这些原理有助于消费者做出更明智的设备选择。
基于纳什博弈的多微网主体电热双层共享策略(matlab代码)
基于纳什博弈的多微网主体电热双层共享策略(matlab代码)
|
11月前
|
动态规划法在汽车租赁问题中的实战(使用策略迭代法得到最优策略和最优价值 python实现 附源码)
动态规划法在汽车租赁问题中的实战(使用策略迭代法得到最优策略和最优价值 python实现 附源码)
112 0