博弈论第九集总结

简介: 博弈论第九集总结

两个概念:什么是纯策略?什么是混合策略?

简单来讲,纯策略就是在给定当前信息下,我有一个明确的行动。比如我知道对方要出剪刀,我就会出石头;而混合策略是给定当前信息下,我的行动是服从某个概率分布的。比如我知道对方要出剪刀,我以 50% 概率出剪刀,50% 概率出石头。

石头剪子布游戏实际上是一个混合策略游戏,因为我们不知道对方出什么,所以自己的出法也不会是固定的。

②.石头剪刀布

1/3赢         1/3平        1/3输           1/3剪刀             1/3石头           1/3布    

还是石头剪子布的游戏,如果我告知你我要出石头,是否会对你的决定有影响?

理论上当然不应该有影响,但实际上不一样。在对方告知将出石头的条件下,出剪刀的比例大大减小,因为如果此时出剪刀输了就没有任何借口。此时人们出三者的可能性大致如下,在已知对方出石头的情况下,自己也出石头是最有可能的。

如果修改了收益,出剪刀赢收益高输赔的少,那么会对你有什么影响吗?

2.监督博弈

雇员可以努力工作,也可以摸鱼。雇主可以监督雇员让其不摸鱼,也可以选择佛系

分析一下:

收益:

  • 1.检查时偷懒了,对雇主而言花费了检查成本,省下了工资;对雇员而言,没得到工资也不用付出。
  • 2.检查时没偷懒,雇主花费检查成本,得到员工贡献与工资之差;雇员得到工资与付出之差。
  • 3.偷懒时没检查,雇主白花工资;雇员白嫖工资。
  • 4.不检查也没偷懒,雇主得到员工贡献与工资之差;雇员得到工资与付出之差。

付出:

  • 对雇主而言,无论雇员偷不偷懒,都最好别检查。
  • 对雇员而言,雇主检查时最好别偷懒,雇主不检查时最好偷懒。
  • 对雇主而言,雇员偷懒时最好要检查,不偷懒时最好不检查。
  • 对雇员而言,雇主检查时最好别偷懒,雇主不检查时最好偷懒。
  • 为了收益最大,当然得求偏导。但我们不需要把均衡结果代入期望收益中,只需代入检查或不检查的期望收益
相关文章
|
5月前
|
机器学习/深度学习 算法
算法人生(2):从“强化学习”看如何“活在当下”
本文探讨了强化学习的原理及其在个人生活中的启示。强化学习强调智能体在动态环境中通过与环境交互学习最优策略,不断迭代优化。这种思想类似于“活在当下”的哲学,要求人们专注于当前状态和决策,不过分依赖历史经验或担忧未来。活在当下意味着全情投入每一刻,不被过去或未来牵绊。通过减少执着,提高觉察力和静心练习,我们可以更好地活在当下,同时兼顾历史经验和未来规划。文章建议实践静心、时间管理和接纳每个瞬间,以实现更低焦虑、更高生活质量的生活艺术。
|
决策智能
博弈论第十集总结
博弈论第十集总结
51 0
|
5月前
|
测试技术 决策智能
博弈论
博弈论
|
决策智能
博弈论第二集总结
博弈论第二集总结
59 0
|
决策智能
博弈论第三集总结
博弈论第三集总结
52 0
|
决策智能
博弈论第四集总结
博弈论第四集总结
44 0
|
决策智能
博弈论第八集总结
博弈论第八集总结
77 0
|
决策智能
博弈论第六集总结
博弈论第六集总结
82 0
|
决策智能
博弈论第五集总结
博弈论第五集总结
67 0
|
决策智能
博弈论第七集总结
博弈论第七集总结
77 0