多臂老虎机问题

简介: 多臂老虎机问题

1.问题简介


多臂老虎机问题可以被看作简化版的强化学习问题,算是最简单的“和环境交互中的学习”的一种形式,不存在状态信息,只有动作和奖励。多臂老虎机中的探索与利用(exploration vs. exploitation)问题一直以来都是一个特别经典的问题,理解它能够帮助我们学习强化学习。


2.问题介绍


2.1问题定义


在多臂老虎机(multi-armed bandit,MAB)问题中,有一个拥有 K根拉杆的老虎机,拉动每一根拉杆都对应一个关于奖励的概率分布R。我们每次拉动其中一根拉杆,就可以从该拉杆对应的奖励概率分布中获得一个奖励 。我们在各根拉杆的奖励概率分布未知的情况下,从头开始尝试,目标是在操作 T次拉杆后获得尽可能高的累积奖励。由于奖励的概率分布是未知的,因此我们需要在“探索拉杆的获奖概率”和“根据经验选择获奖最多的拉杆”中进行权衡。


9537dcb232834e7c9f44aff57f2eab06_c7664bb8dc9e4ee08b72ddc40fc911ce.png


2.2形式化描述


多臂老虎机问题可以表示为一个元组6b871364479b9bcbf516ccc9e7305b48_eq_%5Cleft%20%5Clangle%20A%2CR%20%5Cright%20%5Crangle.png,其中:


  • A为动作集合,其中一个动作表示拉动一个拉杆。若多臂老虎机一共有K根拉杆,那动作空间就是集合b6ccc4aa137ee1750cf9b662b549d93c_eq_%5Cleft%20%5C%7B%20a_%7B1%7D%2C%5Ccdots%20a_%7Bi%7D%2C%5Ccdots%20%2Ca_%7Bk%7D%5Cright%20%5C%7D.png,我们用f77cddead45612b53e698b8e2d6b7a75_eq_a_%7Bt%7D%5Cni%20A.png表示任意一个动作;
  • R为奖励概率分布,拉动每一根拉杆的动作a都对应一个奖励概率分布R(r|a),拉动不同拉杆的奖励分布通常是不同的。

       假设每个时间步只能拉动一个拉杆,多臂老虎机的目标为最大化一段时间步T内累积的奖励:

da3d30665408df1a4012bfb8c93a9adc_eq_max%5Csum_%7Bt%3D1%7D%5E%7BT%7Dr_%7Bi%7D%2Cr_%7Bi%7D~R%28%5Ccdot%20%7Ca_%7Bt%7D%29.png

其中d8c987ad50ee967636fee6f143a3b1ff_eq_a_%7Bt%7D.png表示在第t时间步拉动某一拉杆的动作,表示动作获得的奖励。


对于每一个动作a,定义其期望奖励为:


440c5c15acc9ff89b00bf77ef68d2186_baa010af2fe247048ecc51d0f478d6a6.png


于是,至少存在一根拉杆,它的期望奖励不小于拉动其他任意一根拉杆,我们将该最优期望奖励表示为:


03845f3a679270c663f4f78b4f8eb09d_83615e42fc614a41b68f84130c0577fa.png


懊悔(regret)定义为拉动当前拉杆的动作a与最优拉杆的期望奖励差,即 :



累积懊悔(cumulative regret)即操作 T次拉杆后累积的懊悔总量,对于一次完整的T步决策ecac51a83558271adeb9a47c4ad044cc_eq_%5Cleft%20%5C%7B%20a_%7B1%7D%2Ca_%7B2%7D%2C%5Ccdots%20%2Ca_%7BT%7D%20%5Cright%20%5C%7D.png,累积懊悔为 :


ee2f017979c903c3af200a496c6c9a5b_128c46797dcf4f73a4dd5330d2bde491.png


MAB 问题的目标为最大化累积奖励,等价于最小化累积懊悔。


为了知道拉动哪一根拉杆能获得更高的奖励,我们需要估计拉动这根拉杆的期望奖励。由于只拉动一次拉杆获得的奖励存在随机性,所以需要多次拉动一根拉杆,然后计算得到的多次奖励的期望,其算法流程如下所示:


89d8b48f1f2844fa297fe8bb0cea9ca7_00bf6a47da524434a633f917bb83aa7b.png


以上 for 循环中的第四步如此更新估值,是因为这样可以进行增量式的期望更新,为什么不按照常规方法将所有数求和再除以次数呢?具体原因如下:


因为如果将所有数求和再除以次数,其缺点是每次更新的时间复杂度和空间复杂度均为 O(n)。而采用增量式更新,时间复杂度和空间复杂度均为O(1) 。


3. 代码实现


以下代码来实现一个拉杆数为 10 的多臂老虎机。其中拉动每根拉杆的奖励服从伯努利分布(Bernoulli distribution),即每次拉下拉杆有P的概率获得的奖励为 1,有1-P的概率获得的奖励为 0。奖励为 1 代表获奖,奖励为 0 代表没有获奖。


# 导入需要使用的库,其中numpy是支持数组和矩阵运算的科学计算库,而matplotlib是绘图库
import numpy as np
import matplotlib.pyplot as plt
class BernoulliBandit:
    """ 伯努利多臂老虎机,输入K表示拉杆个数 """
    def __init__(self, K):
        self.probs = np.random.uniform(size=K)  # 随机生成K个0~1的数,作为拉动每根拉杆的获奖
        # 概率
        self.best_idx = np.argmax(self.probs)  # 获奖概率最大的拉杆
        self.best_prob = self.probs[self.best_idx]  # 最大的获奖概率
        self.K = K
    def step(self, k):
        # 当玩家选择了k号拉杆后,根据拉动该老虎机的k号拉杆获得奖励的概率返回1(获奖)或0(未
        # 获奖)
        if np.random.rand() < self.probs[k]:
            return 1
        else:
            return 0
np.random.seed(1)  # 设定随机种子,使实验具有可重复性
K = 10
bandit_10_arm = BernoulliBandit(K)
print("随机生成了一个%d臂伯努利老虎机" % K)
print("获奖概率最大的拉杆为%d号,其获奖概率为%.4f" %
      (bandit_10_arm.best_idx, bandit_10_arm.best_prob))

接下来我们用一个 Solver 基础类来实现上述的多臂老虎机的求解方案。需要实现下列函数功能:根据策略选择动作、根据动作获取奖励、更新期望奖励估值、更新累积懊悔和计数。在下面的 MAB 算法基本框架中,我们将根据策略选择动作、根据动作获取奖励和更新期望奖励估值放在 run_one_step() 函数中,由每个继承 Solver 类的策略具体实现。而更新累积懊悔和计数则直接放在主循环 run() 中。


class Solver:
    """ 多臂老虎机算法基本框架 """
    def __init__(self, bandit):
        self.bandit = bandit
        self.counts = np.zeros(self.bandit.K)  # 每根拉杆的尝试次数
        self.regret = 0.  # 当前步的累积懊悔
        self.actions = []  # 维护一个列表,记录每一步的动作
        self.regrets = []  # 维护一个列表,记录每一步的累积懊悔
    def update_regret(self, k):
        # 计算累积懊悔并保存,k为本次动作选择的拉杆的编号
        self.regret += self.bandit.best_prob - self.bandit.probs[k]
        self.regrets.append(self.regret)
    def run_one_step(self):
        # 返回当前动作选择哪一根拉杆,由每个具体的策略实现
        raise NotImplementedError
    def run(self, num_steps):
        # 运行一定次数,num_steps为总运行次数
        for _ in range(num_steps):
            k = self.run_one_step()
            self.counts[k] += 1
            self.actions.append(k)
            self.update_regret(k)

目录
相关文章
|
机器学习/深度学习 Python
带你读《强化学习:原理与Python实现》之二:Markov决策过程
本书理论完备,涵盖主流经典强化学习算法和深度强化学习算法,实战性强。基于Python、Gym、TensorFlow 2、AlphaZero等构建,是一本配套TensorFlow 2代码的强化学习教程书,全书完整地介绍了主流的强化学习理论,读者可以了解强化学习基础知识,通过实例感受强化学习的魅力,并了解强化学习前沿进展。
|
1月前
|
SQL DataWorks 关系型数据库
阿里云 DataWorks 正式支持 SelectDB & Apache Doris 数据源,实现 MySQL 整库实时同步
阿里云数据库 SelectDB 版是阿里云与飞轮科技联合基于 Apache Doris 内核打造的现代化数据仓库,支持大规模实时数据上的极速查询分析。通过实时、统一、弹性、开放的核心能力,能够为企业提供高性价比、简单易用、安全稳定、低成本的实时大数据分析支持。SelectDB 具备世界领先的实时分析能力,能够实现秒级的数据实时导入与同步,在宽表、复杂多表关联、高并发点查等不同场景下,提供超越一众国际知名的同类产品的优秀性能,多次登顶 ClickBench 全球数据库分析性能排行榜。
|
6月前
|
人工智能 分布式计算 算法
人工智能的蚁群算法介绍
人工智能的蚁群算法介绍
|
7月前
|
机器学习/深度学习 人工智能 数据处理
人工智能平台PAI产品使用合集之机器学习PAI EasyRec中的eval_config的使用方法是什么
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
7月前
|
Python
【Python3 查询手册学习】,完整版PDF开放下载_python速查手册·模块卷(全彩版) pdf(1)
【Python3 查询手册学习】,完整版PDF开放下载_python速查手册·模块卷(全彩版) pdf(1)
|
7月前
|
XML 小程序 Java
【Android App】三维投影OpenGL ES的讲解及着色器实现(附源码和演示 超详细)
【Android App】三维投影OpenGL ES的讲解及着色器实现(附源码和演示 超详细)
137 0
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
深入理解TF-IDF、BM25算法与BM25变种:揭秘信息检索的核心原理与应用
深入理解TF-IDF、BM25算法与BM25变种:揭秘信息检索的核心原理与应用
|
机器学习/深度学习 算法 搜索推荐
动手学强化学习(一):多臂老虎机 Multi-armed Bandit
 强化学习关注智能体和环境交互过程中的学习,这是一种试错型学习(trial-and-error learning)范式。在正式学习强化学习之前,我们需要先了解多臂老虎机问题,它可以被看作简化版的强化学习问题。与强化学习不同,多臂老虎机不存在状态信息,只有动作和奖励,算是最简单的“和环境交互中的学习”的一种形式。多臂老虎机中的探索与利用(exploration vs. exploitation)问题一直以来都是一个特别经典的问题,理解它能够帮助我们学习强化学习。
964 1
|
Python
Python 任意长度的人民币小写金额转大写的简短代码
Python 任意长度的人民币小写金额转大写的简短代码
345 0
|
存储 机器学习/深度学习 边缘计算
云边协同与人工智能AI的深度融合(云端训练、边端推理)
在面向物联网、大流量等场景下,为了满足更广连接、更低时延、更好控制等需求,云计算在向一种更加全局化的分布式节点组合形态进阶,边缘计算是其向边缘侧分布式拓展的新触角。
8270 0

热门文章

最新文章