蓄水池算法

简介: 蓄水池算法

题目

在这里插入图片描述

题解

问题分析

比如,轮到第1741号球吐出来了,那就要做到从第1号球到第1741号球每一个球进袋子的概率均等。所以,难点在于,它是一个动态的,在动态的每一步,要保证过往的所有球进入袋子的概率均等。

入袋和出袋的机制

首先,在1号球到10号球之间,直接进袋子,没有任何进制;

10号球以后,比如,现在吐出的是第 i 号球,我们以 10/i 的概率决定这个球要不要进入袋子。也就是说我们可以实现一个函数,这个函数传进来 i 的话,等概率返回 1~ i 之间的一个数字,如何返回的数字是 1~10 ,那就把这个球放入袋子;如果返回的数字是大于 10 的,那就不放入袋子,也就是被我们永远扔掉了!

那现在问题来了,如果决定 i 号球进入袋子,但是袋子里只能装下 10 个球,该扔掉哪一个呢?所以,袋子里放的每一个球,不管它是几号球,等概率随机扔掉一个,让 i 号球进来,整个进制就结束了

解释

那么为什么在这个机制下就可以保证吐出的所有球进袋子的概率均等呢?

我们先来想这样一件事情,当前吐出了1729号球(1730号球还没吐),那么3号球在1729号球决定完了之后还在袋子里的概率是多少?如果3号球在1729号球决定完了之后还在袋子里,我们看看3号球经历了什么...

那么,首先1到10号球,3号球在袋子里的机率是百分之百的,就是1。

然后,假设当前来到了第11号球,那么3号球肯定还在袋子里,11号球进入袋子的概率为 10/11,并且3号球出袋的概率为 1/10,所以,11号球到来的时候,3号球出袋子的概率为 10/11 * 1/10,那就是 1/11;那么3号球仍在袋子里的概率就是 10/11了。

现在轮到12号球了,12号球进入袋子的概率为 10/12,3号球出袋的概率为 1/10;那么,12号球到来的时候,3号球出袋子的概率为 1/12;3号球仍在袋子里的概率就是 11/12。

轮到13号球了,13号球以 10/13 的概率进袋子;3号球以 1/10 的概率出袋子;那么13号球到来的时候,3号球出袋的概率为 1/13,仍在袋子里的概率为 12/13。

所以,应该发现规律了...

在这里插入图片描述
所以,到第1729号球的时候,3号球仍然在袋子里的概率为 10/1729。

实验

以下实验根据上述例子展开

package com.harrison.class19;

/**
 * @author Harrison
 * @create 2022-08-05-17:34
 * @motto 众里寻他千百度,蓦然回首,那人却在灯火阑珊处。
 */
public class Code02_ReservoirSamplingTest {
    // 等概率返回 1 ~ i 中的一个数字
    public static int random(int i){
        return (int)(Math.random()*i)+1;
    }
    public static void main(String[] args) {
        int test=1000000;
        int[] count=new int[1730];
        for(int i=0; i<test; i++){
            int[] bag=new int[10];
            int bagi=0;
            for(int num=1; num<=1729; num++){
                if(num<=10){
                    bag[bagi++]=num;
                }else{// num>10
                    if(random(num)<=10){// 一定要把num球放入袋子,否则永远扔掉num球
                        bagi=(int)(Math.random()*10);
                        bag[bagi]=num;
                    }
                }
            }
            for(int num:bag){// 袋子里的每一个球,命中了就把词频加加
                count[num]++;
            }
        }
        for(int i=0; i<=1729; i++){
            System.out.println(count[i]);
        }
    }
}

没有第0号球,所以第0号球不会选中进入袋子,1729个球,展示不了,只截图了一部分...

因为球的个数太多,实验次数也不是很多,如果把球的个数变少的话,就更能感觉每个球进入袋子的机率几乎是一样的

在这里插入图片描述

下图是只有17个球,实验次数为一百万的情况下做的实验,是不是1到17号球每个球进入袋子的概率相等呢?

在这里插入图片描述

工程上的应用举例

假设你经营一个非常火的国际游戏,并打算做一个抽奖;你有各个国家的服务器,各地区的服务器,每个人登录可能是某一个地区服务器提供的服务;那么,你需要做到:所有在今天登陆过的用户抽奖一次,比如说1月1号,0点0分抽奖,1月2日0点0分开奖;只要任何一个用户在这个时间段内登录游戏都可以中奖,而且是等概率的,中将用户有100名。怎么设计这
样一个抽奖系统?

如果不用蓄水池问题,得把所有服务器登录的所有名单拿到手,抽100个人,这是一个非常浩大的过程,得上线一个服
务,每一台服务器都得部署这个服务,收集到的用户名单汇报到哪儿,而且还是个比较复杂的一个类似于一个汇总的一个服务;还不知道会不会出错,而且关键在于,可能没有办法在1月2日直接公布得奖名单。为啥,可能1月1日晚上23点以后用户登录还得收集,还得做这样数据整合。所以可能开奖的时候没办法正正好好赶在1月2日的00:00。

如果我们有蓄水池问题,这个问题就变简单了,全球所有的服务器只跟一台服务器沟通,你只用上线一些东西:

1、第几次登录:某一个用户在登陆的时候,他是不是第一次登录;如果时第二次第三次或以后几次登录就不让他参与抽奖;只有在第一次登录时才让它参与抽奖,第几次登录这个常见功能很容易实现。

2、全球第几个登录:接下来,让这个用户知道自己是全球第几号用户登录的。假设是第 i 号登录的,那就以 100/i 的概率决定这个用户进不进奖池;如果以 100/i 的概率决定不进奖池了,那他再也中不了奖了;如果以 100/i 的概率决定进入奖池,那就在奖池中的100个用户随机踢掉一个。

然后,到1月2日00:00的时候,直接公布奖池100个名单,绝对全球所有用户等概率获奖,而且代码的部署轻得多。

代码

package com.harrison.class19;

import org.w3c.dom.ranges.Range;

/**
 * @author Harrison
 * @create 2022-03-31-8:29
 * @motto 众里寻他千百度,蓦然回首,那人却在灯火阑珊处。
 */
public class Code01_ReservoirSampling {
    public static class RandomBox{
        private int[] bag;
        private int N;
        private int count;

        public RandomBox(int capacity){
            bag=new int[capacity];
            N=capacity;
            count=0;
        }

        private int rand(int max){
            return (int)(Math.random()*max)+1;
        }

        public void add(int num){
            count++;
            if(count<=N){
                bag[count-1]=num;
            }else{
                if(rand(count)<=N){
                    bag[rand(N)-1]=num;
                }
            }
        }

        public int[] choices(){
            int[] ans=new int[N];
            for(int i=0; i<N; i++){
                ans[i]=bag[i];
            }
            return ans;
        }

        public static void main(String[] args) {
            System.out.println("hello");
            int all = 100;
            int choose = 10;
            int testTimes = 50000;
            int[] counts = new int[all + 1];
            for (int i = 0; i < testTimes; i++) {
                RandomBox box = new RandomBox(choose);
                for (int num = 1; num <= all; num++) {
                    box.add(num);
                }
                int[] ans = box.choices();
                for (int j = 0; j < ans.length; j++) {
                    counts[ans[j]]++;
                }
            }
            for (int i = 0; i < counts.length; i++) {
                System.out.println(i + " times : " + counts[i]);
            }

        }
    }
}
相关文章
|
算法 数据处理
海量数据处理之蓄水池抽样算法
一、问题由来       这个题目的由来是在《编程珠玑》里遇到的,故记录一下。还可以这么说,”如何从二进制文件中等概率取整数?”或者”在不知道文件总行数的情况下,如何从文件中随机的抽取一行?”这个题目说的有点不清楚实际上是:一个二进制文件中有好多好多整数,你要随机取出一个。
1813 0
|
算法 Java C++
Reservoir Sampling 蓄水池抽样算法,经典抽样
随机读取数据,如何保证真随机是不可能的,因为计算机的随机函数是伪随机的。 但是在不考虑计算机随机函数的情况下,如何保证数据的随机采样呢? 1.系统提供的shuffle函数   C++/Java都提供有shuffle函数,可以对容器内部的数据打乱,保持随机排序。
1420 0
|
6天前
|
算法 BI Serverless
基于鱼群算法的散热片形状优化matlab仿真
本研究利用浴盆曲线模拟空隙外形,并通过鱼群算法(FSA)优化浴盆曲线参数,以获得最佳孔隙度值及对应的R值。FSA通过模拟鱼群的聚群、避障和觅食行为,实现高效全局搜索。具体步骤包括初始化鱼群、计算适应度值、更新位置及判断终止条件。最终确定散热片的最佳形状参数。仿真结果显示该方法能显著提高优化效率。相关代码使用MATLAB 2022a实现。
|
6天前
|
算法 数据可视化
基于SSA奇异谱分析算法的时间序列趋势线提取matlab仿真
奇异谱分析(SSA)是一种基于奇异值分解(SVD)和轨迹矩阵的非线性、非参数时间序列分析方法,适用于提取趋势、周期性和噪声成分。本项目使用MATLAB 2022a版本实现从强干扰序列中提取趋势线,并通过可视化展示了原时间序列与提取的趋势分量。代码实现了滑动窗口下的奇异值分解和分组重构,适用于非线性和非平稳时间序列分析。此方法在气候变化、金融市场和生物医学信号处理等领域有广泛应用。
|
29天前
|
算法
基于模糊控制算法的倒立摆控制系统matlab仿真
本项目构建了一个基于模糊控制算法的倒立摆控制系统,利用MATLAB 2022a实现了从不稳定到稳定状态的转变,并输出了相应的动画和收敛过程。模糊控制器通过对小车位置与摆的角度误差及其变化量进行模糊化处理,依据预设的模糊规则库进行模糊推理并最终去模糊化为精确的控制量,成功地使倒立摆维持在直立位置。该方法无需精确数学模型,适用于处理系统的非线性和不确定性。
基于模糊控制算法的倒立摆控制系统matlab仿真
|
7天前
|
资源调度 算法
基于迭代扩展卡尔曼滤波算法的倒立摆控制系统matlab仿真
本课题研究基于迭代扩展卡尔曼滤波算法的倒立摆控制系统,并对比UKF、EKF、迭代UKF和迭代EKF的控制效果。倒立摆作为典型的非线性系统,适用于评估不同滤波方法的性能。UKF采用无迹变换逼近非线性函数,避免了EKF中的截断误差;EKF则通过泰勒级数展开近似非线性函数;迭代EKF和迭代UKF通过多次迭代提高状态估计精度。系统使用MATLAB 2022a进行仿真和分析,结果显示UKF和迭代UKF在非线性强的系统中表现更佳,但计算复杂度较高;EKF和迭代EKF则更适合维数较高或计算受限的场景。
|
9天前
|
算法
基于SIR模型的疫情发展趋势预测算法matlab仿真
该程序基于SIR模型预测疫情发展趋势,通过MATLAB 2022a版实现病例增长拟合分析,比较疫情防控力度。使用SIR微分方程模型拟合疫情发展过程,优化参数并求解微分方程组以预测易感者(S)、感染者(I)和移除者(R)的数量变化。![]该模型将总人群分为S、I、R三部分,通过解析或数值求解微分方程组预测疫情趋势。
|
9天前
|
算法 数据可视化 数据安全/隐私保护
基于LK光流提取算法的图像序列晃动程度计算matlab仿真
该算法基于Lucas-Kanade光流方法,用于计算图像序列的晃动程度。通过计算相邻帧间的光流场并定义晃动程度指标(如RMS),可量化图像晃动。此版本适用于Matlab 2022a,提供详细中文注释与操作视频。完整代码无水印。
|
24天前
|
算法 数据安全/隐私保护
基于LS算法的OFDM+QPSK系统信道估计均衡matlab性能仿真
基于MATLAB 2022a的仿真展示了OFDM+QPSK系统中最小二乘(LS)算法的信道估计与均衡效果。OFDM利用多个低速率子载波提高频谱效率,通过循环前缀克服多径衰落。LS算法依据导频符号估计信道参数,进而设计均衡器以恢复数据符号。核心程序实现了OFDM信号处理流程,包括加性高斯白噪声的加入、保护间隔去除、快速傅立叶变换及信道估计与均衡等步骤,并最终计算误码率,验证了算法的有效性。
43 2