398. 随机数索引 :「哈希表预处理」&「蓄水池抽样」

简介: 398. 随机数索引 :「哈希表预处理」&「蓄水池抽样」

网络异常,图片无法展示
|


题目描述



这是 LeetCode 上的 398. 随机数索引 ,难度为 中等


Tag : 「哈希表」、「模拟」、「随机化」、「蓄水池抽样」


给定一个可能含有重复元素的整数数组,要求随机输出给定的数字的索引。 您可以假设给定的数字一定存在于数组中。


注意:


数组大小可能非常大。 使用太多额外空间的解决方案将不会通过测试。


示例:


int[] nums = new int[] {1,2,3,3,3};
Solution solution = new Solution(nums);
// pick(3) 应该返回索引 2,3 或者 4。每个索引的返回概率应该相等。
solution.pick(3);
// pick(1) 应该返回 0。因为只有nums[0]等于1。
solution.pick(1);
复制代码


提示:


  • 1 <= nums.length <= 2 * 10^41<=nums.length<=2104
  • -2^{31} <= nums[i] <= 2^{31} - 1231<=nums[i]<=2311
  • target 确保存在于 nums
  • 最多调用 10^4104 次的 pick


哈希表 预处理(定长数据流)



切换英文补全一下数据范围:


  • 1 <= nums.length <= 2 * 10^41<=nums.length<=2104
  • -2^{31} <= nums[i] <= 2^{31} - 1231<=nums[i]<=2311
  • target 确保存在于 nums
  • 最多调用 10^4104 次的 pick


为了方便,我们令 nums 的长度为 nn,利用 nn 的数据范围为 2 * 10^42104,且完整的数组为初始化时已给出,我们可以通过使用「哈希表 + 预处理」的方式进行求解。


具体的,在构造函数传入 nums 时,遍历 nums 并存储每个 nums[i]nums[i] 对应的下标集合,即使用哈希表以 nums[i]nums[i] 为键,下标集合 List 作为值进行存储。


pick 操作时,通过 O(1)O(1) 的复杂度取出所有 nums[i] = targetnums[i]=target 的集合下标,再随机一个下标进行返回。


代码:


class Solution {
    Random random = new Random();
    Map<Integer, List<Integer>> map = new HashMap<>();
    public Solution(int[] nums) {
        int n = nums.length;
        for (int i = 0; i < n; i++) {
            List<Integer> list = map.getOrDefault(nums[i], new ArrayList<>());
            list.add(i);
            map.put(nums[i], list);
        }
    }
    public int pick(int target) {
        List<Integer> list = map.get(target);
        return list.get(random.nextInt(list.size()));
    }
}
复制代码


  • 时间复杂度:初始化的复杂度为 O(n)O(n)pick 操作的复杂度为 O(1)O(1)
  • 空间复杂度:O(n)O(n)


蓄水池抽样(不定长数据流)



nums 并不是在初始化时完全给出,而是持续以「流」的形式给出,且数据流的很长,不便进行预处理的话,我们只能使用「蓄水池抽样」的方式求解。


不了解「蓄水池抽样」的同学可以看前置 🧀 : 多语言入门「蓄水池抽样」知识点


具体的,我们在每次 pick 时对流进行遍历,由于数据流很大,我们不能在遍历过程中使用诸如数组的容器存储所有满足条件的下标,只能对于每个 nums[i] = targetnums[i]=target 执行「是否要将 ii 作为最新答案候选」的操作。


假设共有 mm 个下标满足 nums[i] = targetnums[i]=target,我们需要做到以 \frac{1}{m}m1 概率返回任一坐标。


我们规定当遇到第 kk 个满足 nums[i] = targetnums[i]=target 的下标时,执行一次 [0, k)[0,k) 的随机操作,当随机结果为 00 时(发生概率为 \frac{1}{k}k1),我们将该坐标作为最新的答案候选。


当对每一个 nums[i] = targetnums[i]=target 的下标都进行上述操作后,容易证明每一位下标返回的概率均为 \frac{1}{m}m1


假设最后返回的是第 kk 个满足条件的下标,发生概率为 = 第 kk 个下标被候选的概率 \times× 后面 k + 1k+1mm 个下标不被候选的概率 = \frac{1}{k} \times (1 - \frac{1}{k + 1}) \times ... \times (1 - \frac{1}{m})k1×(1k+11)×...×(1m1) = \frac{1}{m}m1


代码:


class Solution {
    Random random = new Random();
    int[] nums;
    public Solution(int[] _nums) {
        nums = _nums;
    }
    public int pick(int target) {
        int n = nums.length, ans = 0;
        for (int i = 0, cnt = 0; i < n; i++) {
            if (nums[i] == target) {
                cnt++;
                if (random.nextInt(cnt) == 0) ans = i;
            }
        }
        return ans;
    }
}
复制代码


  • 时间复杂度:初始化的复杂度为 O(1)O(1)pick 操作的复杂度为 O(n)O(n)
  • 空间复杂度:O(n)O(n)


最后



这是我们「刷穿 LeetCode」系列文章的第 No.398 篇,系列开始于 2021/01/01,截止于起始日 LeetCode 上共有 1916 道题目,部分是有锁题,我们将先把所有不带锁的题目刷完。


在这个系列文章里面,除了讲解解题思路以外,还会尽可能给出最为简洁的代码。如果涉及通解还会相应的代码模板。


为了方便各位同学能够电脑上进行调试和提交代码,我建立了相关的仓库:github.com/SharingSour…


在仓库地址里,你可以看到系列文章的题解链接、系列文章的相应代码、LeetCode 原题链接和其他优选题解。

相关文章
|
6月前
|
算法 程序员 C语言
【C++ 随机数分布类型 】深入探索C++随机数分布:原理、应用与实践(二)
【C++ 随机数分布类型 】深入探索C++随机数分布:原理、应用与实践
167 0
【C++ 随机数分布类型 】深入探索C++随机数分布:原理、应用与实践(二)
|
6月前
|
存储 算法 Java
【算法系列篇】哈希表
【算法系列篇】哈希表
|
6月前
|
资源调度 算法 C++
【C++ 随机数分布类型 】深入探索C++随机数分布:原理、应用与实践(一)
【C++ 随机数分布类型 】深入探索C++随机数分布:原理、应用与实践
207 0
|
存储 缓存 算法
趣味算法——探索哈希表的神秘世界
前言: 在编程世界中,数据存储和检索的效率常常是我们关注的重点。对于这个问题,哈希表提供了一个既高效又实用的解决方案。哈希表是一种通过哈希函数将键转化为数组索引,以实现快速查找的数据结构。在大多数情况下,哈希表能够在常数时间内完成查找,插入和删除操作,因此在许多应用场景中得到了广泛使用。
70 0
|
存储 自然语言处理 算法
哈希函数相关的比较分析
哈希函数相关的比较分析
142 0
|
存储
【每日一题Day90】LC1814统计一个数组中好对子的数目 | 哈希表
思路:如果两个数满足好对子,那么这两个数反转后的变化量相同。因此可以使用哈希表存放反转后的变化量及其次数count,该变化量存在的所有好对子个数为count∗(count−1)/2
71 0
|
人工智能 Go Python
CSP 202112-2 序列查询新解 python 离散+二分法
CSP 202112-2 序列查询新解 python 离散+二分法
CSP 202112-2 序列查询新解 python 离散+二分法
|
算法 C++
【基础算法训练】—— 哈希表
【基础算法训练】—— 哈希表
156 0
【基础算法训练】—— 哈希表
|
算法
算法设计与分析 哈希函数与哈希表
算法设计与分析 哈希函数与哈希表
134 0
算法设计与分析 哈希函数与哈希表