《大数据算法》一3.2 水库抽样

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 本节书摘来华章计算机《大数据算法》一书中的第3章 ,第3.2节,王宏志 编著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.2 水库抽样 本节介绍一个简单的空间亚线性算法,即水库抽样。问题定义如下。

本节书摘来华章计算机《大数据算法》一书中的第3章 ,第3.2节,王宏志 编著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.2 水库抽样

本节介绍一个简单的空间亚线性算法,即水库抽样。问题定义如下。
抽样问题
输入:一组数据,但大小未知。
输出:这组数据的k个均匀抽样。
对于这个问题有三点要求:
1) 仅允许扫描数据一次。
2) 空间复杂度为O(k)。注意,空间复杂度和抽样大小有关,而与整个数据的数据量无关,这意味着不能把所有数据都放在内存当中进行抽样。
3) 扫描数据的前n个数据时(n>k),要求保存当前已扫描数据的k个均匀抽样。这意味着在任何(n>k)时刻,在内存的k个数据里要放k个均匀的抽样。针对这个需求提出了水库抽样算法。算法3-1 水库抽样算法

1 申请一个长度为k的数组A保存抽样。
2 保存首先接收到的k个元素。
3 当接收到第i个新元素t时,以k/i的概率随机替换A中的元素。

随机替换可以生成[1,i]间的随机数j,若j≤k,就意味着j是存在的,则以t替换A[j]。
算法3-1的空间复杂度是image,这是因为在整个算法中,只需要一个长度为k的数组保存抽样。额外的空间(如计算概率)都是常数,与n和k没有关系,因此空间复杂度是O(k)。
算法3-1的抽样性质如定理3-1所示。
定理3-1 算法3-1得到的采样是均匀的,在任何时候接收到大于k的n个数时,选出的这k个数一定都是它的一个均匀采样。
证明 在接收第i+1个数时,第i个数还能保存在数组当中的概率是image,因为在接收到第i+1个数时要以image的概率随机替换,而第i个数被选中的概率是1k,它们相乘为image就是第i个数被换出数组的概率,所以image就是在接收第i+1个元素时第i个数在数组当中的概率。同理,在接收第i+2个数时,第i个数仍然保留在数组当中的概率是image。依此类推,当接收第n个数时,第i个元素保存在数组当中的概率是image。如果这些事件都发生了,那么在接收第n个数时,第i个数字才能保留在数组当中。因此它保留在抽样当中的概率是发生这些事件的概率的积,就是image。■

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
机器学习/深度学习 算法 大数据
蓄水池抽样算法详解及Python实现
蓄水池抽样是一种适用于从未知大小或大数据集中高效随机抽样的算法,确保每个元素被选中的概率相同。本文介绍其基本概念、工作原理,并提供Python代码示例,演示如何实现该算法。
53 1
|
9月前
|
算法 数据可视化
R语言马尔可夫MCMC中的METROPOLIS HASTINGS,MH算法抽样(采样)法可视化实例
R语言马尔可夫MCMC中的METROPOLIS HASTINGS,MH算法抽样(采样)法可视化实例
R语言马尔可夫MCMC中的METROPOLIS HASTINGS,MH算法抽样(采样)法可视化实例
|
9月前
|
算法 数据可视化 Python
Python用MCMC马尔科夫链蒙特卡洛、拒绝抽样和Metropolis-Hastings采样算法
Python用MCMC马尔科夫链蒙特卡洛、拒绝抽样和Metropolis-Hastings采样算法
|
9月前
|
机器学习/深度学习 算法
R语言使用Metropolis- Hasting抽样算法进行逻辑回归
R语言使用Metropolis- Hasting抽样算法进行逻辑回归
|
机器学习/深度学习 传感器 算法
基于类帕累托贯序抽样算法求解单目标优化问题附matlab代码
基于类帕累托贯序抽样算法求解单目标优化问题附matlab代码
|
机器学习/深度学习 安全 大数据
有全量大数据了,还要用估算、抽样吗?
有全量大数据了,还要用估算、抽样吗?
|
机器学习/深度学习 传感器 算法
【优化调度】基于粒子群算法求解单一水库优化调度(目的函数总发电量)附matlab代码
【优化调度】基于粒子群算法求解单一水库优化调度(目的函数总发电量)附matlab代码