《大数据算法》一3.2 水库抽样

简介: 本节书摘来华章计算机《大数据算法》一书中的第3章 ,第3.2节,王宏志 编著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.2 水库抽样 本节介绍一个简单的空间亚线性算法,即水库抽样。问题定义如下。

本节书摘来华章计算机《大数据算法》一书中的第3章 ,第3.2节,王宏志 编著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.2 水库抽样

本节介绍一个简单的空间亚线性算法,即水库抽样。问题定义如下。
抽样问题
输入:一组数据,但大小未知。
输出:这组数据的k个均匀抽样。
对于这个问题有三点要求:
1) 仅允许扫描数据一次。
2) 空间复杂度为O(k)。注意,空间复杂度和抽样大小有关,而与整个数据的数据量无关,这意味着不能把所有数据都放在内存当中进行抽样。
3) 扫描数据的前n个数据时(n>k),要求保存当前已扫描数据的k个均匀抽样。这意味着在任何(n>k)时刻,在内存的k个数据里要放k个均匀的抽样。针对这个需求提出了水库抽样算法。算法3-1 水库抽样算法

1 申请一个长度为k的数组A保存抽样。
2 保存首先接收到的k个元素。
3 当接收到第i个新元素t时,以k/i的概率随机替换A中的元素。

随机替换可以生成[1,i]间的随机数j,若j≤k,就意味着j是存在的,则以t替换A[j]。
算法3-1的空间复杂度是image,这是因为在整个算法中,只需要一个长度为k的数组保存抽样。额外的空间(如计算概率)都是常数,与n和k没有关系,因此空间复杂度是O(k)。
算法3-1的抽样性质如定理3-1所示。
定理3-1 算法3-1得到的采样是均匀的,在任何时候接收到大于k的n个数时,选出的这k个数一定都是它的一个均匀采样。
证明 在接收第i+1个数时,第i个数还能保存在数组当中的概率是image,因为在接收到第i+1个数时要以image的概率随机替换,而第i个数被选中的概率是1k,它们相乘为image就是第i个数被换出数组的概率,所以image就是在接收第i+1个元素时第i个数在数组当中的概率。同理,在接收第i+2个数时,第i个数仍然保留在数组当中的概率是image。依此类推,当接收第n个数时,第i个元素保存在数组当中的概率是image。如果这些事件都发生了,那么在接收第n个数时,第i个数字才能保留在数组当中。因此它保留在抽样当中的概率是发生这些事件的概率的积,就是image。■

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
机器学习/深度学习 传感器 算法
【优化调度】基于粒子群算法求解单一水库优化调度(目的函数总发电量)附matlab代码
【优化调度】基于粒子群算法求解单一水库优化调度(目的函数总发电量)附matlab代码
|
1月前
|
算法
【MATLAB】语音信号识别与处理:滑动平均滤波算法去噪及谱相减算法呈现频谱
【MATLAB】语音信号识别与处理:滑动平均滤波算法去噪及谱相减算法呈现频谱
45 0
|
1月前
|
传感器 算法 计算机视觉
基于肤色模型和中值滤波的手部检测算法FPGA实现,包括tb测试文件和MATLAB辅助验证
该内容是关于一个基于肤色模型和中值滤波的手部检测算法的描述,包括算法的运行效果图和所使用的软件版本(matlab2022a, vivado2019.2)。算法分为肤色分割和中值滤波两步,其中肤色模型在YCbCr色彩空间定义,中值滤波用于去除噪声。提供了一段核心程序代码,用于处理图像数据并在FPGA上实现。最终,检测结果输出到"hand.txt"文件。
|
1月前
|
机器学习/深度学习 算法 计算机视觉
基于yolov2深度学习网络的视频手部检测算法matlab仿真
基于yolov2深度学习网络的视频手部检测算法matlab仿真
|
1月前
|
算法
【MATLAB】语音信号识别与处理:移动中位数滤波算法去噪及谱相减算法呈现频谱
【MATLAB】语音信号识别与处理:移动中位数滤波算法去噪及谱相减算法呈现频谱
23 2
|
1月前
|
算法
【MATLAB】语音信号识别与处理:卷积滑动平均滤波算法去噪及谱相减算法呈现频谱
【MATLAB】语音信号识别与处理:卷积滑动平均滤波算法去噪及谱相减算法呈现频谱
33 0
|
1月前
|
算法
【MATLAB】语音信号识别与处理:一维信号NLM非局部均值滤波算法去噪及谱相减算法呈现频谱
【MATLAB】语音信号识别与处理:一维信号NLM非局部均值滤波算法去噪及谱相减算法呈现频谱
39 1
|
5天前
|
机器学习/深度学习 人工智能 算法
基于DCT和扩频的音频水印嵌入提取算法matlab仿真
本文介绍了结合DCT和扩频技术的音频水印算法,用于在不降低音质的情况下嵌入版权信息。在matlab2022a中实现,算法利用DCT进行频域处理,通过扩频增强水印的隐蔽性和抗攻击性。核心程序展示了水印的嵌入与提取过程,包括DCT变换、水印扩频及反变换步骤。该方法有效且专业,未来研究将侧重于提高实用性和安全性。
|
9天前
|
文字识别 算法 计算机视觉
图像倾斜校正算法的MATLAB实现:图像倾斜角检测及校正
图像倾斜校正算法的MATLAB实现:图像倾斜角检测及校正
15 0
|
12天前
|
机器学习/深度学习 算法
【MATLAB】GA_ELM神经网络时序预测算法
【MATLAB】GA_ELM神经网络时序预测算法
286 9