文档备案控制台

开发者社区问答正文

给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件

给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？

展开

收起

问问小秘 2020-01-06 16:43:53 765 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

问问小秘

方案1：可以估计每个文件安的大小为5G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。

    遍历文件a，对每个url求取hash(url)%1000，然后根据所取得的值将url分别存储到1000个小文件（记为a0,a1,...,a999）中。这样每个小文件的大约为300M。

    遍历文件b，采取和a相同的方式将url分别存储到1000小文件（记为b0,b1,...,b999）。这样处理后，所有可能相同的url都在对应的小文件（a0vsb0,a1vsb1,...,a999vsb999）中，不对应的小文件不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。

    求每对小文件中相同的url时，可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url，看其是否在刚才构建的hash_set中，如果是，那么就是共同的url，存到文件里面就可以了。

    方案2：如果允许有一定的错误率，可以使用Bloom filter，4G内存大概可以表示340亿bit。将其中一个文件中的url使用Bloom filter映射为这340亿bit，然后挨个读取另外一个文件的url，检查是否与Bloom filter，如果是，那么该url应该是共同的url（注意会有一定的错误率）。

    Bloom filter日后会在本BLOG内详细阐述。

2020-01-06 16:44:07

赞同展开评论

问答标签：

字节内存 URL文件内存文件内存字节内存4g

问答地址：

开发者社区 > 云计算 > 问答

相关问答

2核4g内存的服务器能部署Spring Boot项目吗？

127

1

0

Windows Server 2025服务器用于搭建Web服务，4G内存够用吗？

396

1

0

2核4G内存的服务器能支持多少人同时访问网站？

217

1

0

服务器4G内存可以运行Spring Boot+mysql吗？

86

1

0

4g内存轻量服务器能装mysql8.0吗？

142

1

0

阿里云服务器4G内存安装windows server够吗？

145

1

0

Windows server系统服务器4G内存能流畅运行吗？

173

1

0

VS2022开发环境，打开某特定JS 文件，通义灵码直接将系统内存吃完，导致系统崩溃

207

1

0

通过DataWorks上传Excel文件的时候，oom了，这个除了切割Excel外，能调整内存大小？

236

1

0

/proc/meminfo文件提供了哪些关于内存使用的详细信息？

189

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

CoPAW配置后，对话，出现 AGENT_UNKNOWN_ERROR 如何解决

copaw安装后，出现这个情况，在设置模型的过程中出现这个问题，如何解决

copaw安装后选择ollma为啥报错不能安装相关模型？

建议通义灵码参考字节的trae ，可以自主选择一些开源的模型

云端部署coclaw报错

还有其他疑问?