请教大家一个问题: 内存只有1GB,又n行内容,其中有非常多的内容重复。这N行内容有10GB,重复内容有3GB。请问应该如何去重? 如果电脑内存足够,我可以维护一个集合,把这N行内容一行一行判断在不在集合在,如果在,就丢弃。如果不在,就加入集合。
但是这样一来,这个集合的大小会超过6GB。而我内存只有1GB。请问有什么好办法处理吗?
来源:云原生后端社区
https://www.yuque.com/server_mind/answer
对数据准确性有严格要求吗。如果允许小概率判断错误的话,可以考虑布隆过滤。 [青南]布隆过滤器是最后的办法,但如果能用其他办法最好不要用布隆过滤器。因为数据会持续增加,布隆过滤器满了以后迁移起来很麻烦。
来源:云原生后端社区
https://www.yuque.com/server_mind/answer
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。