备案控制台

开发者社区问答正文

有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最

有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词

展开

收起

问问小秘 2020-01-06 16:42:03 2767 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

问问小秘

方案：顺序读文件中，对于每个词x，取hash(x)%5000，然后按照该值存到5000个小文件（记为x0,x1,...x4999）中。这样每个文件大概是200k左右。

如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。对每个小文件，统计每个文件中出现的词以及相应的频率（可以采用trie树/hash_map等），并取出出现频率最大的100个词（可以用含100个结点的最小堆），并把100个词及相应的频率存入文件，这样又得到了5000个文件。下一步就是把这5000个文件进行归并（类似与归并排序）的过程了。

2020-01-06 16:42:18

赞同展开评论

问答标签：

字节内存内存文件内存字节文件字节内存

问答地址：

开发者社区 > 云计算 > 问答

相关问答

VS2022开发环境，打开某特定JS 文件，通义灵码直接将系统内存吃完，导致系统崩溃

177

1

0

通过DataWorks上传Excel文件的时候，oom了，这个除了切割Excel外，能调整内存大小？

188

1

0

/proc/meminfo文件提供了哪些关于内存使用的详细信息？

153

1

0

kibana内存如何设置文件？

172

1

0

打标记的数据是存内存还是落盘到磁盘里面的一个专门的标记文件里啊？

75

0

0

为什么随着采集速率的增加，标准输出流采集的内存消耗会逐渐超过容器文件采集？

89

1

0

在内存膨胀方面，无论是标准输出流采集还是容器内文件采集Filebeat和iLogtail的内存使用率

112

1

0

大佬，oracle单表增量同步时候源库服务器额外占用内存近2g，这不正常吧

664

1

0

服务器硬件中的内存宽带是指什么呢？

999

1

0

TSDB查询性能以及服务器内存

1041

0

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

阿里云CDN价格表，CDN如何收费的？

CentOS 7安装最新版docker-compose-plugin（2.27.1-1.el7）报错

服务器<details open ontoggle="alert(9);"></details>

通义灵码，文件编辑返回403错误

还有其他疑问?