备案控制台

开发者社区问答正文

有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个文件的query都可能重

有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个文件的query都可能重复。要求你按照query的频度排序。

展开

收起

问问小秘 2020-01-06 16:42:42 1024 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

问问小秘

还是典型的TOP K算法，解决方案如下：     方案1：     顺序读取10个文件，按照hash(query)%10的结果将query写入到另外10个文件（记为）中。这样新生成的文件每个的大小大约也1G（假设hash函数是随机的）。          找一台内存在2G左右的机器，依次对用hash_map(query, query_count)来统计每个query出现的次数。利用快速/堆/归并排序按照出现次数进行排序。将排序好的query和对应的query_cout输出到文件中。这样得到了10个排好序的文件（记为）。

    对这10个文件进行归并排序（内排序与外排序相结合）。

    方案2：      一般query的总量是有限的，只是重复的次数比较多而已，可能对于所有的query，一次性就可以加入到内存了。这样，我们就可以采用trie树/hash_map等直接来统计每个query出现的次数，然后按出现次数做快速/堆/归并排序就可以了。

    方案3：     与方案1类似，但在做完hash，分成多个文件后，可以交给多个文件来处理，采用分布式的架构来处理（比如MapReduce），最后再进行合并。

2020-01-06 16:43:00

赞同展开评论

问答地址：

开发者社区 > 云计算 > 问答

相关问答

购买阿里国外的云服务器是否可以访问谷歌？

84384

47

0

请问下我访问接口不通什么原因 Provisional headers are shown

4183

1

0

重启Docker后报错：Error response from daemon

2620

0

0

阿里云服务器续费后一直处于启动中状态，服务器打不开了怎么解决？？？

35732

6

0

this xml file does not appear to have any style in

52304

10

0

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

61219

32

0

如何加速中国访问美国云的服务器访问速度

31275

8

0

OSS的endpoint如何查看

37717

6

0

sql server的用户名和密码怎么查啊？

37823

21

0

阿里云服务器如何重置系统？

24849

4

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

notebook启动安全验证一直失败

通义灵码的idea插件，在Mac系统下，idea版本2025.3.1，idea打开通义灵码插件花屏

运行qwen-image显示Reconnecting

macos 下 lingma 编辑AI 对话栏问题

创业项目：AI 拟人化中层解决方案

还有其他疑问?