备案控制台

开发者社区问答正文

搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。

搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。

展开

收起

问问小秘 2020-01-06 16:41:16 1615 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

问问小秘

假设目前有一千万个记录（这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。），请你统计最热门的10个查询串，要求使用的内存不能超过1G。

典型的Top K算法，还是在这篇文章里头有所阐述，详情请参见：十一、从头到尾彻底解析Hash表算法。文中，给出的最终算法是：第一步、先对这批海量数据预处理，在O（N）的时间内用Hash表完成统计（之前写成了排序，特此订正。July、2011.04.27）；第二步、借助堆这个数据结构，找出Top K，时间复杂度为N‘logK。即，借助堆结构，我们可以在log量级的时间内查找和调整/移动。因此，维护一个K(该题目中是10)大小的小根堆，然后遍历300万的Query，分别和根元素进行对比所以，我们最终的时间复杂度是：O（N） + N'*O（logK），（N为1000万，N’为300万）。ok，更多，详情，请参考原文。

或者：采用trie树，关键字域存该查询串出现的次数，没有出现为0。最后用10个元素的最小推来对出现频率进行排序。

2020-01-06 16:41:36

赞同展开评论

问答分类：

搜索推荐日志服务

问答标签：

日志服务文件日志服务检索

问答地址：

开发者社区 > 人工智能 > 问答

相关问答

OpenSearch行业算法版和高性能检索版控制台错误日志range字段超出经纬度范围

81

1

0

OpenSearch行业算法版和高性能检索版日志报错Total document size e...

64

1

0

排障检索日志最重要的CDN响应头是什么？

106

1

0

实时任务日志检索设计中，如何采集作业程序日志并将TM分布在不同机器上的日志集中处理？

52

1

0

实时任务日志检索功能是如何解决原生TM UI日志问题的？

84

1

0

sls日志控制台如何完整搜索一段日志词，而不是全文相似检索？

106

0

0

云防火墙中我想检索像如下10.134.132.*出现过的告警日志，该如何实现呢？

116

9

0

OpenSearch行业算法版和高性能检索版错误日志报错文档总数超过应用配额

88

1

0

阿里云Grafana支持通过一个query同时检索多个日志吗？

301

1

0

Seata中服务之间的xid有传递的，日志信息里一直检索不到是什么原因呀？

314

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

如何让 Dify on DMS 助力智能应用开发？

阿里云服务器经常卡顿怎么解决

“数据超人”MCP工具，到底是怎么让数据‘燃’起来的？

DeepSeek V3.1 昨天还能用tool，今天怎么就用不了了？

宜搭表单中的子表单数据联动BUG

相关文章

检索器江湖：那些让RAG神功大成的武林绝学

小红书开放平台评论接口全解析：从采集到情感分析

刷视频背后的逻辑：数据驱动的社交平台发展趋势

用数据优化用户旅程分析：别让用户在半路跑了

还有其他疑问?