Solr/Lucene日志分析-查询热点词-脚本工具

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介:

solr/lucene 在中文搜索使用中,会输出非常多的类似下面的内容:

2012-04-24 00:00:01,396 INFO
[org.apache.solr.core.SolrCore] - [XXXX-0] webapp=null path=/select
params={q=status:0+AND+(img_file_id:(++12333018751568476))&timeAllowed=2000sort=gmtcreate+desc&rows=60&start=0}
hits=44 status=0 QTime=0


这部分log 包含了查询条件,其中最有价值之一的就是中文词,大量的查询聚集出用户的查询喜好。

对这些log的快速、低成本分析非常有助于应用中运营活动的推广。体现搜索引擎的数据密集价值之一!

更深入的挖掘比如,带上性别信息、行业信息,就可以深入掌握用户关注什么、行业动态是什么等商业信息。

这也是很多搜索引擎在广告之外的另一项收入。

下面提供一种基于脚本的针对solr/luene log中。查询条件中的中文词提取并总计排序。

针对单个文件的统计输出,批量处理,添加一个find,然后循环文件即可。



注意事项:

   
这个脚本在1G左右单个log文件解析时,时间大约2分钟。

   
在解析期间,服务器load明显增多,在线解析log需要避开服务器高峰期

   
解析调试需要注意编码

   
中英文混合时,英文部分会被忽略

   
有些标点符号以及一些特殊字符在不同版本、不同环境下会有所不同,不影响总体统计分析结果

    grep (GNU
grep) 2.5.1

脚本解释

    grep ‘webapp’ $1  //接受参数
在命令行下 执行  ./jiaobenName.sh 
query.log

   | awk ‘{print $9}’ // 提取patch
之后的内容

   | awk -F “&”
‘{print $1}’ // 提取patch中查询串,去掉其他条件信息

   | echo -e “$(sed ‘s/+/ /g;
s/%/\x/g’)”  // decode log

   | sed
‘s/[!-~a-zA-Z0-9=:|-]/ /g’  //英文部分用空格替换

   | sed ‘s/ /n/g’ | grep -v
‘^$’  //空格用n 替换,并去掉重复n

   | awk ‘{count[$0]++} END
{for(k in count) print count[k],k}’ 
//统计单词词频

   | sort -k1
-nr  //按照词频降序

   >
“/home/yingyuan.lyq/tw$1” //最终结果保存路径




#! /bin/sh

if [ -z “$1” ]

then

       
echo “need file”


       
exit 1


fi

 

grep ‘webapp’ $1 | awk ‘{print
$9}’ | awk -F “&” ‘{print $1}’ | echo -e “$(sed
‘s/+/ /g; s/%/\x/g’)” | sed ‘s/[!-~a-zA-Z0-9=:|-]/ /g’ | sed
‘s/ /n/g’ | grep -v ‘^$’ | awk ‘{count[$0]++} END {for(k in count)
print count[k],k}’ | sort -k1 -nr >
“/home/yingyuan.lyq/tw_$1”

本文来源于"阿里中间件团队播客",原文发表时间"  2012-05-01 "
相关实践学习
通过日志服务实现云资源OSS的安全审计
本实验介绍如何通过日志服务实现云资源OSS的安全审计。
相关文章
|
4月前
|
存储 缓存 Apache
StarRocks+Paimon 落地阿里日志采集:万亿级实时数据秒级查询
本文介绍了阿里集团A+流量分析平台的日志查询优化方案,针对万亿级日志数据的写入与查询挑战,提出基于Flink、Paimon和StarRocks的技术架构。通过Paimon存储日志数据,结合StarRocks高效计算能力,实现秒级查询性能。具体包括分桶表设计、数据缓存优化及文件大小控制等措施,解决高并发、大数据量下的查询效率问题。最终,日志查询耗时从分钟级降至秒级,显著提升业务响应速度,并为未来更低存储成本、更高性能及更多业务场景覆盖奠定基础。
|
2月前
|
运维 安全 数据可视化
日志审查安排工具实战攻略:中小团队如何通过日志审查安排工具建立可控、安全的审查机制?
在审计敏感时代,日志审查安排工具成为安全运维与合规管理的关键利器。它实现审查任务的流程化、周期化与可视化,支持多系统协作、责任到人,确保“可控、可查、可追”的日志治理。工具如板栗看板、Asana、Monday 等提供任务调度、问题闭环与合规对接能力,助力企业构建高效、透明的日志审查体系,提升安全与合规水平。
|
3月前
|
JavaScript API 开发工具
HarmonyOS NEXT实战:日志工具
本文介绍了在HarmonyOS Next应用开发中,如何封装一个简单易用的日志工具LoggerKit。通过使用系统提供的HiLog API,开发者可以灵活输出不同级别的日志信息(DEBUG、INFO、WARN、ERROR、FATAL),用于分析应用运行状态和调试逻辑问题。文章详细说明了日志级别、参数配置及使用注意事项,并提供了完整的TypeScript封装示例代码,便于实际项目集成与应用调试。
88 0
|
4月前
|
自然语言处理 监控 安全
阿里云发布可观测MCP!支持自然语言查询和分析多模态日志
阿里云可观测官方发布了Observable MCP Server,提供了一系列访问阿里云可观测各产品的工具能力,包含阿里云日志服务SLS、阿里云应用实时监控服务ARMS等,支持用户通过自然语言形式查询
475 0
阿里云发布可观测MCP!支持自然语言查询和分析多模态日志
|
11月前
|
Java Shell
「sh脚步模版自取」测试线排查的三个脚本:启动、停止、重启、日志保存
「sh脚步模版自取」测试线排查的三个脚本:启动、停止、重启、日志保存
160 1
|
6月前
|
SQL 存储 自然语言处理
让跨 project 联查更轻松,SLS StoreView 查询和分析实践
让跨 project 联查更轻松,SLS StoreView 查询和分析实践
114 1
|
11月前
|
Web App开发 存储 监控
iLogtail 开源两周年:UC 工程师分享日志查询服务建设实践案例
本文为 iLogtail 开源两周年的实践案例分享,讨论了 iLogtail 作为日志采集工具的优势,包括它在性能上超越 Filebeat 的能力,并通过一系列优化解决了在生产环境中替换 Filebeat 和 Logstash 时遇到的挑战。
325 94
|
8月前
|
存储 人工智能 JSON
RAG Logger:专为检索增强生成(RAG)应用设计的开源日志工具,支持查询跟踪、性能监控
RAG Logger 是一款专为检索增强生成(RAG)应用设计的开源日志工具,支持查询跟踪、检索结果记录、LLM 交互记录和性能监控等功能。
340 7
RAG Logger:专为检索增强生成(RAG)应用设计的开源日志工具,支持查询跟踪、性能监控
|
SQL 存储 缓存
高基数 GroupBy 在 SLS SQL 中的查询加速
本文详细介绍了SLS中的高基数GroupBy查询加速技术。
267 90
|
10月前
|
前端开发 数据处理 Android开发
Flutter前端开发中的调试技巧与工具使用方法,涵盖调试的重要性、基本技巧如打印日志与断点调试、常用调试工具如Android Studio/VS Code调试器和Flutter Inspector的介绍
本文深入探讨了Flutter前端开发中的调试技巧与工具使用方法,涵盖调试的重要性、基本技巧如打印日志与断点调试、常用调试工具如Android Studio/VS Code调试器和Flutter Inspector的介绍,以及具体操作步骤、常见问题解决、高级调试技巧、团队协作中的调试应用和未来发展趋势,旨在帮助开发者提高调试效率,提升应用质量。
262 8