SolrQuery挖掘--单维度聚合分析

本文涉及的产品
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
性能测试 PTS,5000VUM额度
简介: 单维度聚合分析,主要解决类似以下场景的问题 (1)同一个用户搜索输入关键词 (2)某个时间段内搜索词排行榜 (3)某些关键词联合出现情况 (4)IP位置 维度下的关键词聚合情况 (5)其他任何参与搜索的单维度搜索请求统计 (6)平均命中率、hits=0、查询平均响应时间 ......
 

单维度聚合分析

为什么选择搜索引擎

单维度聚合分析应该是各种分析统计中最为简单、直接。 对于主动搜索、被动搜索一体的应用场景,有登录和无登陆等统一兼顾。并且提供接口服务,按需返回维度信息,并且可以复用。 无疑采取搜索引擎,依赖搜索引擎的facet统计功能,最为直接、快捷、有效、低沉本。前提是对搜索引擎比较熟悉,否则光一个 搜索引擎就折腾死人了。

单维度聚合分析意义

单维度分析意义主要在掌握数据属性、用户属性、热点发现。 例如:某个产品上某个用户一段时间搜索词聚合,然后对聚合词语义分析,将可以分析出该用户的某些历史偏好、行为特征、消费 倾向、社区角色等。 例如:一段时间内产品上用户在搜什么,那些是热点词,是否与运营活动相关,是否是产品的重点词范畴等。 例如:将关键词、时间、产品倒排起来,那么就可以知道任何时间段内,具体产品活跃的关键词分布,间接知晓产品的“语义集合” 例如:将关键词、用户、时间倒排起来,那么很容易知晓那些词偏女性、那些词偏男性、那些词中性,用户那个时候搜的多、是那些词 例如:将关键词、排序、翻页、命中倒排起来,那么很容易发现点击热点、超时分析等。 。。。。 太多了

陷阱

大家都关注结果去了,没有人喜欢过程,尤其是周期性、长期的过程。在淘宝上成交量、客单价为主题的大环境,任何和交易不相关 、任何不能直接影响交易、任何只是提升用户细微体验等等工作,都是一个“弱势”需求,甚至等于不是需求。 所以,技术即使实现,也不见得有人会关注、有人去用。KPI中不会因为用户体验而打分,KPI中不会因为改善排序效果而肯定。 因为本身这些不好评估效果,特别是短期内的效果。更本质的可能是这些“无关交易”!

单维度聚合关键问题

维度的选择

既然是单维度聚合,那么维度的选择就非常重要了。这个需要不是技术一方面说的算,更多的依赖业务。 而往往习惯了运营为主、人肉、经验为主的 淘宝居多业务,对交易之位的属性关注度明显的不在意。 也甚至出现,计算出来的结果会在 白名单、黑名单过滤下,面目全非。 通常基本的维度不可少:时间、业务、人、关键词等。也即时间、地点、人物、事件。

格式化

输入就是线上日志,输出就是格式化文档或者倒排索引结构。 在输入和输出之间就是转换。转换的过程其实非常麻烦的问题,只看一端只觉得问题很easy! 麻烦之处:

(1)提取规则

日志总是有许多莫名其妙的格式、内容、乱码。很难有一个100%的规则,满足所有请求日志。 即使有,也很难很容易的扩展到其他应用。例如solr 日志格式是有规律的,但是用户内容不一定有规律。 基于文本标签提取,自然会遇到内容的标签问题。提取完毕之后,schema结构具体应用是不一样的。

(2)提取速度

越精细越耗时,并且java String对象处理起来比较方便,却速度上远远低于char,而char处理不是很方便。 对应solr query log 还是建议采取char为主、StringBuidler为核心变量。

(3)适应性

一开始都是追求100%解析通过,实际总有那么一些内容,搅合常规处理方法。为了适应这些非常规的请求, 往往会将之前的处理规则打破或者添加更多条件,然后整体性能突然下降。建议:能处理的快速处理,不能处理的 单独输入到一个文本,对于这些非常规的特殊处理。

单维度聚合实现样例

对于终搜 solr 日志 输入 2012-08-09 14:50:33,396 INFO [org.apache.solr.core.SolrCore] - [search4product-0] webapp=null path=/select params={q=+supplier_id% 3A649289&amp;sort=weight1+desc&amp;rows=30&amp;start=0&amp;facet=true &amp;facet.field=cat_path&amp;hl.usePhraseHighlighter=false&amp;echoParams=explicit&amp;hl=true &amp;hl.fl=title&amp;hl.requireFieldMatch=true&amp;hl.simple.pre=<em> &amp;hl.simple.post=</em>&amp;hl.snippets=3&amp;hl.fragsize=2000&amp;timeAllowed=2500} hits=1762 status=0 QTime=123 解码 2012-08-09 14:50:33,396 INFO [org.apache.solr.core.SolrCore] - [search4product-0] webapp=null path=/select params={q=+supplier_id:649289&amp;sort=weight1 desc&amp;rows=30&amp;start=0&amp;facet=true&amp;facet.field=cat_path&amp;hl.usePhraseHighlighter=false &amp;echoParams=explicit&amp;hl=true&amp;hl.fl=title&amp;hl.requireFieldMatch=true&amp;hl.simple.pre=<em> &amp;hl.simple.post=</em>&amp;hl.snippets=3&amp;hl.fragsize=2000&amp;timeAllowed=2500} hits=1762 status=0 QTime=123

 
提取输出 2012-08-09T14:50:33Z#&amp;search4product-0#&amp;supplier_id:649289#&amp;sort:weight1 desc#&amp;hits:1762#&amp;QTime:123 构建solr document

 
相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
4月前
|
SQL 缓存 数据挖掘
数据平台问题之复合指标生成中维度能力如何处理
数据平台问题之复合指标生成中维度能力如何处理
|
7月前
|
数据挖掘 索引
使用 DataFrame 进行数据聚合与透视:洞察数据深层结构
【5月更文挑战第19天】DataFrame 提供了聚合和透视功能,便于数据分析。通过`groupby`和`agg`计算类别统计信息,如`sum`和`mean`,揭示数据模式。使用`pivot_table`重新排列数据,展示清晰结构。多维度透视和按时间聚合进一步增强分析能力。这些工具帮助我们理解复杂数据,挖掘隐藏规律,为决策提供依据。利用DataFrame进行数据深层分析,解锁数据价值,开启数据探索之旅。
79 2
|
存储 数据挖掘 关系型数据库
数仓学习---6、数据仓库概述、 数据仓库建模概述、维度建模理论之事实表、维度建模理论之维度表
数仓学习---6、数据仓库概述、 数据仓库建模概述、维度建模理论之事实表、维度建模理论之维度表
|
7月前
|
数据挖掘 数据库
离线数仓6.0--- 数据仓库 ER模型-范式理论,维度模型、维度建模理论之事实表、维度建模理论之维度表
离线数仓6.0--- 数据仓库 ER模型-范式理论,维度模型、维度建模理论之事实表、维度建模理论之维度表
287 0
|
数据挖掘
怎么理解数据分析、维度和指标?
怎么理解数据分析、维度和指标?
|
人工智能 自然语言处理 数据管理
分析的四个维度
分析的四个维度
|
DataWorks
维度建模实践一例 (一) 维度还是事实
成本和单价是产品的维度还是事实表中的事实?来看看我对这个问题的思考与分享吧。
491 0
维度建模实践一例  (一) 维度还是事实
|
数据采集 存储 数据挖掘
维度建模中,粒度对于事实和维度的影响
度是指在事实表中所记录的数据的最小粒度,也可以理解为事实表中每个记录所代表的含义。在维度建模中,粒度对维度表和事实表都具有重要性。
489 0
|
DataWorks
维度建模实践一例 (一) 维度还是事实
成本和单价是产品的维度还是事实表中的事实?来看看我对这个问题的思考与分享吧。
356 0
维度建模实践一例 (一) 维度还是事实
|
机器学习/深度学习 数据挖掘
数据分析:5个数据相关性指标
相似性度量是许多数据分析和机器学习任务中的重要工具,使我们能够比较和评估不同数据片段之间的相似性。有许多不同的指标可用,每个指标各有利弊,适用于不同的数据类型和任务。
282 0

相关实验场景

更多
下一篇
无影云桌面