关于搜索挖掘所想

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
注册配置 MSE Nacos/ZooKeeper,182元/月
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
简介: SolrQueryLog DataMineSolrQueryLog DataMine 这一块工作非常具有市场和技术价值。尽管现在还没有开源的,有一个付费系统soleami 读作 so ray me。 我个人正在初步积累相关知识,依赖NLP和结构化信息提取虚拟团队,正着手搭建一个通用、可开源的So
SolrQueryLog DataMine
 

backgroud&Value

backgroud:Solr|lucene已然成为非常重要的开源检索引擎了。Solr|lucene被企业、公司、教育机构使用的不计其数。 而对Solr query log的挖掘、展示、工具几乎空白。通过google查询,发现solr 社区活跃者Koji 启动了一个solr query log 商业分析服务平台。<a target="_blank" href="http://soleami.com/" title="http://soleami.com/">http://soleami.com/</a> Value:提供一个开源工具包,共享给社区和网友,帮助大家进一步使用solr、挖掘solr log信息。 在这个过程中,掌握和运用NLP相关知识,促进个人成长和技术落地应用。

Resource&Experience

拥有超过50个应用,100G级别的solr querylog 日志文件,并且持续更新的log。 已经使用脚本文件,完成了solr 日志热点词提取工作,还没有服务化形式公开。 已经加入NLP&amp;结构化信息提取虚拟小组,开始介入UIMA框架和信息提取 非常高的热情、兴趣来做query log挖掘,改善用户输入提示、纠错、个性化推荐等服务质量。

Goal

GoalLocale

热点词统计,离线多种工具支持 查询词频实时统计,实时展示 查询热点域统计 查询关键词联合属性 查询域联合属性 UIMA框架支持的log自动化分析 领域开源分词词典,不带词性标注或者带词性标注 时间维度的 词聚合分布 <br> 时间维度的 IP-地理聚合分布 <br> 时间维度的 人的分布 <br> 时间维度的 tag 分布 <br> 时间维度的 领域分布

GoalSystem

[归一化]

例如 图片中的分享、评论、收集、描述、浏览、质量、风格等归一化一个质量值,用于默认搜素排序 例如 宝贝的店铺、价格、成交、评论、历史交易等归一化一个质量值,用于默认搜素排序

[一致性]

例如 图片所属图集、图片的分类、图片的描述与图片本身信息一致性检查 例如 商品的图片与商品的描述、分类、价格的一致性检查

[离线统计]

统计聚合特性、多维度的原信息展示,反作用与基础系统的参数

[在线统计]

实时微量、但维度实时统计,实时信息的关联推荐,突出实效性和时尚性

Action

1. 查询词实时统计数据结构实现和性能压测,争取*月上线试运行。 <br> 2. UIMA log分析 争取到*月掌握UIMA的流程、离线solr log分析 <br> 3. 词源词典信息收集 争取*月公开一个相对丰富的词典

Develop&Doc&Product&Idea

Idea

The view

Case1: query Info

输入终搜应用名称,输出:具体应用下查询热点词、查询热点域, 针对终搜平台上已有的全部社区型搜索应用,提供一个联合特性,展示购物社区动态。 目前查询热点词、热点域 偶尔用小工具独立处理,没有系统性计算和输出。 类似产品 Google adwords <a target="_blank" href="https://adwords.google.cn/select/KeywordToolExternal" title="https://adwords.google.cn/select/KeywordToolExternal">https://adwords.google.cn/select/KeywordToolExternal</a><br> &nbsp;Google Insight <a target="_blank" href="http://www.google.com/insights/search/#q=solr&amp;cmpt=q" title="http://www.google.com/insights/search/#q=solr&amp;cmpt=q">http://www.google.com/insights/search/#q=solr&amp;cmpt=q</a> <br> Google trend <a target="_blank" href="http://www.google.cn/trends/" title="http://www.google.cn/trends/">http://www.google.cn/trends/</a>

Case2:term Info

终搜目前支持了N多个应用,每个应用数据,在自定制分词策略下,分出来的词的分布情况,尤其是新词和长尾词情况。 目前终搜能提供工具解析,但是不是自动化、定时的平台。有些应用偶尔处理。

Case3:dataVisual

应用方数据导入终搜存储中心后,提供多维度查看存储数据信息。例如: 查看颜色数据分布情况、卖家分布情况、买卖关系分布情况、价格分布、评价分布等存储数据聚合特性。

Case4:merchandiseWiki

希望融合各个应用数据:分享、互动、评价、圈子、wantu、画报、试用、团购、分销等信息,输出以商品或者人为维度的 商品的分享、互动、评价、圈子、wantu、试用、团购信息列表,构建一个“商品互动百科”! 商品互动百科:利用现有社区搜索积累,融合淘宝内部社区数据,构建一个关于商品的“互动百科”。

公司内部现有产品:

Etao搜索,全网的比价搜索,关注全网价格、购物活动、以及和价格相关的其他信息,为购物者提供已价格为中心的购物信息。 量子恒道, 已经做了非常多的工作,比如网站统计、流量来源分析等,核心应该是针对卖家提供工具的。

Product

源数据 从中发现 商品 或者分销商 或者图片的 常规特征、异常特征 分布啥的 索引结构 分析长尾、长链、高频、价格区间、颜色分布、材质分布、 查询log 发现用户趋向、热点。。。

Develop

Doc

相关文章
|
8月前
|
人工智能 安全 API
最近谈论 SSE 和 WebSocket 的人越来越多的原因
实时通信已经成了大模型应用的标配。
1183 250
最近谈论 SSE 和 WebSocket 的人越来越多的原因
|
10月前
|
存储 缓存 数据处理
如何解决数据库高并发问题?
在Web服务框架中加入缓存层,存储高频访问数据,减轻数据库读取负担;增加数据库索引提升查询速度,但需注意索引数量;实施主从读写分离,优化数据处理;对数据库进行拆分,缩小表规模以加快查询;采用分布式架构,有效分散计算压力。
137 0
|
11月前
|
存储 监控 关系型数据库
MySQL数据库数据块大小详解
MySQL数据库数据块大小详解
470 0
|
消息中间件 存储 资源调度
订单超时怎么处理?我们用这种方案
在电商业务下,许多订单超时场景都在24小时以上,对于超时精度没有那么敏感,并且有海量订单需要批处理,推荐使用基于定时任务的跑批解决方案。
2210 122
订单超时怎么处理?我们用这种方案
|
SQL 存储 大数据
10亿+/秒!看阿里如何搞定实时数仓高吞吐实时写入与更新
Hologres(原交互式分析)是阿里云自研的一站式实时数仓,这个云原生系统融合了实时服务和分析大数据的场景,全面兼容PostgreSQL协议并与大数据生态无缝打通,能用同一套数据架构同时支持实时写入实时查询以及实时离线联邦分析。它的出现简化了业务的架构,为业务提供实时决策的能力,让大数据发挥出更大的商业价值。在本文中,我们将会介绍数据实时入仓所面临的挑战,以及Hologres为了应对这些挑战在技术原理上的创新和演进,支撑实时数仓的高吞吐实时写入与更新,加速业务数据探索。
10亿+/秒!看阿里如何搞定实时数仓高吞吐实时写入与更新
|
SQL JSON 中间件
阿里seata真香,肝一下saga模式源码
阿里seata真香,肝一下saga模式源码
399 0
阿里seata真香,肝一下saga模式源码
|
Web App开发 tengine 应用服务中间件
Nginx 外的另一选择,轻量级开源 Web 服务器 Tengine 发布新版本
新版发布 近日,轻量级开源 Web 服务器 Tengine 发布了2.3.0版本,新增如下特性: ngx_http_proxy_connect_module [1] ,该模块让 Tengine 可以用于正向代理场景,支持对 CONNECT 方法请求的处理; HTTP2 Server粒度控制[...
21891 114
|
测试技术 双11 缓存
独家揭秘 | 阿里怎么做双11全链路压测?
本文是《Performance Test Together》(简称PTT)系列专题分享的第7期,该专题将从性能压测的设计、实现、执行、监控、问题定位和分析、应用场景等多个纬度对性能压测的全过程进行拆解,以帮助大家构建完整的性能压测的理论体系,并提供有例可依的实战。
7331 101
|
消息中间件 存储 中间件

热门文章

最新文章