【转】关于搜索挖掘所想

简介: 假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。

SolrQueryLog DataMine

SolrQueryLog DataMine 这一块工作非常具有市场和技术价值。尽管现在还没有开源的,有一个付费系统soleami 读作 so ray me。 我个人正在初步积累相关知识,依赖NLP和结构化信息提取虚拟团队,正着手搭建一个通用、可开源的SolrQueryLog挖掘工具。 欢迎拥有分享精神、对solr有一定了解、不自私、有度量并愿意无私工作的屌丝和我一起为社区、为公司内部做一些非KPI的贡献。

目录

·       1 backgroud&Value

·       2 Resource&Experience

·       3 Goal

o   3.1 GoalLocale

o   3.2 GoalSystem

·       4 Action

·       5 Develop&Doc&Product&Idea

o   5.1 Idea

o   5.2 Product

o   5.3 Develop

o   5.4 Doc

backgroud&Value

backgroudSolr|lucene已然成为非常重要的开源检索引擎了。Solr|lucene被企业、公司、教育机构使用的不计其数。 而对Solr query log的挖掘、展示、工具几乎空白。通过google查询,发现solr 社区活跃者Koji 启动了一个solr query log 商业分析服务平台。http://soleami.com/

Value:提供一个开源工具包,共享给社区和网友,帮助大家进一步使用solr、挖掘solr log信息。 在这个过程中,掌握和运用NLP相关知识,促进个人成长和技术落地应用。

Resource&Experience

拥有超过50个应用,100G级别的solr querylog 日志文件,并且持续更新的log。 已经使用脚本文件,完成了solr 日志热点词提取工作,还没有服务化形式公开。 已经加入NLP&结构化信息提取虚拟小组,开始介入UIMA框架和信息提取 非常高的热情、兴趣来做query log挖掘,改善用户输入提示、纠错、个性化推荐等服务质量。

Goal

GoalLocale

热点词统计,离线多种工具支持 查询词频实时统计,实时展示 查询热点域统计 查询关键词联合属性 查询域联合属性

UIMA框架支持的log自动化分析 领域开源分词词典,不带词性标注或者带词性标注

时间维度的 词聚合分布
时间维度的 IP-地理聚合分布
时间维度的 人的分布
时间维度的 tag 分布
时间维度的 领域分布

GoalSystem

[归一化]

例如 图片中的分享、评论、收集、描述、浏览、质量、风格等归一化一个质量值,用于默认搜素排序 例如 宝贝的店铺、价格、成交、评论、历史交易等归一化一个质量值,用于默认搜素排序

[一致性]

例如 图片所属图集、图片的分类、图片的描述与图片本身信息一致性检查 例如 商品的图片与商品的描述、分类、价格的一致性检查

[离线统计]

统计聚合特性、多维度的原信息展示,反作用与基础系统的参数

[在线统计]

实时微量、但维度实时统计,实时信息的关联推荐,突出实效性和时尚性

Action

1. 查询词实时统计数据结构实现和性能压测,争取*月上线试运行。
2. UIMA log
分析 争取到*月掌握UIMA的流程、离线solr log分析
3.
词源词典信息收集 争取*月公开一个相对丰富的词典

Develop&Doc&Product&Idea

Idea

The view

Case1 query Info

输入终搜应用名称,输出:具体应用下查询热点词、查询热点域, 针对终搜平台上已有的全部社区型搜索应用,提供一个联合特性,展示购物社区动态。 目前查询热点词、热点域 偶尔用小工具独立处理,没有系统性计算和输出。

类似产品 Google adwords https://adwords.google.cn/select/KeywordToolExternal
Google Insight
http://www.google.com/insights/search/#q=solr&cmpt=q
Google trend
http://www.google.cn/trends/

Case2term Info

终搜目前支持了N多个应用,每个应用数据,在自定制分词策略下,分出来的词的分布情况,尤其是新词和长尾词情况。 目前终搜能提供工具解析,但是不是自动化、定时的平台。有些应用偶尔处理。

Case3dataVisual

应用方数据导入终搜存储中心后,提供多维度查看存储数据信息。例如: 查看颜色数据分布情况、卖家分布情况、买卖关系分布情况、价格分布、评价分布等存储数据聚合特性。

Case4merchandiseWiki

希望融合各个应用数据:分享、互动、评价、圈子、wantu、画报、试用、团购、分销等信息,输出以商品或者人为维度的 商品的分享、互动、评价、圈子、wantu、试用、团购信息列表,构建一个商品互动百科! 商品互动百科:利用现有社区搜索积累,融合淘宝内部社区数据,构建一个关于商品的互动百科

公司内部现有产品:

Etao搜索,全网的比价搜索,关注全网价格、购物活动、以及和价格相关的其他信息,为购物者提供已价格为中心的购物信息。 量子恒道, 已经做了非常多的工作,比如网站统计、流量来源分析等,核心应该是针对卖家提供工具的。

Product

源数据 从中发现 商品 或者分销商 或者图片的 常规特征、异常特征 分布啥的 索引结构 分析长尾、长链、高频、价格区间、颜色分布、材质分布、 查询log 发现用户趋向、热点。。。

Develop

Doc

目录
相关文章
|
移动开发 算法
秒懂算法 | A*搜索
本篇内容包括了A*搜索算法的原理精解以及2个例题。
594 1
秒懂算法 | A*搜索
|
存储 并行计算 算法
秒懂算法 | 搜索基础
本篇介绍了BFS和DFS的概念、性质、模板代码。
174 0
秒懂算法 | 搜索基础
|
人工智能 自然语言处理 数据库
联合搜索:搜索中的所有需求
现如今各行各业内容和数据量逐年增长,内容碎片化已成为现实问题。各大公司在众多平台上每个方向都有内容。当有如此多的搜索选项时,如何确保用户获得他们想要的信息? 在本文中了解业务方向(在客户服务、营销或运营方面)如何集中搜索以减少客户和团队的搜索工作,并简化内容源之间的可查找性。
249 0
【算法提高——第二讲】搜索(2)
【算法提高——第二讲】搜索(2)
【算法提高——第二讲】搜索(2)
【算法提高——第二讲】搜索(1)
【算法提高——第二讲】搜索(1)
【算法提高——第二讲】搜索(1)
【算法提高——第二讲】搜索(3)
【算法提高——第二讲】搜索(3)
【算法提高——第二讲】搜索(3)
|
机器学习/深度学习 搜索推荐 数据处理
这就是搜索引擎读书笔记-day3-5.检索模型与搜索排序
搜索结果排序融合了上百种排序因子,而重要两因素是:用户查询和网页内容相关性 及 网页链接情况。本节介绍内容相关性介绍网页排序
这就是搜索引擎读书笔记-day3-5.检索模型与搜索排序
|
前端开发 JavaScript 搜索推荐
如何正确的使用百度精准搜索
如何正确的使用百度精准搜索
622 0
|
自然语言处理 算法 知识图谱
电商搜索如何“想用户所想,提高搜索结果质量”?
本文针对电商搜索中如何“想用户所想,提高搜索结果质量”的问题进行剖析,并通过阿里云开放搜索电商行业解决方案和大家聊一聊如何优化解决~
3944 0
电商搜索如何“想用户所想,提高搜索结果质量”?
|
数据采集 机器学习/深度学习 编解码
神马搜索如何提升搜索的时效性?
什么是搜索的时效性?有哪些特征?如何优化?本文分享神马搜索在搜索排序时效性问题上的实践和探索,从基础特征优化开始,通过标注数据进行排序和召回模型优化,以及时效性排序的召回体系和收录体系。较长,同学们可收藏后再看。
3094 0
神马搜索如何提升搜索的时效性?

热门文章

最新文章

下一篇
开通oss服务