LucneSolr序列开源

简介: 假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文汇总围绕Lucene、Solr的相关开源项目。不难发现,这是一个强大的生态。

Lucene/Solr

页面最后修改于 03:53, 30 Dec 2011 修改人 鹰缘 | 历史版本

资源入口  http://wiki.apache.org/solr/SolrResources

nzinfo_ Coreseek-Sphinx 全文检索实践指南PHP_百度文库
wenku.baidu.com ?
专业文献/行业资料 ? 计算机 - 网页快照
2010
1223 – Lucene / Nutch / Solr Sphinx / Coreseek Xapian Lemur ... Attributes (only if docinfo=extern) Document lists (for each keyword) Hit lists (for each ...

lucene相关成熟系统仅供参考


Zoie
http://code.google.com/p/zoie/
http://javasoze.github.com/zoie/

Riak
http://wiki.basho.com/Riak-Search.html

Rails
http://techbot.me/2011/01/full-text-search-in-in-rails-with-sunspot-and-solr/

sphinx
http://sphinxsearch.com/

solrCloud
http://wiki.apache.org/solr/SolrCloud
http://lucene.472066.n3.nabble.com/SolrCloud-Feedback-td2290048.html

katta
http://katta.sourceforge.net/

hadoop Hbase solr = lily
http://www.findbestopensource.com/stack-detail/lily-stack

Solr + Hadoop = Big Data Love
http://architects.dzone.com/articles/solr-hadoop-big-data-love
http://www.dzone.com/content/solr-hadoop-big-data-love

Trovit
http://2011.lucene-eurocon.org/talks/20842

dynamicguy
http://dynamicguy.com/


hadoop+lucene
nutch

hadoop+lucene
nut
lucene + hadoop
分布式搜索运行框架 Nut 1.0a8
http://www.blogjava.net/nianzai/archive/2010/10/27/336255.html
http://code.google.com/p/nutla/

pulsr
http://code.google.com/p/pulsr/

openlogical
http://olex.openlogic.com/packages/solr/1.4.0

hadoop lucene 编程
http://hadoop.nchc.org.tw/phpbb/viewtopic.php?f=7&t=2195
http://sematext.com/about/jobs.html
https://issues.apache.org/jira/browse/SOLR-1301
http://opensource.sys-con.com/node/1654393

hbase lucene
http://koven2049.iteye.com/blog/1129994
https://github.com/akkumar/hbasene

elasticsearch
http://www.elasticsearch.org/
http://swik.net/Lucene+distributed?page=2

目录
相关文章
|
6月前
|
机器学习/深度学习 人工智能 缓存
极长序列、极快速度:面向新一代高效大语言模型的LASP序列并行
【4月更文挑战第26天】研究人员提出LASP,一种针对线性注意力机制的序列并行方法,解决了处理超长序列时GPU内存限制的问题。LASP利用点对点通信和内核融合优化,降低通信开销,提高GPU集群执行效率。在128个A100 GPU上,LASP能处理4096K长度的序列,比现有方法快8倍。虽然面临P2P通信需求高、环境适应性和特定机制依赖的挑战,但LASP为大型语言模型的效率和性能提供了新思路。[链接](https://arxiv.org/abs/2404.02882)
85 6
|
12天前
|
Java 数据处理 API
JDK 21中的序列集合:有序数据处理的新篇章
JDK 21引入了序列集合(Sequenced Collections),这是一种维护元素插入顺序的新型集合。本文介绍了序列集合的概念、特性及其应用场景,如事件日志记录、任务调度和数据处理。通过保持插入顺序和高效的遍历方法,序列集合为开发者提供了更直观和易用的API。
|
4月前
|
机器学习/深度学习 自然语言处理
序列到序列建模
序列到序列建模
|
5月前
|
机器学习/深度学习 人工智能 数据处理
人工智能平台PAI产品使用合集之最大长度是指的是batch内最长序列吗
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
6月前
|
机器学习/深度学习 人工智能 API
人工智能平台PAI 操作报错合集之DSSM负采样时,输入数据不同,被哈希到同一个桶里,导致生成的embedding相同如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
6月前
|
机器学习/深度学习 存储 缓存
BurstAttention:可对非常长的序列进行高效的分布式注意力计算
研究人员探索了提高LLM注意力机制效率的策略,包括FlashAttention(利用SRAM加速)和RingAttention(分布式多设备处理)。新提出的BurstAttention结合两者,优化跨设备计算与通信,减少40%通信开销,使128K长度序列在8×A100 GPU上的训练速度翻倍。论文于3月发布,但实现未公开
89 3
|
6月前
|
机器学习/深度学习 人工智能 算法
【AI大模型应用开发】【补充知识】文本向量化与向量相似度(含Python代码)
【AI大模型应用开发】【补充知识】文本向量化与向量相似度(含Python代码)
112 0
|
算法 数据处理 数据库
生物学经典Blast序列比对算法原理,如何在R语言和Python中实现序列的比对分析?
生物学经典Blast序列比对算法原理,如何在R语言和Python中实现序列的比对分析?
|
6月前
|
Java API 数据处理
JDK 21中的序列集合:有序数据的新篇章
本文将深入探讨JDK 21中新增的序列集合(Sequenced Collections)的概念、特性以及其在现代软件开发中的应用。序列集合为有序数据的处理提供了更高效、更直观的方式,使得开发者能够更轻松地管理集合中元素的顺序。本文将通过示例代码展示序列集合的使用,并分析其与传统集合的区别与优势。
|
6月前
|
机器学习/深度学习 Python
Python机器学习一维/多维数据集顺序打乱
Python机器学习一维/多维数据集顺序打乱