信息检索资源参考

简介: 假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文汇总信息检索开放资源列表,有需要的拿走吧。

基础:

Introduction to Information Retrieval_irbookprint
managing_gigabytes
搜索引擎原理与技术
现代信息检索
走进搜索引擎


知名研究团队

华中科技大学智能与分布式计算实验室 http://idc.hust.edu.cn/
中科院计算所信息检索组  http://ir.ict.ac.cn/blog/
哈工大社会计算与信息检索研究中心  http://ir.hit.edu.cn/
北京大学网络实验室  http://www.cwirf.org/    http://sewm.pku.edu.cn/project/SIPE.html
清华大学智能技术与系统国家重点实验室  http://166.111.138.86/cms/
华南理工大学  http://dmir.gdut.edu.cn/members.html
浙江大学   http://jpkc.zju.edu.cn/k/244/
斯坦福大学 http://nlp.stanford.edu/software/parser-faq.shtml
DataMine  
http://www.cs.waikato.ac.nz/ml/weka/


国内重要官方博客

soso        blog http://blog.csdn.net/soso_blog
sougoulab  
http://www.sogou.com/labs/
taobao      
http://blog.search.taobao.com/
baidu      
http://www.baidu-tech.com/


最高最新技术代表

sigir http://www.sigir.org/
trec  
http://trec.nist.gov/
3w    
http://www.w3.org/Conferences/Overview-WWW.html

challenges in building large scale information retriveval systems WSDM09-keynote.pdf
Information Retrieval Current and Future Research_03tc.pdf
Inverted Files for Text Search Engines.pdf
Performance of compressed inverted list caching in search engines
Inverted Index Compression&Query Processing with Optimized Document Ordering

索引相关度 http://nlp.stanford.edu/IR-book/html/htmledition/index-1.html
SSD  
华中科技大学智能与分布式计算实验室  http://idc.hust.edu.cn/
GPU  
华中科技大学智能与分布式计算实验室  http://idc.hust.edu.cn/
     
http://koala.poly.edu/ShuaiDing.html
     
http://cis.poly.edu/suel/
     
http://www.azintablog.com/2010/10/16/gpu-large-scale-data-mining/
     
http://membres-liglab.imag.fr/termier/ParallelDMWorkshop/index.html
     
http://moss.csc.ncsu.edu/~mueller/ftp/pub/mueller/papers/epham09.pdf
     
http://people.gucas.ac.cn/~yingliu?language=en
     
http://hi.baidu.com/sebarzi/blog/item/9d7c7fe98e156031b80e2deb.html


重要开源

Lucene/Solr  http://lucene.apache.org/
Solr Application Development Tutorial Presentation.pdf
Livro Solr 1.4 Enterprise Search Server.pdf


Open Tools for Machine Learning  
http://hi.baidu.com/michzel/blog/item/ffce9e2018c186184d088d11.html
I. Information Retrieval


1. Lemur/Indri
The Lemur Toolkit for Language Modeling and Information Retrieval
http://www.lemurproject.org/
Indri: Lemur's latest search engine


2. Lucene/Nutch
Apache Lucene is a high-performance, full-featured text search engine library written entirely in Java.
http://lucene.apache.org/http://www.nutch.org/


3. WGet
GNU Wget is a free software package for retrieving files using HTTP, HTTPS and FTP, the most widely-used Internet protocols. It is a non-interactive commandline tool, so it may easily be called from scripts, cron jobs, terminals without X-Windows support, etc.
http://www.gnu.org/software/wget/wget.html


II. Natural Language Processing
1. EGYPT: A Statistical Machine Translation Toolkit
http://www.clsp.jhu.edu/ws99/projects/mt/
2. GIZA++ (Statistical Machine Translation)
http://www.fjoch.com/GIZA++.html

3. PHARAOH (Statistical Machine Translation)
http://www.isi.edu/licensed-sw/pharaoh/
a beam search decoder for phrase-based statistical machine translation models
4. OpenNLP:
http://opennlp.sourceforge.net/

5. MINIPAR by Dekang Lin (Univ. of Alberta, Canada)
MINIPAR is a broad-coverage parser for the English language. An evaluation with the SUSANNE corpus shows that MINIPAR achieves about 88% precision and 80% recall with respect to dependency relationships. MINIPAR is very efficient, on a Pentium II 300 with 128MB memory, it parses about 300 words per second.
binary
填一个表后可以免费下载
http://www.cs.ualberta.ca/~lindek/minipar.htm
6. WordNet
http://wordnet.princeton.edu/

7. HowNet
http://www.keenage.com/

8. Statistical Language Modeling Toolkit
http://svr-www.eng.cam.ac.uk/~prc14/toolkit.html

9. SRI Language Modeling Toolkit
www.speech.sri.com/projects/srilm/

10. ReWrite Decoder
http://www.isi.edu/licensed-sw/rewrite-decoder/

11. GATE (General Architecture for Text Engineering)
http://gate.ac.uk/

12. NLTK (Natural Language Toolkit)
http://nltk.sourceforge.net/index.php/Main_Page


III. Machine Learning
1. YASMET: Yet Another Small MaxEnt Toolkit (Statistical Machine Learning)
http://www.fjoch.com/YASMET.html

2. LibSVM
http://www.csie.ntu.edu.tw/~cjlin/libsvm/

3. SVM Light
http://svmlight.joachims.org/

4. CLUTO
http://www-users.cs.umn.edu/~karypis/cluto/

5. CRF++
http://chasen.org/~taku/software/CRF++/

6. SVM Struct
http://www.cs.cornell.edu/People/tj/svm_light/svm_struct.html

7. MALLET
MAchine Learning for LanguagE Toolkit  
http://mallet.cs.umass.edu/index.php

IV. Misc:
1. WinMerge:
用于文本内容比较,找出不同版本的两个程序的差异
winmerge.sourceforge.net/

2. OpenPerlIDE: 开源的perl编辑器,内置编译、逐行调试功能
open-perl-ide.sourceforge.net/

3. Berkeley DB
http://www.sleepycat.com/

R http://www.r-project.org/

----------------------------------------
经典文章、
Why Google Cannot Beat Baidu in China Search Engine Market.pdf
百度与谷歌在算法上的区别.docx
百度 vs Google优秀与伟大之别
海狗不是狗探秘支付宝准实时搜索查询

互联网用户常见心理特征 http://www.chinaz.com/manage/2011/1221/227402.shtml

目录
相关文章
|
7天前
|
人工智能 自然语言处理 数据挖掘
RAG 系统高效检索提升秘籍:如何精准选择 BGE 智源、GTE 阿里与 Jina 等的嵌入与精排模型的完美搭配
RAG 系统高效检索提升秘籍:如何精准选择 BGE 智源、GTE 阿里与 Jina 等的嵌入与精排模型的完美搭配
RAG 系统高效检索提升秘籍:如何精准选择 BGE 智源、GTE 阿里与 Jina 等的嵌入与精排模型的完美搭配
|
13天前
|
数据采集 人工智能 自然语言处理
文档智能与检索增强生成结合的LLM知识库方案测评:优势与改进空间
《文档智能 & RAG让AI大模型更懂业务》解决方案通过结合文档智能和检索增强生成(RAG)技术,构建企业级文档知识库。方案详细介绍了文档清洗、向量化、问答召回等步骤,但在向量化算法选择、多模态支持和用户界面上有待改进。部署过程中遇到一些技术问题,建议优化性能和增加实时处理能力。总体而言,方案在金融、法律、医疗等领域具有广泛应用前景。
39 11
|
5天前
|
机器学习/深度学习 存储 自然语言处理
方案测评|巧用文档智能和RAG构建大语言模型知识库
本文介绍了一款基于文档智能和大语言模型(LLM)的文档解析及问答应用,旨在提升企业文档管理和信息检索效率。系统通过文档解析、知识库构建和问答服务三大模块,实现了从文档上传到智能问答的全流程自动化。
可控细节的长文档摘要,探索开源LLM工具与实践
本文通过将文档分为几部分来解决这个问题,然后分段生成摘要。在对大语言模型进行多次查询后,可以重建完整的摘要。通过控制文本块的数量及其大小,我们最终可以控制输出中的细节级别。
|
1月前
|
弹性计算 Serverless API
海量大模型如何一键部署上云,函数计算 x ModelScope 社区给出答案
得益于阿里云函数计算的产品能力,魔搭 SwingDeploy 后的模型推理 API 服务默认具备极致弹性伸缩(缩零能力)、GPU 虚拟化(最小 1GB 显存粒度)、异步调用能力、按用付费、闲置计费等能力,这些能力帮助算法工程师大大加快了魔搭开源模型投入生产的生命周期。
|
1月前
|
数据采集 自然语言处理 算法
|
6月前
|
机器学习/深度学习 SQL 存储
机器学习PAI常见问题之资源不足如何解决
PAI(平台为智能,Platform for Artificial Intelligence)是阿里云提供的一个全面的人工智能开发平台,旨在为开发者提供机器学习、深度学习等人工智能技术的模型训练、优化和部署服务。以下是PAI平台使用中的一些常见问题及其答案汇总,帮助用户解决在使用过程中遇到的问题。
|
3月前
|
存储 人工智能 自然语言处理
知识库优化增强,支持多种数据类型、多种检索策略、召回测试 | Botnow上新
Botnow近期对其知识库功能进行了全面升级,显著提升了数据处理能力、检索效率及准确性。新版本支持多样化的数据格式,包括PDF、Word、TXT、Excel和CSV等文件,无需额外转换即可直接导入,极大地丰富了知识来源。此外,还新增了细致的文本分片管理和编辑功能,以及表格数据的结构化处理,使知识管理更为精细化。 同时,平台提供了多种检索策略,包括混合检索、语义检索和全文检索等,可根据具体需求灵活选择,有效解决了大模型幻觉问题,增强了专业领域的知识覆盖,从而显著提高了回复的准确性。这些改进广泛适用于客服咨询、知识问答等多种应用场景,极大提升了用户体验和交互质量。
75 4
|
3月前
|
自然语言处理
预训练模型STAR问题之开放信息抽取(OpenIE)目标的问题如何解决
预训练模型STAR问题之开放信息抽取(OpenIE)目标的问题如何解决
|
机器学习/深度学习 自然语言处理 安全
【网安专题11.8】14Cosco跨语言代码搜索代码: (a) 训练阶段 相关程度的对比学习 对源代码(查询+目标代码)和动态运行信息进行编码 (b) 在线查询嵌入与搜索:不必计算相似性
【网安专题11.8】14Cosco跨语言代码搜索代码: (a) 训练阶段 相关程度的对比学习 对源代码(查询+目标代码)和动态运行信息进行编码 (b) 在线查询嵌入与搜索:不必计算相似性
260 0