信息检索资源参考

简介: 假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文汇总信息检索开放资源列表,有需要的拿走吧。

基础:

Introduction to Information Retrieval_irbookprint
managing_gigabytes
搜索引擎原理与技术
现代信息检索
走进搜索引擎


知名研究团队

华中科技大学智能与分布式计算实验室 http://idc.hust.edu.cn/
中科院计算所信息检索组  http://ir.ict.ac.cn/blog/
哈工大社会计算与信息检索研究中心  http://ir.hit.edu.cn/
北京大学网络实验室  http://www.cwirf.org/    http://sewm.pku.edu.cn/project/SIPE.html
清华大学智能技术与系统国家重点实验室  http://166.111.138.86/cms/
华南理工大学  http://dmir.gdut.edu.cn/members.html
浙江大学   http://jpkc.zju.edu.cn/k/244/
斯坦福大学 http://nlp.stanford.edu/software/parser-faq.shtml
DataMine  
http://www.cs.waikato.ac.nz/ml/weka/


国内重要官方博客

soso        blog http://blog.csdn.net/soso_blog
sougoulab  
http://www.sogou.com/labs/
taobao      
http://blog.search.taobao.com/
baidu      
http://www.baidu-tech.com/


最高最新技术代表

sigir http://www.sigir.org/
trec  
http://trec.nist.gov/
3w    
http://www.w3.org/Conferences/Overview-WWW.html

challenges in building large scale information retriveval systems WSDM09-keynote.pdf
Information Retrieval Current and Future Research_03tc.pdf
Inverted Files for Text Search Engines.pdf
Performance of compressed inverted list caching in search engines
Inverted Index Compression&Query Processing with Optimized Document Ordering

索引相关度 http://nlp.stanford.edu/IR-book/html/htmledition/index-1.html
SSD  
华中科技大学智能与分布式计算实验室  http://idc.hust.edu.cn/
GPU  
华中科技大学智能与分布式计算实验室  http://idc.hust.edu.cn/
     
http://koala.poly.edu/ShuaiDing.html
     
http://cis.poly.edu/suel/
     
http://www.azintablog.com/2010/10/16/gpu-large-scale-data-mining/
     
http://membres-liglab.imag.fr/termier/ParallelDMWorkshop/index.html
     
http://moss.csc.ncsu.edu/~mueller/ftp/pub/mueller/papers/epham09.pdf
     
http://people.gucas.ac.cn/~yingliu?language=en
     
http://hi.baidu.com/sebarzi/blog/item/9d7c7fe98e156031b80e2deb.html


重要开源

Lucene/Solr  http://lucene.apache.org/
Solr Application Development Tutorial Presentation.pdf
Livro Solr 1.4 Enterprise Search Server.pdf


Open Tools for Machine Learning  
http://hi.baidu.com/michzel/blog/item/ffce9e2018c186184d088d11.html
I. Information Retrieval


1. Lemur/Indri
The Lemur Toolkit for Language Modeling and Information Retrieval
http://www.lemurproject.org/
Indri: Lemur's latest search engine


2. Lucene/Nutch
Apache Lucene is a high-performance, full-featured text search engine library written entirely in Java.
http://lucene.apache.org/http://www.nutch.org/


3. WGet
GNU Wget is a free software package for retrieving files using HTTP, HTTPS and FTP, the most widely-used Internet protocols. It is a non-interactive commandline tool, so it may easily be called from scripts, cron jobs, terminals without X-Windows support, etc.
http://www.gnu.org/software/wget/wget.html


II. Natural Language Processing
1. EGYPT: A Statistical Machine Translation Toolkit
http://www.clsp.jhu.edu/ws99/projects/mt/
2. GIZA++ (Statistical Machine Translation)
http://www.fjoch.com/GIZA++.html

3. PHARAOH (Statistical Machine Translation)
http://www.isi.edu/licensed-sw/pharaoh/
a beam search decoder for phrase-based statistical machine translation models
4. OpenNLP:
http://opennlp.sourceforge.net/

5. MINIPAR by Dekang Lin (Univ. of Alberta, Canada)
MINIPAR is a broad-coverage parser for the English language. An evaluation with the SUSANNE corpus shows that MINIPAR achieves about 88% precision and 80% recall with respect to dependency relationships. MINIPAR is very efficient, on a Pentium II 300 with 128MB memory, it parses about 300 words per second.
binary
填一个表后可以免费下载
http://www.cs.ualberta.ca/~lindek/minipar.htm
6. WordNet
http://wordnet.princeton.edu/

7. HowNet
http://www.keenage.com/

8. Statistical Language Modeling Toolkit
http://svr-www.eng.cam.ac.uk/~prc14/toolkit.html

9. SRI Language Modeling Toolkit
www.speech.sri.com/projects/srilm/

10. ReWrite Decoder
http://www.isi.edu/licensed-sw/rewrite-decoder/

11. GATE (General Architecture for Text Engineering)
http://gate.ac.uk/

12. NLTK (Natural Language Toolkit)
http://nltk.sourceforge.net/index.php/Main_Page


III. Machine Learning
1. YASMET: Yet Another Small MaxEnt Toolkit (Statistical Machine Learning)
http://www.fjoch.com/YASMET.html

2. LibSVM
http://www.csie.ntu.edu.tw/~cjlin/libsvm/

3. SVM Light
http://svmlight.joachims.org/

4. CLUTO
http://www-users.cs.umn.edu/~karypis/cluto/

5. CRF++
http://chasen.org/~taku/software/CRF++/

6. SVM Struct
http://www.cs.cornell.edu/People/tj/svm_light/svm_struct.html

7. MALLET
MAchine Learning for LanguagE Toolkit  
http://mallet.cs.umass.edu/index.php

IV. Misc:
1. WinMerge:
用于文本内容比较,找出不同版本的两个程序的差异
winmerge.sourceforge.net/

2. OpenPerlIDE: 开源的perl编辑器,内置编译、逐行调试功能
open-perl-ide.sourceforge.net/

3. Berkeley DB
http://www.sleepycat.com/

R http://www.r-project.org/

----------------------------------------
经典文章、
Why Google Cannot Beat Baidu in China Search Engine Market.pdf
百度与谷歌在算法上的区别.docx
百度 vs Google优秀与伟大之别
海狗不是狗探秘支付宝准实时搜索查询

互联网用户常见心理特征 http://www.chinaz.com/manage/2011/1221/227402.shtml

目录
相关文章
|
25天前
|
人工智能 自然语言处理
Promptriever:信息检索模型,支持自然语言提示响应用户搜索需求
Promptriever 是一种新型信息检索模型,由约翰斯·霍普金斯大学和 Samaya AI 联合推出。该模型能够接受自然语言提示,并以直观的方式响应用户的搜索需求。通过在 MS MARCO 数据集上的训练,Promptriever 在标准检索任务上表现出色,能够更有效地遵循详细指令,提高查询的鲁棒性和检索性能。
59 6
Promptriever:信息检索模型,支持自然语言提示响应用户搜索需求
|
1月前
|
数据采集 人工智能 自然语言处理
文档智能与检索增强生成结合的LLM知识库方案测评:优势与改进空间
《文档智能 & RAG让AI大模型更懂业务》解决方案通过结合文档智能和检索增强生成(RAG)技术,构建企业级文档知识库。方案详细介绍了文档清洗、向量化、问答召回等步骤,但在向量化算法选择、多模态支持和用户界面上有待改进。部署过程中遇到一些技术问题,建议优化性能和增加实时处理能力。总体而言,方案在金融、法律、医疗等领域具有广泛应用前景。
63 11
|
2月前
|
数据采集 自然语言处理 算法
|
7月前
|
机器学习/深度学习 SQL 存储
机器学习PAI常见问题之资源不足如何解决
PAI(平台为智能,Platform for Artificial Intelligence)是阿里云提供的一个全面的人工智能开发平台,旨在为开发者提供机器学习、深度学习等人工智能技术的模型训练、优化和部署服务。以下是PAI平台使用中的一些常见问题及其答案汇总,帮助用户解决在使用过程中遇到的问题。
|
7月前
|
数据采集 存储 人工智能
【AI大模型应用开发】【LangChain系列】实战案例4:再战RAG问答,提取在线网页数据,并返回生成答案的来源
【AI大模型应用开发】【LangChain系列】实战案例4:再战RAG问答,提取在线网页数据,并返回生成答案的来源
639 0
|
7月前
|
数据采集 人工智能 自然语言处理
ChatGPT系统课程 - 提示词的重点使用场景之内容总结和内容提取
ChatGPT系统课程 - 提示词的重点使用场景之内容总结和内容提取
|
Linux 异构计算 索引
释放搜索潜力:基于ES(ElasticSearch)打造高效的语义搜索系统,让信息尽在掌握
释放搜索潜力:基于ES(ElasticSearch)打造高效的语义搜索系统,让信息尽在掌握
|
存储 测试技术 API
LLM 回答更加准确的秘密:为检索增强生成(RAG)添加引用源
如何让你的大模型变得更强?如何确定其获取信息来源的准确性?想要回答这两个问题,就不得不提到 RAG。
1699 0
|
算法 搜索推荐 测试技术
推荐引擎——如何创建测试场景|学习笔记
快速学习推荐引擎——如何创建测试场景
推荐引擎——如何创建测试场景|学习笔记
|
机器学习/深度学习 人工智能 自然语言处理
资源!机器学习平台优质资源集合
机器学习平台在人工智能的开发过程中扮演者非常重要的作用,所以,这些年来,也出现了很多不同的机器学习平台,侧重传统方法的scipy、sklearn,侧重深度学习的caffe、theno、pytorch、tensorflow、mxnet,还有高度集成的gluon、keras,都在人工智能工作中扮演者重要的角色,今天我就推荐一些这两年表现比较突出的三个机器学习平台的相关学习资源,分别是tensorflow、pytorch、mxnet。 备注:我已经把tensorflow、pytorch、mxnet官方文档PDF版和epub版放进共享链接,有需要的可以关注微信公众号回复doc获取。
资源!机器学习平台优质资源集合

热门文章

最新文章