一个基于EntityFrameworkCore+Lucene实现的全文搜索引擎库

简介: 这是一个仅70KB的、轻量级的全文检索搜索引擎、基于Lucene实现的。

一说到全文搜索,大家都可能会想到ES中间件,毕竟ES非常强大。对于复杂全文搜索场景ES非常好用,但是对于一些简单业务场景的,比如实现通过关键字检索文章,使用ES就显得比较重。今天就给大家推荐一个基于EntityFrameworkCore+Lucene.Net实现的全文搜素引擎库,主要面向简单全文搜索场景的。

项目简介

这是一个仅70KB的、轻量级的全文检索搜索引擎、基于Lucene实现的。可轻松实现全文搜索、自定义同义词和同音词、自定义词库,与EntityFrameworkCore实体框架无缝对接,通过简单的配置,就可以轻松接入项目。

该项目主要用于简单搜索场景,针对分布式应用、关联查询等一些复杂的查询,需要考虑其他支持方式,比如采用ES中间件。

技术架构

1、跨平台:这是基于.Net Core开发的系统,可以部署在Docker, Windows, Linux, Mac。

2、基于Net5.0+EntityFrameworkCore+Lucene.Net开发。

项目结构

图片

Masuit.LuceneEFCore.SearchEngine为全文搜索引擎库项目,WebSearchDemo简单Demo项目。

使用方法

搜索引擎配置

public void ConfigureServices(IServiceCollection services)
{
  services.AddDbContext<DataContext>(db =>
  {
    db.UseInMemoryDatabase("test");
//db.UseSqlServer("Data Source=.;Initial Catalog=MyBlogs;Integrated Security=True");
  });
  services.AddSearchEngine<DataContext>(new LuceneIndexerOptions()
  {
    Path = "lucene"
  });
...
}

创建索引、导入自定义词库

public void Configure(IApplicationBuilder app, IHostingEnvironment env, DataContext db, ISearchEngine<DataContext> searchEngine)
{
if (env.IsDevelopment())
            {
                app.UseDeveloperExceptionPage();
            }
new JiebaSegmenter().AddWord("会声会影"); //添加自定义词库
new JiebaSegmenter().AddWord("思杰马克丁"); //添加自定义词库
new JiebaSegmenter().AddWord("TeamViewer"); //添加自定义词库
            db.Post.AddRange(JsonConvert.DeserializeObject<List<Post>>(File.ReadAllText(AppContext.BaseDirectory + "Posts.json")));
            db.SaveChanges();
            searchEngine.DeleteIndex();
            searchEngine.CreateIndex(new List<string>()
            {
                nameof(Post)
            });
            ...
}

创建索引

/// <summary>
/// 创建索引
/// </summary>
[HttpGet]
public void CreateIndex()
{
//_searchEngine.CreateIndex();//扫描所有数据表,创建符合条件的库的索引
    _searchEngine.CreateIndex(new List<string>() { nameof(Post) });//创建指定的数据表的索引
}

添加索引

/// <summary>
/// 添加索引
/// </summary>
[HttpPost]
public void AddIndex(Post p)
{
// 添加到数据库并更新索引
    _searchEngine.Context.Post.Add(p);
    _searchEngine.SaveChanges();

//_luceneIndexer.Add(p); //单纯的只添加索引库
}

删除索引

/// <summary>
/// 删除索引
/// </summary>
[HttpDelete]
public void DeleteIndex(Post post)
{
//从数据库删除并更新索引库
    Post p = _searchEngine.Context.Post.Find(post.Id);
    _searchEngine.Context.Post.Remove(p);
    _searchEngine.SaveChanges();

//_luceneIndexer.Delete(p);// 单纯的从索引库移除
}

更新索引

/// <summary>
/// 更新索引库
/// </summary>
/// <param name="post"></param>
[HttpPatch]
public void UpdateIndex(Post post)
{
//从数据库更新并同步索引库
    Post p = _searchEngine.Context.Post.Find(post.Id);

// update...
    _searchEngine.Context.Post.Update(p);
    _searchEngine.SaveChanges();

//_luceneIndexer.Update(p);// 单纯的更新索引库
}

搜索

/// <summary>
/// 搜索
/// </summary>
/// <param name="s">关键词</param>
/// <param name="page">第几页</param>
/// <param name="size">页大小</param>
/// <returns></returns>
[HttpGet]
public IActionResult Index(string s, int page, int size)
{
var result = _searchEngine.ScoredSearch<Post>(new SearchOptions(s, page, size, typeof(Post)));
return Ok(result);
}
项目地址: https://github.com/ldqk/Masuit.LuceneEFCore.SearchEngine

- End -

专注分享编程知识、热门有用有趣的开源项目

相关文章
|
2月前
|
自然语言处理 搜索推荐 算法
基于Lucene的搜索引擎的设计与实现
基于Lucene的搜索引擎的设计与实现
25 0
|
自然语言处理 算法 搜索推荐
给全文搜索引擎Manticore (Sphinx) search 增加中文分词
Sphinx search 是一款非常棒的开源全文搜索引擎,它使用C++开发,索引和搜索的速度非常快,我使用sphinx的时间也有好多年了。最初使用的是coreseek,一个国人在sphinxsearch基础上添加了mmseg分词的搜索引擎,可惜后来不再更新,sphinxsearch的版本太低,bug也会出现;后来也使用最新的sphinxsearch,它可以支持几乎所有语言,通过其内置的ngram tokenizer对中文进行索引和搜索。
3937 0
|
9月前
|
数据采集 存储 Java
02Lucene实现全文检索的流程
02Lucene实现全文检索的流程
23 0
|
存储 搜索推荐 Java
全文搜索引擎 Lucene Solr ElasticSearch 关系?
全文搜索引擎是目前广泛应用的主流搜索引擎。它的工作原理是计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。
全文搜索引擎 Lucene Solr ElasticSearch 关系?
|
存储 自然语言处理 搜索推荐
|
缓存 监控 搜索推荐
一种基于Lucene的实时搜索服务
因为本文篇幅有限,在这里我只会着重介绍:实时性、高可用性在我们产品中的一些技术实践。 实时解决方案 在介绍我们产品方案之前,首先介绍下业内常见的实时解决方案,见图1-1实时架构图: ![P1](http://img3.
5931 0
|
算法 大数据 Java
《从Lucene到Elasticsearch:全文检索实战》已出版!
一、前言 决定在CSDN写博客的原因是想把自己解决过的问题、踩过的坑、总结出来的经验记录下来,作为编程之路的“笔记本”,同时也能给遇到同样问题的人提供参考、节省时间,写书的初衷也一样。
1860 0

热门文章

最新文章

  • 1
    流量控制系统,用正则表达式提取汉字
    27
  • 2
    Redis09-----List类型,有序,元素可以重复,插入和删除快,查询速度一般,一般保存一些有顺序的数据,如朋友圈点赞列表,评论列表等,LPUSH user 1 2 3可以一个一个推
    27
  • 3
    Redis08命令-Hash类型,也叫散列,其中value是一个无序字典,类似于java的HashMap结构,Hash结构可以将对象中的每个字段独立存储,可以针对每字段做CRUD
    27
  • 4
    Redis07命令-String类型字符串,不管是哪种格式,底层都是字节数组形式存储的,最大空间不超过512m,SET添加,MSET批量添加,INCRBY age 2可以,MSET,INCRSETEX
    28
  • 5
    S外部函数可以访问函数内部的变量的闭包-闭包最简单的用不了,闭包是内层函数+外层函数的变量,简称为函数套函数,外部函数可以访问函数内部的变量,存在函数套函数
    25
  • 6
    Redis06-Redis常用的命令,模糊的搜索查询往往会对服务器产生很大的压力,MSET k1 v1 k2 v2 k3 v3 添加,DEL是删除的意思,EXISTS age 可以用来查询是否有存在1
    31
  • 7
    Redis05数据结构介绍,数据结构介绍,官方网站中看到
    22
  • 8
    JS字符串数据类型转换,字符串如何转成变量,+号只要有一个是字符串,就会把另外一个转成字符串,- * / 都会把数据转成数字类型,数字型控制台是蓝色,字符型控制台是黑色,
    20
  • 9
    JS数组操作---删除,arr.pop()方法从数组中删除最后一个元素,并返回该元素的值,arr.shift() 删除第一个值,arr.splice()方法,删除指定元素,arr.splice,从第一
    21
  • 10
    定义好变量,${age}模版字符串,对象可以放null,检验数据类型console.log(typeof str)
    20