jieba.NET与Lucene.Net的集成

简介:

首先声明:我对Lucene.Net并不熟悉,但搜索确实是分词的一个重要应用,所以这里还是尝试将两者集成起来,也许对你有一参考。

看到了两个中文分词与Lucene.Net的集成项目:Lucene.Net.Analysis.PanGuLucene.Net.Analysis.MMSeg,参考其中的代码实现了最简单的集成:jiebaForLuceneNet。下面给出简单的介绍。

1、JiebaTokenizer

主要的集成点是自定义一个Tokenizer的子类,此时必须要实现它的抽象方法IncrementToken,该方法用于对文本流中的文本生成的token进行遍历,这正是分词组件发挥作用的地方。

复制代码
public override bool IncrementToken()
{
    ClearAttributes();
    position++;
    if (position < tokens.Count)
    {
        var token = tokens[position];
        termAtt.SetTermBuffer(token.Word);
        offsetAtt.SetOffset(token.StartIndex, token.EndIndex);
        typeAtt.Type = "Jieba";
        return true;
    }

    End();
    return false;
}
复制代码

termAtt和offsetAtt所在的两行代码需要用到每一个token的词本身、起始索引和终止索引,而这三个值恰好是JiebaSegmenter.Tokenize方法所实现的,所以只要在初始化JiebaTokenizer时使用:

tokens = segmenter.Tokenize(text, TokenizerMode.Search).ToList();

就可以得到所有分词所得的token,另外TokenizerMode.Search参数使得Tokenize方法的结果中包含更全面的分词结果,比如“语言学家”会得到四个token,即“[语言, (0, 2)], [学家, (2, 4)], [语言学, (0, 3)], [语言学家, (0, 4)]”,这在创建索引和搜索时都很有帮助。

2、JiebaAnalyzer

Tokenizer类实现分词,而添加索引和搜索需要的是Analyzer,JiebaAnalyzer只要调用JiebaTokenizer即可。

复制代码
public override TokenStream TokenStream(string fieldName, TextReader reader)
{
    var seg = new JiebaSegmenter();
    TokenStream result = new JiebaTokenizer(seg, reader);
    // This filter is necessary, because the parser converts the queries to lower case.
    result = new LowerCaseFilter(result);
    result = new StopFilter(true, result, StopWords);
    return result;
}
复制代码

除了JiebaTokenizer,JiebaAnalyzer还会用到LowerCaseFilterStopFilter。前者可将索引和搜索的内容正则化,忽略大小写,后者则过滤掉停用词。这里使用的停用词列表合并了NLTK的英文停用词和哈工大的中文停用词。

3、创建索引和搜索

创建索引时,IndexWriter要使用JiebaAnalyzer的实例:

复制代码
var analyzer = new JiebaAnalyzer();

using (var writer = new IndexWriter(Directory, analyzer, IndexWriter.MaxFieldLength.UNLIMITED))
{
    // replaces older entry if any
    foreach (var sd in data)
    {
        AddToLuceneIndex(sd, writer);
    }

    analyzer.Close();
}
复制代码

搜索的时候,先将用户的输入分词:

复制代码
private static string GetKeyWordsSplitBySpace(string keywords, JiebaTokenizer tokenizer)
{
    var result = new StringBuilder();

    var words = tokenizer.Tokenize(keywords);

    foreach (var word in words)
    {
        if (string.IsNullOrWhiteSpace(word.Word))
        {
            continue;
        }

        result.AppendFormat("{0} ", word.Word);
    }

    return result.ToString().Trim();
}
复制代码

比如如果用户输入的是“语言学家”,那么该函数的返回值是“语言 学家 语言学 语言学家”,为后面的搜索做好准备(另外,我们还可以为每个词加上一个*,这样只要部分匹配就可以搜到结果)。最后的搜索实现是:

复制代码
private static IEnumerable<News> SearchQuery(string searchQuery, string searchField = "")
{
    if (string.IsNullOrEmpty(searchQuery.Replace("*", "").Replace("?", "")))
    {
        return new List<News>();
    }

    using (var searcher = new IndexSearcher(Directory, false))
    {
        var hitsLimit = 1000;
        //var analyzer = new StandardAnalyzer(Version.LUCENE_30);
        var analyzer = GetAnalyzer();

        if (!string.IsNullOrEmpty(searchField))
        {
            var parser = new QueryParser(Version.LUCENE_30, searchField, analyzer);
            var query = ParseQuery(searchQuery, parser);
            var hits = searcher.Search(query, hitsLimit).ScoreDocs;
            var results = MapLuceneToDataList(hits, searcher);

            analyzer.Dispose();
            return results;
        }
        else
        {
            var parser = new MultiFieldQueryParser(Version.LUCENE_30, new[] { "Id", "Title", "Content" }, analyzer);
            var query = ParseQuery(searchQuery, parser);
            var hits = searcher.Search(query, null, hitsLimit, Sort.RELEVANCE).ScoreDocs;
            var results = MapLuceneToDataList(hits, searcher);

            analyzer.Close();
            return results;
        }
    }
}
复制代码

这里的searchField参数可以指定特定字段进行搜索,如果为空,则对所有字段进行搜索。至此实现了最基本的集成。

JiebaTokenizer、JiebaAnalyzer的实现和示例代码都可在jiebaForLuceneNet找到。

4、Luke.Net

Luke.Net可以查看Lucene.Net生成的索引内容,这在开发和调试Lucene的时候会特别有帮助。

 

参考:

Lucene.Net ultra fast search for MVC or WebForms site

Lucene.Net – Custom Synonym Analyzer

https://github.com/JimLiu/Lucene.Net.Analysis.PanGu

http://pangusegment.codeplex.com/wikipage?title=PanGu4Lucene

http://luke.codeplex.com/releases/view/82033


本文转自一个程序员的自省博客园博客,原文链接:http://www.cnblogs.com/anderslly/p/jiebanet-lucenenet.html,如需转载请自行联系原作者

目录
相关文章
|
6月前
|
XML 开发框架 .NET
ASP.NET COR3.1 集成日志插件NLog
ASP.NET COR3.1 集成日志插件NLog
79 0
|
6月前
|
XML SQL 开发框架
|
10天前
|
人工智能 API C#
使用Microsoft.Extensions.AI简化.NET中的AI集成
使用Microsoft.Extensions.AI简化.NET中的AI集成
使用Microsoft.Extensions.AI简化.NET中的AI集成
|
3月前
|
jenkins 测试技术 持续交付
解锁.NET项目高效秘籍:从理论迷雾到实践巅峰,持续集成与自动化测试如何悄然改变游戏规则?
【8月更文挑战第28天】在软件开发领域,持续集成(CI)与自动化测试已成为提升效率和质量的关键工具。尤其在.NET项目中,二者的结合能显著提高开发速度并保证软件稳定性。本文将从理论到实践,详细介绍CI与自动化测试的重要性,并以ASP.NET Core Web API项目为例,演示如何使用Jenkins和NUnit实现自动化构建与测试。每次代码提交后,Jenkins自动触发构建流程,通过编译和运行NUnit测试确保代码质量。这种方式不仅节省了时间,还能快速发现并解决问题,推动.NET项目开发迈向更高水平。
51 8
|
3月前
|
开发框架 .NET 数据库连接
闲话 Asp.Net Core 数据校验(三)EF Core 集成 FluentValidation 校验数据例子
闲话 Asp.Net Core 数据校验(三)EF Core 集成 FluentValidation 校验数据例子
|
2月前
|
存储 开发框架 前端开发
ASP.NET MVC 迅速集成 SignalR
ASP.NET MVC 迅速集成 SignalR
61 0
|
3月前
|
Java Spring UED
Spring框架的异常处理秘籍:打造不败之身的应用!
【8月更文挑战第31天】在软件开发中,异常处理对应用的稳定性和健壮性至关重要。Spring框架提供了一套完善的异常处理机制,包括使用`@ExceptionHandler`注解和配置`@ControllerAdvice`。本文将详细介绍这两种方式,并通过示例代码展示其具体应用。`@ExceptionHandler`可用于控制器类中的方法,处理特定异常;而`@ControllerAdvice`则允许定义全局异常处理器,捕获多个控制器中的异常。
52 0
|
3月前
|
开发框架 NoSQL .NET
使用 Asp.net core webapi 集成配置系统,提高程序的灵活和可维护性
使用 Asp.net core webapi 集成配置系统,提高程序的灵活和可维护性
|
6月前
|
JSON API 定位技术
.NET集成DeveloperSharp实现http网络请求&与其它工具的比较
该内容介绍了一个支持.NET Core 2.0及以上和.NET Framework 4.0及以上的HTTP请求调用方法,主要讨论了POST和GET两种形式。POST请求较为常见,涉及调用地址、发送参数、HTTP请求头和编码格式设置。文中提供了一个使用DeveloperSharp库发送POST请求的C#代码示例,用于发送短信,其中`IU.HttpPost`方法用于执行POST请求。此外,还提到了`HttpPost`方法的参数和返回值说明。最后简要提及了GET请求,通常用于URL带有查询参数的情况,并给出一个简单的GET请求示例。
|
6月前
|
IDE 前端开发 JavaScript
【C#】C# 开发环境配置(Rider 一个.NET 跨平台集成开发环境)
【1月更文挑战第26天】【C#】C# 开发环境配置(Rider 一个.NET 跨平台集成开发环境)
下一篇
无影云桌面