中文分词之Java实现使用IK Analyzer实现

简介: 中文分词之Java实现使用IK Analyzer实现
+关注继续查看

IK Analyzer是基于lucene实现的分词开源框架

需要在项目中引入:

IKAnalyzer2012FF_u1.jar --- FF 代表for lucene 4.0(four)

lucene-core-4.0.0.jar

示例代码如下(使用IK Analyzer):

package com.haha.test;  
  
import java.io.IOException;  
import java.io.StringReader;  
import org.apache.lucene.analysis.Analyzer;  
import org.apache.lucene.analysis.TokenStream;  
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;  
import org.wltea.analyzer.lucene.IKAnalyzer;  
  
public class Test2 {  
    public static void main(String[] args) throws IOException {  
        String text="基于java语言开发的轻量级的中文分词工具包";  
        //创建分词对象  
        Analyzer anal=new IKAnalyzer(true);       
        StringReader reader=new StringReader(text);  
        //分词  
        TokenStream ts=anal.tokenStream("", reader);  
        CharTermAttribute term=ts.getAttribute(CharTermAttribute.class);  
        //遍历分词数据  
        while(ts.incrementToken()){  
            System.out.print(term.toString()+"|");  
        }  
        reader.close();  
        System.out.println();  
    }  
  
}

运行后结果:

基于|java|语言|开发|的|轻量级|的|中文|分词|工具包|


目录
相关文章
|
6月前
|
自然语言处理 Java 数据库连接
|
8月前
|
分布式计算 Java Hadoop
Java实现单词计数MapReduce
本文分享实现单词计数MapReduce的方法
234 0
|
8月前
|
Java 数据安全/隐私保护
JAVA 实现上传图片添加水印(详细版)(上)
JAVA 实现上传图片添加水印(详细版)
571 0
JAVA 实现上传图片添加水印(详细版)(上)
|
8月前
|
Java
Java 实现汉字按照首字母分组排序
Java 实现汉字按照首字母分组排序
382 0
|
8月前
|
存储 Java
Java实现图书管理系统
本篇文章是对目前Java专栏已有内容的一个总结练习,希望各位小主们在学习完面向对象的知识后,可以阅览本篇文章后,自己也动手实现一个这样的demo来加深总结应用已经学到知识并进行巩固。
259 0
Java实现图书管理系统
|
8月前
|
Java Windows Spring
java实现spring boot项目启动时,重启Windows进程
java实现spring boot项目启动时,重启Windows进程
415 0
|
自然语言处理 Java
科大讯飞语音转文字以及中文分词的Java测试代码
科大讯飞语音转文字以及中文分词的Java测试代码
265 0
科大讯飞语音转文字以及中文分词的Java测试代码
|
机器学习/深度学习 自然语言处理 算法
|
机器学习/深度学习 自然语言处理 算法
|
自然语言处理 Java 索引
Java中文分词工具AnsjSeg使用
        中文分词是进行中文文本分析的一个重要步骤。对于Java语言,有许多可选的分词工具,如中科院计算所的NLPIR(原ICTCLASS)、盘古分词、IKAnalyzer、PaodingAnalyzer,其中,试...
1900 0
相关产品
云迁移中心
推荐文章
更多