一、完全切分式的中文分词算法
严格意义上,并不是真正的分词算法,极不准确
案例
代码如下:
/** * 完全切分式的中文分词算法 * * @param text 待分词的文本 * @param dictionary 词典 * @return 单词列表 */ public static List<String> segmentFully(String text, Map<String, CoreDictionary.Attribute> dictionary) { List<String> wordList = new LinkedList<String>(); for (int i = 0; i < text.length(); ++i) { for (int j = i + 1; j <= text.length(); ++j) { String word = text.substring(i, j); if (dictionary.containsKey(word)) { wordList.add(word); } } } return wordList; }
二、正向最长匹配的中文分词算法
前面的案例可见,会列出所有情况,显然不是我们想要的结果,将结果中最长保留,且是左侧最长保留,直接结果和代码演示:
代码:
/** * 正向最长匹配的中文分词算法 * * @param text 待分词的文本 * @param dictionary 词典 * @return 单词列表 */ public static List<String> segmentForwardLongest(String text, Map<String, CoreDictionary.Attribute> dictionary) { List<String> wordList = new LinkedList<String>(); for (int i = 0; i < text.length(); ) { String longestWord = text.substring(i, i + 1); for (int j = i + 1; j <= text.length(); ++j) { String word = text.substring(i, j); if (dictionary.containsKey(word)) { if (word.length() > longestWord.length()) { longestWord = word; } } } wordList.add(longestWord); i += longestWord.length(); } return wordList; }
可以发现,前半句分词正确,而后半句分词明显不是我们想要的
如果还是不太明白为何强调正向,继续往下看,反向的看完,再回头理解
三、逆向最长匹配的中文分词算法
逆向的结果展示给你们看
代码:
/** * 逆向最长匹配的中文分词算法 * * @param text 待分词的文本 * @param dictionary 词典 * @return 单词列表 */ public static List<String> segmentBackwardLongest(String text, Map<String, CoreDictionary.Attribute> dictionary) { List<String> wordList = new LinkedList<String>(); for (int i = text.length() - 1; i >= 0; ) { String longestWord = text.substring(i, i + 1); for (int j = 0; j <= i; ++j) { String word = text.substring(j, i + 1); if (dictionary.containsKey(word)) { if (word.length() > longestWord.length()) { longestWord = word; } } } wordList.add(0, longestWord); i -= longestWord.length(); } return wordList; }
在这里发现前半句错误,后半句正确了,所以这就是为什么有逆向的算法,但同时也说明了,不管是正向还是逆向都是不一定完全得到正确结果的,此时,相信你们跟我一样,想到了正向逆向相结合,嘿,还真有
四、双向最长匹配的中文分词算法
话不多说,直接演示结果和代码
代码:
/** * 统计分词结果中的单字数量 * * @param wordList 分词结果 * @return 单字数量 */ public static int countSingleChar(List<String> wordList) { int size = 0; for (String word : wordList) { if (word.length() == 1) ++size; } return size; } /** * 双向最长匹配的中文分词算法 * * @param text 待分词的文本 * @param dictionary 词典 * @return 单词列表 */ public static List<String> segmentBidirectional(String text, Map<String, CoreDictionary.Attribute> dictionary) { List<String> forwardLongest = segmentForwardLongest(text, dictionary); List<String> backwardLongest = segmentBackwardLongest(text, dictionary); if (forwardLongest.size() < backwardLongest.size()) return forwardLongest; else if (forwardLongest.size() > backwardLongest.size()) return backwardLongest; else { if (countSingleChar(forwardLongest) < countSingleChar(backwardLongest)) return forwardLongest; else return backwardLongest; } }
这里前半句还不是想要的,但不代表算法无用 ,这里直接取用何晗大佬原文中的例子如下:
速度测评
研究分词的意义不在于精度而在于速度。直接上何晗大佬的图,大家进行阅读理解一下即可。
附上我 java环境下跑的图:
/** * 评测速度 * * @param dictionary 词典 */ public static void evaluateSpeed(Map<String, CoreDictionary.Attribute> dictionary) { String text = "江西鄱阳湖干枯,中国最大淡水湖变成大草原"; long start; double costTime; final int pressure = 10000; System.out.println("正向最长"); start = System.currentTimeMillis(); for (int i = 0; i < pressure; ++i) { segmentForwardLongest(text, dictionary); } costTime = (System.currentTimeMillis() - start) / (double) 1000; System.out.printf("%.2f万字/秒\n", text.length() * pressure / 10000 / costTime); System.out.println("逆向最长"); start = System.currentTimeMillis(); for (int i = 0; i < pressure; ++i) { segmentBackwardLongest(text, dictionary); } costTime = (System.currentTimeMillis() - start) / (double) 1000; System.out.printf("%.2f万字/秒\n", text.length() * pressure / 10000 / costTime); System.out.println("双向最长"); start = System.currentTimeMillis(); for (int i = 0; i < pressure; ++i) { segmentBidirectional(text, dictionary); } costTime = (System.currentTimeMillis() - start) / (double) 1000; System.out.printf("%.2f万字/秒\n", text.length() * pressure / 10000 / costTime); }
Python的代码不做演示以及测评了,本人以java为学习hanlp的主学习语言,之后的章节也会如此,需要Python代码的,直接去何晗大佬的GitHub下载即可。其实触类旁通,相信大家已经开始学习自然语言处理,这些都不是问题,我们在于去弄懂原理,而不在于搞明白语言之间的区别,如果何晗大佬给出C的库,也是同样的道理去解决。