基于字典的【正向最大减字】分词算法实现-阿里云开发者社区

基于字典的【正向最大减字】分词算法实现

2017-08-17 1123

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

基于字典的的正向最大减字匹配算法，在《搜索引擎原理、技术与系统》提到过，可以说是最简单的中文分词算法之一。本文简要介绍实现过程，并附上实现源代码，一起学习。该算法实现主要是基于一个词典，进行分词，所以词典质量直接影响分词的结果。但是算法上也存在一些硬伤，举个例子，”参加过世界杯的选手”。无论用多丰富的词典，此算法均会分成“参加过世界杯的选手”。

词典

词典采用GBK编码，格式为“ID SP 词语 SP 频率”（点击这里下载），只需要读取每一行，拿到两个空格（SP）之间的词语，然后放到一个C++ STL的set对象即可。在加载词典的同时，可以算出最大词长nMaxWordLen，这个值会在后面的分词使用到。

分词

从句子的最左边开始，逐字节遍历。每次分词时，首先截取nMaxWordLen个字节，并在词典中搜寻,如果找到了，就分词。如果找不到，就递减字节，如此往复，直到只剩下一个字节为止，这时就判断是ASCII还是汉字，如果是前者，直接分割，后者就将当前字节和下一个字节一起分割。这样直到遍历完所有字节。

代码

 
         /*
        
         * dict_seg.cpp 
        
         * 基于字典的分词 
        
         *  Created on: 2012-6-16 
        
         *      Author: bourneli 
        
         */ 
        
         #include <string>
        
         #include <iostream>
        
         #include <fstream>
        
         #include <set>
        
         #include <vector>
        
         using 
         namespace 
         std; 
        
         #define NL 0x0A         // new line
        
         #define CR 0x0D         // carrige return
        
         #define SP 0x20         // space
        
         #define GBK_HB_MIN      0x80    // minimum of gbk high byte
        
         #define DICT_PATH       "words.gbk.dict"        // 字典路径
        
         #define TEXT_PATH       "sentence.txt"           // 句子文本路径
        
         /**
        
         * 加载词典 
        
         * @param string sDictPath 字典路径 
        
         * @param set<string> oDict 字典 
        
         * @param int nMaxLen 字典中的最长词的字节数 
        
         */ 
        
         void 
         LoadDictionary(
         const 
         string& sDictPath, set<string>& oDict, 
         int
         & nMaxLen); 
        
         /**
        
         * 采用基于词典的最大正向匹配分词 
        
         * @param string sSen 需要分词的句子 
        
         * @param set<string> 字典 
        
         * @param int 字典中的最长词的字节数 
        
         * @param vector<string> 分词后的结果 
        
         */ 
        
         void 
         SegmentSentence(
         const 
         string& sSen, 
         const 
         set<string>& oDict, 
         int 
         nMaxLen, vector<string>& vecWords); 
        
         int 
         main(
         int 
         argc ,
         char
         ** argv) { 
        
         set<string> oDict; 
        
         int 
         nMax = 0; 
        
         LoadDictionary(DICT_PATH, oDict, nMax); 
        
         // 获取句子 
        
         ifstream oReader(TEXT_PATH); 
        
         if 
         (!oReader.is_open()) { 
        
         cout << 
         "Fail to open file : " 
         << TEXT_PATH; 
        
         } 
        
         string sSen = 
         ""
         ; 
        
         getline(oReader, sSen); 
        
         oReader.close(); 
        
         cout << 
         "Original Sentence: " 
         << sSen << endl; 
        
         /** 
        
         * 采用正向最大匹配规则分词 
        
         */ 
        
         vector<string> vecSeg; 
        
         SegmentSentence(sSen, oDict, nMax, vecSeg); 
        
         // 输出分词结果 
        
         cout << 
         "Segment: "
         ; 
        
         for 
         (vector<string>::const_iterator cItr = vecSeg.begin(); cItr != vecSeg.end(); ++cItr) { 
        
         cout << *cItr << 
         " "
         ; 
        
         } 
        
         cout << endl; 
        
         return 
         0; 
        
         }
        
         void 
         SegmentSentence(
         const 
         string& sSen, 
         const 
         set<string>& oDict, 
         int 
         nMaxWordLen, vector<string>& vecWords){ 
        
         // 遍历每一个字节（不是汉字） 
        
         for 
         (string::const_iterator cItr = sSen.begin(); cItr < sSen.end();) { 
        
         int 
         nWordLen = (cItr + nMaxWordLen) <= sSen.end() ? nMaxWordLen : (sSen.end() - cItr); 
        
         while 
         (nWordLen > 1) { 
        
         string sWord(cItr, cItr + nWordLen); 
        
         if 
         (oDict.find(sWord) != oDict.end()) { 
        
         // 字典中找到此对象 
        
         vecWords.push_back(sWord); 
        
         break
         ; 
        
         } 
         else 
         { 
        
         nWordLen -= 1; 
         // 这个地方可以根据GBK编码规则优化 
        
         } 
        
         } 
        
         // 跟新当前索引 
        
         if 
         (nWordLen == 1 && GBK_HB_MIN <= 
         static_cast
         <unsigned 
         char
         >(*cItr)) { 
        
         // 添加当前的单个汉字，gbk由两个byte组成 
        
         vecWords.push_back(string(cItr, cItr + 2)); 
        
         cItr += 2; 
        
         } 
         else 
         if 
         (nWordLen == 1 && GBK_HB_MIN > 
         static_cast
         <unsigned 
         char
         >(*cItr)) { 
        
         // 添加当前的ascii码 
        
         vecWords.push_back(string(1, *cItr)); 
        
         cItr += 1; 
        
         } 
         else 
         { 
        
         cItr += nWordLen; 
        
         } 
        
         } 
        
         }
        
         void 
         LoadDictionary(
         const 
         string& sDictPath, set<string>& oDict, 
         int
         & nMaxWordLen) { 
        
         // 加载字典 
        
         ifstream oReader(sDictPath.c_str()); 
        
         if 
         (!oReader.is_open()) { 
        
         cout << 
         "Fail to open file : " 
         << DICT_PATH << endl; 
        
         exit
         (0); 
        
         } 
        
         string sLine; 
        
         nMaxWordLen = 0; 
        
         while 
         (getline(oReader, sLine)) { 
        
         //cout << "Current Line :" << sLine << endl; // debug 
        
         /** 
        
         * 字典的每一行格式为： 
        
         * ID SP 词语 SP 频率 
        
         * 
        
         * 只有两个空格（SP）之间的词语需要添加到本字典中 
        
         */ 
        
         // 达到第一个空格 
        
         int 
         nSpOffset = 0; 
        
         for 
         (string::const_iterator cItr = sLine.begin(); cItr != sLine.end(); ++cItr, ++ nSpOffset) { 
        
         if 
         (SP == *cItr) { 
        
         break
         ; 
        
         } 
        
         } 
        
         // 读取词语 
        
         string sWord(
         ""
         ); 
        
         for 
         (string::const_iterator cItr = sLine.begin() + nSpOffset + 1; cItr != sLine.end(); ++cItr) { 
        
         if 
         (SP == *cItr) { 
        
         // 遇到第二个空格，断开 
        
         break
         ; 
        
         } 
        
         sWord.append(1, *cItr); 
        
         if 
         (GBK_HB_MIN <= 
         static_cast
         <unsigned 
         char
         >(*cItr)) { 
        
         // 针对GBK编码特殊处理，避免截断词语 
        
         ++ cItr; 
        
         if 
         (cItr != sLine.end()) { 
        
         sWord.append(1, *cItr); 
        
         } 
         else 
         { 
        
         cout << 
         "line format error: '" 
         << sLine << 
         "'" 
         << endl; 
        
         exit
         (0); 
        
         } 
        
         } 
        
         } 
        
         // 将此与添加到字典中 
        
         if 
         (
         "" 
         != sWord) { 
        
         if 
         (!oDict.insert(sWord).second) { 
        
         cout << 
         "Word conflict: " 
         << sWord << endl; 
        
         exit
         (0); 
        
         } 
        
         } 
        
         // 比较最长字长 
        
         if 
         (nMaxWordLen < sWord.size()) { 
        
         nMaxWordLen = sWord.size(); 
        
         } 
        
         } 
        
         oReader.close(); 
        
         }

声明：如有转载本博文章，请注明出处。您的支持是我的动力！文章部分内容来自互联网，本人不负任何法律责任。

本文转自bourneli博客园博客，原文链接： http://www.cnblogs.com/bourneli/archive/2012/06/29/2570432.html ，如需转载请自行联系原作者

基于字典的【正向最大减字】分词算法实现

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

基于字典的【正向最大减字】分词算法实现

热门文章

最新文章

相关课程

相关电子书

相关实验场景