"
本来我要添加一些新的词汇进分词字典但是我怎么搞也搞不出来
工程结构如下
![image.png](https://ucc.alicdn.com/pic/developer-ecology/698ec69a0a9941ea88df1e31804d5e5c.png) ext_stopword.dic 如下我 也 了 仍 从 以 使 则 却 又 及 对 就 并 很 或 把 是 的 着 给 而 被 让 在 还 比 等 当 与 于 但 帅 丝 mydict.dic 如下 高富帅 屌丝 IKAnalyzer.cfg.xml 如下
IK Analyzer 扩展配置 /mydict.dic; /ext_stopword.dic 程序代码(scala) package com.nineteenlou import org.wltea.analyzer.{Lexeme, IKSegmentation} import java.util.{List=>JavaList, ArrayList => JavaArrayList} import java.util.{Arrays=> JavaArrays} import java.net.URL import java.io.{Writer, FileWriter, File, StringReader}/** * author: eric * Date: 12-5-18 * Time: 下午12:41 */
object WordAnalyzer { def doAnalyzeStatement(statement: String): Array[String] = { val reader: StringReader = new StringReader(statement) val wordsSegment: IKSegmentation = new IKSegmentation(reader) var oneWord: Lexeme = wordsSegment.next() var test = (oneWord != null); var result : JavaList[String] = new JavaArrayList[String] while(test){ result.add(oneWord.getLexemeText) oneWord = wordsSegment.next() test = (oneWord != null) } result.toArray(new ArrayString) }
def main(args: Array[String]): Unit = { val strs = doAnalyzeStatement("我不是高富帅是个屌丝") strs.foreach(println) }
} 运行结果 不是 高 富 帅 个 屌 丝
安装goldendict词典软件,开源词典软件,免费,无版权,随意更改,速度快,无广告,简洁,词库自由分享,手机电脑通用词库(软件本身不自带词 库,原因是维护团队搞不好要赔钱),词典软件支持Windows,Mac,Linux,Android,IOS.网上很多可以用的词库,与普通词典的内容 一样,而且还可以下载到离线的wi-ki-百科并且使用.同类软件有Mdict(国内开源词典软件,功能不全,只是英语,东亚,东南亚语种词库 多),Bluedict(国内开源软件,同样功能不全,而且支持格式少).找词库可以通过google搜索(全部语种),可以去babylon(简版词 典,专业词典),可以去PDAWIKI论坛(英语,东亚语种,东南亚语种,包括汉语);搜索词库可以用英文搜索,可以用中文搜索(中文搜索的小语种词库资 源少);专业词典要去babylon和某些国内网站还有某些俄罗斯论坛去下载.词库有无图片无发音的词库,很小,20M左右;有图片有发音的词库至少
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。