深蓝词库转换1.3版本发布——增强单词注音功能

简介:

“深蓝词库转换”是我在闲暇时写的一个词库转换程序,实现了各种输入法的用户词库、网络词库(细胞词库)之间的相互转换。

目前支持的输入法有:

PC端:

*搜狗拼音

*QQ拼音

*QQ五笔(纯汉字)

*谷歌拼音

*搜狗五笔

*紫光拼音

*拼音加加

手机端:

*QQ手机拼音

*百度手机拼音 

由于工作和个人的原因,所以深蓝词库转换很久很久没有更新了,趁着这个国庆有时间,所以对该小程序做了下版本更新,主要更新的功能有:

1.增强了单词注音功能。

有些词库是只有汉字而完全没有拼音的词库,这种词库要转换成我们想要的词库,那么就会遇到一个多音字的问题,我以前的版本就是采用简单粗暴的办法来对付多音字,多音字直接使用一个默认注音,或者就干脆把所有多音字的拼音都显示出来,形成多个词条。

现在我对程序进行了改进,默认维护了一个多音字的词库,可以自动找到大部分多音字的正确读音。比如我们有以下这样一个词库需要转换:

音乐就是快乐 
调和不能变调 
我要骑我的坐骑 
收藏的藏语书 
刚正不阿的阿楠 
子弹与弹簧 
参与挖人参计划 
三人行银行 
曾经的曾国藩

使用1.3版的深蓝词库转换,将这个词库转换为搜狗拼音词库的界面如图所示:

image

从截图中可以看到,无论是“音乐”还是“快乐”,无论是“子弹”还是“弹簧”基本上都可以找到正确的读音。

2.外挂注音词库

能够实现上面正确注音是因为有一个默认的多音字注音词库,但是这个词库并不是很大很全,如果遇到一些没有维护在其中的多音字词,那么系统就会采用默认的拼音,那么就有可能是错误的。比如我们在维护一个关于各种参的词库,词库内容是:

人参 
花旗参 
党参 
沙参 
西洋参 
高丽参

转换的结果如图所示:

image

我们可以发现,第二个词“花旗参”的注音错误了,因为系统自带注音库中没有找到这个词,所以采用了默认的注音“can”,对于这种发现的注音错误,我们可以自己维护一个注音库,命名为“pinyin.txt”,放在该转换程序的同一个目录下,然后从新运行该词库,系统将会使用这个注音库中的词。这个注音库的格式采用搜狗拼音输入法的txt词库导出格式,一个词一行。在pinyin.txt中输入“'hua'qi'shen 花旗参”并保存,重新运行该程序,可以得到我们想要的结果:

image

3.不显示转换后的结果,直接导出。

在进行大批量数据的词库转换时,有一个性能上的问题,就是将几十万或者几百万条词条显示在下面的文本框中会非常消耗资源,其实这个显示是没有必要的,我们可以直接导出转换后的词库到硬盘上即可,而减少显示这个环节。

在“高级设置”菜单中选中“不显示结果,直接导出”这个选项:

image

然后再选择词库,点击“转换”按钮,即可直接导出词库。如图所示:

image

 

1.3版下载地址在此。

我一直将这个项目开源,您对源代码感兴趣可以查看,地址为http://code.google.com/p/imewlconverter/ 

另外,QQ分类词库(QPYD格式)我研究了一下,没有研究出来,不知道该怎么解析,希望有高手能够帮忙指点指点。如果能够把QQ分类词库给导出,那就更完美了。

本文转自深蓝居博客园博客,原文链接:http://www.cnblogs.com/studyzy/archive/2010/10/08/imewlconverter_13_release.html,如需转载请自行联系原作者

相关文章
|
自然语言处理 算法 搜索推荐
解锁搜索新境界!让文本语义匹配助你轻松找到你需要的一切!(快速上手baseline)
解锁搜索新境界!让文本语义匹配助你轻松找到你需要的一切!(快速上手baseline)
解锁搜索新境界!让文本语义匹配助你轻松找到你需要的一切!(快速上手baseline)
|
3月前
|
小程序 Linux Python
查找首字母与Python相关的的英文词汇小程序的续篇---进一步功能完善
查找首字母与Python相关的的英文词汇小程序的续篇---进一步功能完善
33 1
|
机器学习/深度学习 自然语言处理 安全
【网安专题11.8】14Cosco跨语言代码搜索代码: (a) 训练阶段 相关程度的对比学习 对源代码(查询+目标代码)和动态运行信息进行编码 (b) 在线查询嵌入与搜索:不必计算相似性
【网安专题11.8】14Cosco跨语言代码搜索代码: (a) 训练阶段 相关程度的对比学习 对源代码(查询+目标代码)和动态运行信息进行编码 (b) 在线查询嵌入与搜索:不必计算相似性
288 0
|
8月前
EndNote论文参考文献中文文章与英文文章前后顺序修改排列方法
EndNote论文参考文献中文文章与英文文章前后顺序修改排列方法
254 1
|
人工智能 自然语言处理 算法
Similarities:精准相似度计算与语义匹配搜索工具包,多维度实现多种算法,覆盖文本、图像等领域,支持文搜、图搜文、图搜图匹配搜索
Similarities:精准相似度计算与语义匹配搜索工具包,多维度实现多种算法,覆盖文本、图像等领域,支持文搜、图搜文、图搜图匹配搜索
Similarities:精准相似度计算与语义匹配搜索工具包,多维度实现多种算法,覆盖文本、图像等领域,支持文搜、图搜文、图搜图匹配搜索
EndNote调整中文、英文参考文献的排列先后顺序
本文介绍在EndNote软件中,使得参考文献按照语种排列,中文在前、英文在后的方法~
1192 1
|
机器学习/深度学习 人工智能 算法
纠错数据标注,只需一行代码:开源项目Cleanlab发布了2.0版本
纠错数据标注,只需一行代码:开源项目Cleanlab发布了2.0版本
235 0
|
机器学习/深度学习 编解码 自然语言处理
错字修改 | 布署1个中文文文本拼蟹纠错模型
错字修改 | 布署1个中文文文本拼蟹纠错模型
330 0
实现一个通用的中英文排序工具
利用Collator类可以轻松实现排序,但是我们可能有各种model都需要进行排序,这样就会有一个问题,如果单独为每个model写一段排序代码,代码重复量很大。 所以我打算写一个通用的工具,使用泛型+注解+反射的方式来解决。
219 0

热门文章

最新文章

下一篇
开通oss服务