深蓝词库转换1.8发布

简介:

经过一段时间网友提出的新的需求,鄙人利用闲暇时间对深蓝词库转换程序进行了升级,现将1.8版本发布。

老生常谈,深蓝词库转换是一款.Net 2.0平台的各输入法词库互转程序。有了这个工具,各种词库在各种输入法,PC和手机上都通用了。

目前支持的输入法有: PC端:

  • 搜狗拼音(文本词库和scel格式细胞词库)
  • QQ拼音(文本词库和qpyd格式分类词库)
  • QQ五笔(纯汉字)
  • 谷歌拼音
  • 搜狗五笔
  • 紫光拼音
  • 拼音加加
  • 新浪拼音
  • 极点郑码
  • 百度拼音(文本词库,bdict格式)
  • 微软拼音
  • 小小输入法(拼音)
  • 自定义格式

手机端:

  • QQ手机拼音
  • 百度手机拼音(文本词库和bcd格式)
  • 触宝手机输入法(Android)

下面介绍一下1.8版本中的新功能。

一、自定义编码库和格式的导出功能。

许多输入法并不使用标准的拼音编码,或者使用拼音编码但是格式与目前支持的这些输入法格式都不同,那么如果要生成这些输入法的词库,那就需要自定义编码库和格式的功能。

自定义的编码库文件是一个独立的文本文件,该文件中保存了每个汉字和对应的编码,格式为“汉字,编码”,每行一个汉字,汉字不允许重复。比如如下的内容是某编码库的一个片段。

阿,a5
啊,a5
呵,he5
腌,yan5
嗬,he5
嗄,a5
锕,a5

自定义编码可以在自定义输入输出时指定编码文件。

自定义格式支持单词、拼音(编码)、词频这3个元素的顺序设置,是否显示的设置和分隔符设置,以及拼音(编码)之间的分隔符设置。在深蓝词库转换工具中选择输出格式为“自定义”,然后配置“匹配规则”便可设置这些格式。如图所示:

image

单击确定回到自定义词库识别窗口,在源内容的文本框中我们可以输入任意的汉字,然后单击“测试编码”来测试这些汉字通过自定义编码文件后转码的结果。

image

好,这正是我们想要的编码和格式,然后单击确定回到主界面,单击转换按钮,即可将各种词库转换为我们自定义格式,自定义编码的词库文件。如图所示:

image

二、支持微软拼音扩展词库。

微软拼音输入法也是支持扩展词库的,这个词库的文件格式为dctx,其实是个XML格式的文件,可以用文本编辑器打开,双击即可安装该词库,词库下载地址是:

http://www.microsoft.com/china/pinyin/extend.aspx

文本查看微软拼音的扩展词库,里面的每个词像如下的内容:

<ns1:DictionaryEntry>
<ns1:InputString>an1 xin1 le4 yi4</ns1:InputString>
<ns1:OutputString>安心乐意</ns1:OutputString>
<ns1:Exist>1</ns1:Exist>
</ns1:DictionaryEntry>

很容易看出来,一个词条里面包含单词和拼音,拼音使用空格分割,而且拼音还有音调??!!!有音调也没什么,我找到了带音调的字典,也可以为每个字注意时带音调,但是坑爹的是,如果一个字的注音与微软拼音认为的注音不一致,那么导入就会失败,而且系统也不会提示具体哪儿不一致。而最最杯具的就是系统认可的注音是不全的,很多多音字的注音系统并不支持,所以虽然可以生成微软拼音的扩展词库,但是很有可能无法正确导入。

对此我很无语。如果需要将词库导成微软拼音的词库,建议大家还是先用本工具把词库转换为纯文本的词库文件,然后用一个Excel工具生成微软拼音的扩展词库。

该Excel工具参见:http://social.microsoft.com/Forums/zh-CN/2087/thread/bed7b7f5-bee4-46a2-b755-ba885860c2d5

三、增强控制台功能。

对于一些用户,需要批量自动的转换大量的词库,这就需要使用控制台的方式来转换。之前的版本中已经添加了控制台的功能,但是功能还比较弱,这个版本中对控制台功能进行了增强,可以在控制台中设置自定义格式,设置自定义编码等。具体使用方法可以在命令行下,输入"深蓝词库转换.exe -?"命令即可查看帮助。

image

四、支持百度手机分类词库bcd格式。

百度手机输入法的分类词库格式是bcd格式,和百度PC输入法的词库bdict格式有点不同,如果需要将bcd格式的词库文件导出成其他输入法词库,现在可以用本工具了。由于scel,qpyd,bdict,bcd等格式是二进制文件,所以目前只能做到对这些二进制文件进行解析,找出需要的字段,生成词库,而无法把文本词库生成这些二进制文件。

五、支持小小输入法。

小小输入法的词库导入功能也有点奇怪,我按照其格式生成了词库文件,然后导入,但是不一定能够被小小输入法使用。

题外话:

虽然我从未投递过,但在360的软件管家中居然也能搜到“深蓝词库转换”,不过可惜这样一款完全免费的、开源的软件在其中被恶意中伤,也不知怎么回事,我实在很无语。对于这些,我还是看淡些好,做一款开源的软件,能够有大量用户使用,能够偶尔收到一些感谢信,提出一些新需求,足矣!

image

本软件是开源软件,使用C#编写,需要.Net 2.0才能运行。软件网站:http://code.google.com/p/imewlconverter/

下载深蓝词库转换1.8

目录
相关文章
|
Java 关系型数据库 中间件
分库分表(3)——ShardingJDBC实践
分库分表(3)——ShardingJDBC实践
919 0
分库分表(3)——ShardingJDBC实践
|
存储 文字识别 算法
文字识别OCR常见问题之图片超过40M不返回结果如何解决
文字识别OCR(Optical Character Recognition)技术能够将图片或者扫描件中的文字转换为电子文本。以下是阿里云OCR技术使用中的一些常见问题以及相应的解答。
470 2
|
存储 供应链 大数据
医院HIS基层卫生健康云综合管理系统源码
护士站: 特点:住院护士站管理系统是住院护理的中心所在,它可实现病房的床位统一管理、医嘱校对、医嘱的执行、医嘱终止、重整医嘱、医嘱查询、健康日志、患者病历首页查询,转科、出院申请,病人在住院期间的信息管理、病房分类管理、对病房、患者信息、患者费用等相关信息的查询。
184 1
|
程序员
支付宝接口申请步骤
这是提供给客户申诉支付宝接口的说明:   1、申请taobao或支付宝帐号 申请地址:https://memberprod.alipay.com/account/reg/enterpriseIndex.htm2、填写账户信息3、企业实名认证4、注册成功5、开通“即时到帐收款”功能,申请地址:https://b.alipay.com/order/productDetail.htm?productId=2015110218012942 要求:5.1.申请前已完成支付宝账户实名认证; 5.2.企业类型及可提供营业执照的个体工商户可申请。
3052 0
|
6月前
|
存储 自然语言处理 安全
如何快速生成二维码,免费生成工具推荐
对于大多数个人和企业用户,首选草料二维码,简单免费,且是创立时间最长、用户量最大、口碑最好的二维码生成器,市面上80%的二维码都由其生成。如果对于有出海需求的电商用户,可以选择二维码彩虹。GoQR.me更适合快速生成简单二维码或批量生成。Unitag则适合希望深入定制的专业用户,但操作难度相对较高
如何快速生成二维码,免费生成工具推荐
|
11月前
|
NoSQL Shell MongoDB
Windows 平台安装 MongoDB
10月更文挑战第10天
308 0
Windows 平台安装 MongoDB
|
9月前
|
存储 数据挖掘 数据库
虚拟化数据恢复—VMFS简介&误删除虚拟机的数据恢复案例
物理区:物理上连续的磁盘空间,即通常意义上的分区。 本地区:VMFS管理的物理区分为保留区和本地区,前面一部分是保留区,后面部分是本地区。本地区又分为元文件区和数据区。 元文件:与NTFS的元文件类似,属于FS的管理用数据。VMFS有6个元文件:.VH.SF/.FBB.SF/.FDC.SF/.SBC.SF/.PBC.SF/.PB2.SF。 元文件区:6个元文件占用的所有空间,在本地区的前面部分。 数据区:用于存放文件数据。 datastore:在ESX服务器上看到的VMFS存储空间。 LV:logical volume,所指的范围其实和本地区一样,即虚拟化卷。 LVM逻辑卷组:用来管理跨dis
|
11月前
|
分布式计算 大数据 Hadoop
大数据学习
【10月更文挑战第2天】大数据学习
401 16
|
11月前
|
人工智能
智谱 AI 大模型
智谱是清华大学技术成果转化公司,推出中英双语千亿级大模型 GLM-130B、对话模型 ChatGLM、开源模型 ChatGLM-6B、AI 提效助手智谱清言、高效率代码模型 CodeGeeX、多模态理解模型 CogVLM、文生图模型 CogView 和文生视频模型 CogVideo。是国内开源大模型的领先者,大模型领域的经典成功商业案例。
|
SQL 缓存 监控
技术方案到底怎么写?7步完美搞定!
总结了作者多年编写技术方案的经验,介绍了如何通过七个步骤来编写技术方案,包括系统用例、功能链路、核心业务流程、数据库设计、接口设计、非功能设计和系统风险点评估,帮助开发人员更高效地进行系统设计和需求分析。
技术方案到底怎么写?7步完美搞定!