灵玖Nlpir Parser语义智能系统精准汉语分词-阿里云开发者社区

开发者社区> 大数据> 正文

灵玖Nlpir Parser语义智能系统精准汉语分词

简介:

  词是最小的能够独立活动的有意义的语言成分。在汉语中,由于词与词之间不存在分隔符,词本身也缺乏明显的形态标记,因此汉语浅层分析的特有问题就是如何将汉语的字串分割为合理的词语序列。
  实际上,汉语分词的主要瓶颈是“切分排歧”和“未登录词识别”。由于切分歧义和未登录词的存在,降低了自身正确切分的可能性,也干扰了其相邻词的处理。如果未登录词和切分歧义交织在一起,就会进一步增加处理难度。
  灵玖软件Nlpir Parser语义智能挖掘平台是针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。
  灵玖软件Nlpir Parser语义智能挖掘平台汉语词法分析系统能对汉语语言进行拆分处理,是中文信息处理必备的核心部件。灵玖综合了各家所长,采用条件随机场(Conditional Random Field,简称CRF)模型,分词准确率接近99%,具备准确率高、速度快、可适应性强等优势;特色功能包括:切分粒度可调整,融合20余部行业专有词典,支持用户自定义词典等。
  词性标注能对汉语语言进行词性的自动标注,它能够真正理解中文,自动根据语言环境将词语诸如“建设”标注为“名词”或“动词”。灵玖采用条件随机场(Conditional Random Field,简称CRF)模型,一级词性标注准确率接近99%,具备准确率高、速度快、可适应性强等优势。
人名地名机构名识别能够自动挖掘出隐含在汉语中的人名、地名、机构名,所提炼出的词语不需要在词典库中事先存在,是对语言规律的深入理解和预测。采用条件随机场(Conditional Random Field,简称CRF)模型,识别准确率达到97%,速度达到10M/s,可在此基础上搭建各种多样化的统计和应用。
目前,汉语分词的精度不断提高,已进入实用阶段,而与此同时,信息抽取、文本分类、聚类等文本挖掘技术也取得了巨大的进展,成为大数据分析与网络信息检索的有效手段。在这种情况下,人们已不满足于对语言本身进行分析,而是希望利用语言分析的手段来从大数据中挖掘一些感兴趣的抽象对象(如事件、人物、地点、机构、音乐、软件等)。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
大数据
使用钉钉扫一扫加入圈子
+ 订阅

大数据计算实践乐园,近距离学习前沿技术

其他文章