由于文档往往采用高频的词语来强调需要表达的特征涵义,而句子中往往是单一的词语,因此在句子检索中需要进一步选择更有区分能力的特征词。为此引入了文本分类过滤中常用的特征选择过程。
灵玖Nlpir Parser智能挖掘平台文本分类过滤系统能够根据文献内容进行类别的划分,可以用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多应用。
文本过滤功能能够从大量文本中快速识别和过滤出符合特殊要求的信息,可应用于品牌报道监测、垃圾信息屏蔽、敏感信息审查等领域。
灵玖采用基于内容的文本自动分类过滤和基于规则的文本分类过滤两种方式,并支持两种方式的混合分类。能够进行多级分类,分类速度每秒100篇以上,平均准确率90%以上,能够进行中英文分类和中英文的混合分类。用户可以灵活、方便的更换模板,来实现对不同的主题的分类过滤。
主要接口:
// 功能: 文件方式初始化
// 返回值:成功/失败
CLASSIFIER_API bool classifier_init(const char conf="rulelist.xml", const char sLicenseCode=0);
// 功能:对输入的文章结构进行分类
// 参数:d:文章结构指针
// iType=0: 输出类名,各类之间用t隔开 内容格式举例:“要闻 敏感 诉讼”
// iType=1: 输出类名和置信度,各类之间用t隔开,类名和权重用“ ”隔开 内容格式举例:“要闻 1.00 敏感诉讼 0.82”
// 返回值:主题类别串 各类之间用t隔开,类名按照置信度从高到低排序
CLASSIFIER_API const char classifier_exec(stDoc d, int iType=0);
// 功能:对于当前文档,输入类名,取得结果明细
// 参数:classname:结果类名
// 返回值:结果明细 例如:
/* RULE3:
SUBRULE1: 内幕 1
SUBRULE2: 股市 1 基金 3 股票 8
SUBRULE3: 书摘 2 */
CLASSIFIER_API const char classifier_detail(const char classname);
// 功能:退出,释放资源
CLASSIFIER_API void classifier_exit();