灵玖NlpirParser智能挖掘平台文本分类过滤系统

简介:

  由于文档往往采用高频的词语来强调需要表达的特征涵义,而句子中往往是单一的词语,因此在句子检索中需要进一步选择更有区分能力的特征词。为此引入了文本分类过滤中常用的特征选择过程。
  灵玖Nlpir Parser智能挖掘平台文本分类过滤系统能够根据文献内容进行类别的划分,可以用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多应用。
  文本过滤功能能够从大量文本中快速识别和过滤出符合特殊要求的信息,可应用于品牌报道监测、垃圾信息屏蔽、敏感信息审查等领域。
  灵玖采用基于内容的文本自动分类过滤和基于规则的文本分类过滤两种方式,并支持两种方式的混合分类。能够进行多级分类,分类速度每秒100篇以上,平均准确率90%以上,能够进行中英文分类和中英文的混合分类。用户可以灵活、方便的更换模板,来实现对不同的主题的分类过滤。
  主要接口:
  // 功能: 文件方式初始化
  // 返回值:成功/失败
  CLASSIFIER_API bool classifier_init(const char conf="rulelist.xml", const char sLicenseCode=0);
  // 功能:对输入的文章结构进行分类
  // 参数:d:文章结构指针
  // iType=0: 输出类名,各类之间用t隔开 内容格式举例:“要闻 敏感 诉讼”
  // iType=1: 输出类名和置信度,各类之间用t隔开,类名和权重用“ ”隔开 内容格式举例:“要闻 1.00 敏感诉讼 0.82”
  // 返回值:主题类别串 各类之间用t隔开,类名按照置信度从高到低排序
  CLASSIFIER_API const char classifier_exec(stDoc d, int iType=0);
  // 功能:对于当前文档,输入类名,取得结果明细
  // 参数:classname:结果类名
  // 返回值:结果明细 例如:
  /* RULE3:
  SUBRULE1: 内幕 1
  SUBRULE2: 股市 1 基金 3 股票 8
  SUBRULE3: 书摘 2 */
  CLASSIFIER_API const char classifier_detail(const char classname);
  // 功能:退出,释放资源
  CLASSIFIER_API void classifier_exit();

目录
相关文章
|
2月前
|
人工智能 搜索推荐 API
用于企业AI搜索的Bocha Web Search API,给LLM提供联网搜索能力和长文本上下文
博查Web Search API是由博查提供的企业级互联网网页搜索API接口,允许开发者通过编程访问博查搜索引擎的搜索结果和相关信息,实现在应用程序或网站中集成搜索功能。该API支持近亿级网页内容搜索,适用于各类AI应用、RAG应用和AI Agent智能体的开发,解决数据安全、价格高昂和内容合规等问题。通过注册博查开发者账户、获取API KEY并调用API,开发者可以轻松集成搜索功能。
|
4月前
|
文字识别 监控 机器人
百度飞桨(PaddlePaddle) - PP-OCRv3 文字检测识别系统 预测部署简介与总览
百度飞桨(PaddlePaddle) - PP-OCRv3 文字检测识别系统 预测部署简介与总览
93 0
|
4月前
|
人工智能 数据处理
AI识别检验报告 -PaddleNLP UIE-X 在医疗领域的实战
AI识别检验报告 -PaddleNLP UIE-X 在医疗领域的实战
124 0
|
7月前
|
数据采集 自然语言处理 数据可视化
数据分析案例-基于snownlp模型的MatePad11产品用户评论情感分析(上)
数据分析案例-基于snownlp模型的MatePad11产品用户评论情感分析
229 0
|
搜索推荐 算法 Python
使用Python3配合协同过滤算法(base on user,基于人)构建一套简单的精准推荐系统(个性化推荐)
个性化推荐可谓风生水起,Youtube,Netflix,甚至于Pornhub,这些在互联网上叱咤风云的流媒体大鳄无一不靠推荐系统吸引流量变现,一些电商系统也纷纷利用精准推荐来获利,比如Amzon和Shopfiy等等,精准推荐用事实告诉我们,流媒体和商品不仅仅以内容的传播,它还能是一种交流沟通的方式。
使用Python3配合协同过滤算法(base on user,基于人)构建一套简单的精准推荐系统(个性化推荐)
|
自然语言处理 监控 算法
基于PaddleHub的Fine-tune讯飞医疗搜索意图识别(上)
基于PaddleHub的Fine-tune讯飞医疗搜索意图识别(上)
311 0
基于PaddleHub的Fine-tune讯飞医疗搜索意图识别(上)
|
自然语言处理
基于PaddleHub的Fine-tune讯飞医疗搜索意图识别(下)
基于PaddleHub的Fine-tune讯飞医疗搜索意图识别(下)
177 0
基于PaddleHub的Fine-tune讯飞医疗搜索意图识别(下)
|
机器学习/深度学习 分布式计算 数据可视化
基于Spark的机器学习实践 (六) - 基础统计模块
基于Spark的机器学习实践 (六) - 基础统计模块
199 0
|
存储 机器学习/深度学习 分布式计算
汇量科技在Spark上 构建推荐算法Pipeline的实践
内容简要: 一、关于汇量科技 二、一个典型的推荐算法实验流程 三、问题和挑战 四、在Spark上构建推荐算法Pipeline
|
机器学习/深度学习 存储 分布式计算
【译】如何用Apache Spark和LightGBM构建机器学习模型来预测信用卡欺诈
如何用Apache Spark和LightGBM构建机器学习模型来预测信用卡欺诈
4225 0