SSIS高级转换任务—关键词查找

简介: 和关键词提取一样,关键词查找使用相同的算法和统计模型将输入流中的字符串按照名词或者名词词组进行统计,不同的是它参照一个已经存在的词汇表,输出的统计结果也仅限于这个词汇表中的关键词。关键词提取和关键词查找可以搭配使用。

和关键词提取一样,关键词查找使用相同的算法和统计模型将输入流中的字符串按照名词或者名词词组进行统计,不同的是它参照一个已经存在的词汇表,输出的统计结果也仅限于这个词汇表中的关键词。关键词提取和关键词查找可以搭配使用。定期地使用关键词提取来产生关键词词汇表,也可以在这个词汇表中人为删除或添加想要统计的关键词,最后使用关键词查找来产生最终的统计结果。

在上一个章节中我们将统计结果中的“model”从统计结果中删除,然后我们可以将他们整理出来,然后删除重复的,添加一些对有统计价值的关键词。这里假设我们想统计有哪些模型招致客户的不满以致留言评价,但是我们想只保留模型的名称,而不是类似“model XX-Z1”这样,model和模型名称连接在一起,最后我们整理得到的表[TermResults]内容如下:

term
------------
dent
door
freezer
ice
ice maker
maker
XX-1
XX-YY3
XX-Z1

新建一个package,命名为TermLookUpExample,这个package的内容和上面一个例子类似,我们只要将Term Exetraction替换成Term LookUp,将OLE Destination的目标新建一个表[TermReport]。打开Term LookUp的编辑界面,如图1

img_c74affcbe18ad3fbbf82c6114cc5233f.png

图1

  • Reference Table:这个标签用来设置参照表,Term LookUp将会依照这个表中的词汇生成统计结果
  • Term Lookup:这里设置输入字符串要参照表中的那个字段来进行统计
  • Advanced:这个标签中可以统计是否大小写敏感

运行这个package得到的结果,下面是其中的6行,我们可以看到这里没有统计数字,只是每个关键词在输入流中出现的次数的简单描述,没有他们在全部文本中的统计结果。

Term          Frequency   ConvCustSvcNote

------------- --------- --------------------------------------------------

freezer          1       ice maker in freezer stopped working model XX-YY3

ice maker        1       ice maker in freezer stopped working model XX-YY3

XX-YY3           1       ice maker in freezer stopped working model XX-YY3

door             1       door to refrigerator is coming off model XX-1

XX-1             1       door to refrigerator is coming off model XX-1

ice maker        1       ice maker is making a funny noise XX-YY3

(Only first six rows of resultset are displayed)

为得到最终的结果,在Term Lookup和OLE DB Destination之间添加一个Aggregate Transform,在Aggregate Transform中忽略ConvCustSvcNote列,按照Term列分组,在Frequency列上进行求和计算。将Aggregate Transform和OLE DB Transform连接起来。

尽管这是一个非常简单的例子,但是它在短时间内从文本输入流中产生一个统计结果。

作者:Tyler Ning
出处:http://www.cnblogs.com/tylerdonet/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,如有问题,可以通过以下邮箱地址williamningdong@gmail.com  联系我,非常感谢。

目录
相关文章
|
存储 SQL 开发框架
可视化查询(sp_helptext)——快速查询包含指定字符串的存储过程(附源码)
可视化查询(sp_helptext)——快速查询包含指定字符串的存储过程(附源码)
|
6月前
|
SQL 数据管理 关系型数据库
数据管理DMS操作报错合集之执行列表模糊搜索,无法搜到对应表的记录,是什么原因
数据管理DMS(Data Management Service)是阿里云提供的数据库管理和运维服务,它支持多种数据库类型,包括RDS、PolarDB、MongoDB等。在使用DMS进行数据库操作时,可能会遇到各种报错情况。以下是一些常见的DMS操作报错及其可能的原因与解决措施的合集。
|
7月前
|
存储 机器学习/深度学习 数据可视化
基于Python的数据分组技术:将数据按照1, 2, 3规则分为三个列表
基于Python的数据分组技术:将数据按照1, 2, 3规则分为三个列表
72 1
|
6月前
|
Java 程序员
JavaSE——正则表达式(2/2):应用案例、查找信息、用于搜索替换、分割内容
JavaSE——正则表达式(2/2):应用案例、查找信息、用于搜索替换、分割内容
27 0
|
SQL Python
Python基础记录下字符串模糊匹配的方式
使用Python的difflib库中get_close_matches方法
271 0
Python基础记录下字符串模糊匹配的方式
|
数据库
通过互联网搜索接口更新拼写语法库的设计
通过互联网搜索接口更新拼写语法库的设计
75 0
|
存储 SQL JSON
APIJSON - 功能符、数组关键词、对象关键词、全局关键词简表速查
APIJSON - 功能符、数组关键词、对象关键词、全局关键词简表速查
632 0
APIJSON - 功能符、数组关键词、对象关键词、全局关键词简表速查
|
Python
python搜索指定类型文件&批量移动文件程序
python搜索指定类型文件&批量移动文件程序
276 0
python搜索指定类型文件&批量移动文件程序
|
自然语言处理 搜索推荐
内容搜索排序表达式的最佳实践
本文重点介绍"开放搜索"中的排序表达式的配置及特征性函数的应用
5230 0
内容搜索排序表达式的最佳实践
|
关系型数据库 MySQL 监控
日志服务数据加工最佳实践: 使用搜索映射做高级数据富化
典型映射方式不能满足富化需求时, 可以使用搜索映射, 搜索映射与传统方式映射的区别在于匹配方式不同. 本篇介绍日志服务数据加工最佳实践: 使用搜索映射做高级数据富化.
2277 0