SSIS高级转换任务—关键词查找

简介: 和关键词提取一样,关键词查找使用相同的算法和统计模型将输入流中的字符串按照名词或者名词词组进行统计,不同的是它参照一个已经存在的词汇表,输出的统计结果也仅限于这个词汇表中的关键词。关键词提取和关键词查找可以搭配使用。

和关键词提取一样,关键词查找使用相同的算法和统计模型将输入流中的字符串按照名词或者名词词组进行统计,不同的是它参照一个已经存在的词汇表,输出的统计结果也仅限于这个词汇表中的关键词。关键词提取和关键词查找可以搭配使用。定期地使用关键词提取来产生关键词词汇表,也可以在这个词汇表中人为删除或添加想要统计的关键词,最后使用关键词查找来产生最终的统计结果。

在上一个章节中我们将统计结果中的“model”从统计结果中删除,然后我们可以将他们整理出来,然后删除重复的,添加一些对有统计价值的关键词。这里假设我们想统计有哪些模型招致客户的不满以致留言评价,但是我们想只保留模型的名称,而不是类似“model XX-Z1”这样,model和模型名称连接在一起,最后我们整理得到的表[TermResults]内容如下:

term
------------
dent
door
freezer
ice
ice maker
maker
XX-1
XX-YY3
XX-Z1

新建一个package,命名为TermLookUpExample,这个package的内容和上面一个例子类似,我们只要将Term Exetraction替换成Term LookUp,将OLE Destination的目标新建一个表[TermReport]。打开Term LookUp的编辑界面,如图1

img_c74affcbe18ad3fbbf82c6114cc5233f.png

图1

  • Reference Table:这个标签用来设置参照表,Term LookUp将会依照这个表中的词汇生成统计结果
  • Term Lookup:这里设置输入字符串要参照表中的那个字段来进行统计
  • Advanced:这个标签中可以统计是否大小写敏感

运行这个package得到的结果,下面是其中的6行,我们可以看到这里没有统计数字,只是每个关键词在输入流中出现的次数的简单描述,没有他们在全部文本中的统计结果。

Term          Frequency   ConvCustSvcNote

------------- --------- --------------------------------------------------

freezer          1       ice maker in freezer stopped working model XX-YY3

ice maker        1       ice maker in freezer stopped working model XX-YY3

XX-YY3           1       ice maker in freezer stopped working model XX-YY3

door             1       door to refrigerator is coming off model XX-1

XX-1             1       door to refrigerator is coming off model XX-1

ice maker        1       ice maker is making a funny noise XX-YY3

(Only first six rows of resultset are displayed)

为得到最终的结果,在Term Lookup和OLE DB Destination之间添加一个Aggregate Transform,在Aggregate Transform中忽略ConvCustSvcNote列,按照Term列分组,在Frequency列上进行求和计算。将Aggregate Transform和OLE DB Transform连接起来。

尽管这是一个非常简单的例子,但是它在短时间内从文本输入流中产生一个统计结果。

作者:Tyler Ning
出处:http://www.cnblogs.com/tylerdonet/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,如有问题,可以通过以下邮箱地址williamningdong@gmail.com  联系我,非常感谢。

目录
相关文章
|
5月前
|
机器学习/深度学习 自然语言处理 安全
【网安专题11.8】14Cosco跨语言代码搜索代码: (a) 训练阶段 相关程度的对比学习 对源代码(查询+目标代码)和动态运行信息进行编码 (b) 在线查询嵌入与搜索:不必计算相似性
【网安专题11.8】14Cosco跨语言代码搜索代码: (a) 训练阶段 相关程度的对比学习 对源代码(查询+目标代码)和动态运行信息进行编码 (b) 在线查询嵌入与搜索:不必计算相似性
159 0
|
2月前
|
存储 自然语言处理
QT案例词典 -- 存储内容及遍历
QT案例词典 -- 存储内容及遍历
12 1
|
6月前
|
XML 数据格式
FastReport自动提取表的逻辑
FastReport自动提取表的逻辑
|
11月前
|
SQL 索引
白话Elasticsearch03- 结构化搜索之基于bool组合多个filter条件来搜索数据
白话Elasticsearch03- 结构化搜索之基于bool组合多个filter条件来搜索数据
258 0
|
索引 Python
【VBA脚本】提取word文档中所有批注的信息和待解决状态
【VBA脚本】提取word文档中所有批注的信息和待解决状态
176 0
【VBA脚本】提取word文档中所有批注的信息和待解决状态
|
数据库
通过互联网搜索接口更新拼写语法库的设计
通过互联网搜索接口更新拼写语法库的设计
51 0
|
存储 SQL JSON
APIJSON - 功能符、数组关键词、对象关键词、全局关键词简表速查
APIJSON - 功能符、数组关键词、对象关键词、全局关键词简表速查
549 0
APIJSON - 功能符、数组关键词、对象关键词、全局关键词简表速查
|
存储 JSON 缓存
你必须知道的23个最有用的Elasticseaerch检索技巧
题记 本文详细论述了Elasticsearch全文检索、指定字段检索实战技巧,并提供了详尽的源码举例。是不可多得学习&实战资料。
196 0
|
自然语言处理 搜索推荐
内容搜索排序表达式的最佳实践
本文重点介绍"开放搜索"中的排序表达式的配置及特征性函数的应用
5138 0
内容搜索排序表达式的最佳实践
|
SQL Oracle 关系型数据库
Oracle数据库之五 限定查询和排序显示
Oracle数据库之五 限定查询和排序显示五、限定查询和排序显示5.1、限定查询5.1.1 认识限定查询例如:如果一张表中有 100w 条数据,一旦执行了 “ SELECT * FROM 表 ” 语句之后,则将在屏幕上显示表中全部数据行的记录,这样既不方便浏览,也可能造成死机的问题,所以此时就必须对查询的结果进行筛选,只选出对自己有用的数据即可,那么就可以通过 WHERE 指定查询的筛选条件。
983 0

热门文章

最新文章