《BI那点儿事》数据流转换——字词查找转换

简介: 原文:《BI那点儿事》数据流转换——字词查找转换字词查找转换将从转换输入列的文本中提取的字词与引用表中的字词进行匹配,然后计算出查找表中的字词在输入数据集中出现的次数,并将计数与引用表中的此字词一并写入转换输出的列中。
原文: 《BI那点儿事》数据流转换——字词查找转换

字词查找转换将从转换输入列的文本中提取的字词与引用表中的字词进行匹配,然后计算出查找表中的字词在输入数据集中出现的次数,并将计数与引用表中的此字词一并写入转换输出的列中。此转换对于创建基于输入文本并带有词频统计信息的自定义词列表很有用。

本章功能:取出一个表中某字段的数据,并取出另一个表中的关键词,判断关键词在源记录中出现的次数。
创建模拟数据:

--用于查找的表  
CREATE TABLE [CustFeedback]
    (
      [Srlno] INT IDENTITY(1, 1) ,
      [UserID] INT ,
      [Feedback] NVARCHAR(100)
    )  
GO  
--关键词表  
CREATE TABLE [SearchKey]
    (
      [Srlno] INT IDENTITY(1, 1) ,
      [Keyword] NVARCHAR(100)
    )  
GO  
  
INSERT  INTO [CustFeedback]
        ( [UserID], [Feedback] )
VALUES  ( 100, 'Heard Touch screen' ),
        ( 101, 'Smooth slicing' ),
        ( 102, 'Getting problem in installing new application' ),
        ( 103, 'Application get hangs duringcall' ),
        ( 104, 'Touch screen not working properly' ),
        ( 105, 'No long battery backup' ),
        ( 106, 'Phone get hang while playing games' ),
        ( 107, 'Screen size is too small' ),
        ( 108, 'Qualty of screen guard is bad' ),
        ( 109, 'Bilt-in memory is too small' ),
        ( 110, 'rescreen' ),
        ( 111, 'Screen and Screen' )  
GO  
  
INSERT  INTO [SearchKey]
        ( [Keyword] )
VALUES  ( 'screen' ),
        ( 'Touch screen not working properly' )  
GO  

SELECT  *
FROM    CustFeedback
SELECT  *
FROM    SearchKey
SELECT  *

创建一个【数据流任务】,双击编辑。首先,创建一个数据流源【OLE DB 源】
编辑【OLE DB 源】,连接用于查找的表。

添加【数据转换】组件。字词查找转换只能使用数据类型为 DT_WSTR 或 DT_NTEXT 的列。如果列包含文本,但不具有这两种数据类型之一,则数据转换可以将数据类型为 DT_WSTR 或 DT_NTEXT 的列添加到数据流,并将列值复制到新列。然后,数据转换的输出就可以用作字词查找转换的输入。
编辑组件。将被用于查找的列 Feedback 转变数据类型为 Unicode 文本流[DT_NTEXT],输出名字改为Converted_Feedback。

添加【字词查找】组件到数据流:

编辑组件,只能以 OEL DB 方式连接数据库。连接数据库,引用关键词表:

点击选项 字词查找,设置查找引用,将可输入列Converted_Feedback】关联到可引用列【Keyword】。
并且勾选UserID和Converted_Feedback作为输出。

高级选项还可以设置是否区分大小写查找。关键词会忽略首字母为大写的。

添加,目标组件【OLE DB 目标】:
编辑组件,连接到任意数据库,新建一个表:

erms : 在输入列中找到的关键词
Frequency :每行出现关键词的次数
UserID : 表CustFeedback 的UserID列
Converted_Feedback :被查找的列

目录
相关文章
|
BI
《BI那点儿事》数据流转换——审核
原文:《BI那点儿事》数据流转换——审核 审核转换允许对数据流添加审核审核数据,以往使用HIPPA和Sarbanes-Oxley (SOX)时,必须跟踪谁在什么时插入数据,审核转换可以实现这种功能。例如要跟踪那一个task向表里插入数据,可以在审核转换中添加相应的列。
901 0
|
BI 缓存
《BI那点儿事》数据流转换——聚合
原文:《BI那点儿事》数据流转换——聚合 聚合转换可以像T-SQL中的函数GROUP BY, Average, Minimum, Maximum, 和 Count一样对数据进行聚合运算。在图中可以看到数据以SampleID分组,对TotalSugar做Average、Maximum、Minimum、Count操作。
956 0
|
BI
《BI那点儿事》数据流转换——数据转换
原文:《BI那点儿事》数据流转换——数据转换 数据转换执行类似于T-SQL中的函数CONVERT或CAST的功能。数据转换的编辑界面如图,选择需要转换的列,在DataType下拉列表中选择需要的数据类型。Output Alias栏内设置输出时使用的别名。
1052 0
|
BI
《BI那点儿事》数据流转换——字符映射表
原文:《BI那点儿事》数据流转换——字符映射表 特征映射转换如图展示数据流中列的特征,它的编辑界面很简单,只有一个标签界面,点击要进行映射的列,可以选择需要添加新列或需要更新的列。可以在Output Alias列中给原来的列一个别名,选择要进行的操作,可以进行的操作类型有: Byte Rev...
891 0
|
BI
《BI那点儿事》数据流转换——条件性拆分
原文:《BI那点儿事》数据流转换——条件性拆分 根据条件分割数据是一个在数据流中添加复杂逻辑的方法,它允许根据条件将数据输出到其他不同的路径中。例如,可以将TotalSugar< 27.4406的输出到一个路径,TotalSugar >= 27.4406的输出到另一个路径。
718 0
|
存储 BI
《BI那点儿事》数据流转换——派生列
原文:《BI那点儿事》数据流转换——派生列 派生列转换通过对转换输入列应用表达式来创建新列值。 表达式可以包含来自转换输入的变量、函数、运算符和列的任意组合。 结果可作为新列添加,也可作为替换值插入到现有列。
1023 0
|
BI
《BI那点儿事》数据流转换——排序
原文:《BI那点儿事》数据流转换——排序 排序转换允许对数据流中的数据按照某一列进行排序。这是五个常用的转换之一。连接数据源打开编辑界面,编辑这种任务。不想设置为排序列的字段不要选中,默认情况下所有列都会选中。
875 0
|
BI 数据挖掘
《BI那点儿事》数据流转换——百分比抽样、行抽样
原文:《BI那点儿事》数据流转换——百分比抽样、行抽样 百分比抽样和行抽样可以从数据源中随机选择一组数据。这两种task都可以产生两组输出,一组是随机选择的,另一组是没有被选择的。可以将这些选择出的数据发送到开发或者测试服务器上。
927 0
|
BI
《BI那点儿事》数据流转换——逆透视转换
原文:《BI那点儿事》数据流转换——逆透视转换   逆透视转换将来自单个记录中多个列的值扩展为单个列中具有同样值的多个记录,使得非规范的数据集成为较规范的版本。例如,每个客户在列出客户名的数据集中各占一行,在该行的各列中显示购买的产品和数量。
905 0
|
BI
《BI那点儿事》数据流转换——透视
原文:《BI那点儿事》数据流转换——透视 这个和T-SQL中的PIVOT和UNPIVOT的作用是一样的。数据透视转换可以将数据规范或使它在报表中更具可读性。 通过透视列值的输入数据,透视转换将规范的数据集转变成规范程度稍低、但更为简洁的版本。
995 0

热门文章

最新文章