在SAP HANA Express Edition里进行文本分析

简介:

这个练习会使用SAP HANA Express Edition的文本语义分析引擎对JSON格式的documents进行语义分析。

首先创建一个column table,对其index开启fuzzy text search(模糊搜索)功能。

上述描述的操作可以用下面的SQL语句来完成:

create column table food_analysis
(
    name nvarchar(64),
    description text FAST PREPROCESS ON FUZZY SEARCH INDEX ON
);

其中description字段开启了模糊搜索功能。

将存储于名为doc_store的document store collection里的json key-value键值对拷贝到刚刚创建的数据库表里:

insert into food_analysis
with doc_store as (select "name", "description" from food_collection)
select doc_store."name" as name, doc_store."description" as description
from doc_store;

执行上述的sql语句,确保数据全部拷贝到数据库表food_analysis中:

使用下列的sql语句对description字段进行模糊搜索:

select  name, score() as similarity, TO_VARCHAR(description)
from food_analysis
where contains(description, 'nuts', fuzzy(0.5,'textsearch=compare'))
order by similarity desc

执行结果:

HANA Express Edition里的linguistic 文本分析步骤也比较简单。

首先还是创建一个数据库表:

create column table food_sentiment
(
    name nvarchar(64) primary key,
    description nvarchar(2048)
);

将document store里的json数据拷贝到数据库表里:

insert into food_sentiment
with doc_store as (select "name", "description" from food_collection)
select doc_store."name" as name, doc_store."description" as description
from doc_store;

针对description字段创建一个新的index:

CREATE FULLTEXT INDEX FOOD_SENTIMENT_INDEX ON "FOOD_SENTIMENT" ("DESCRIPTION")
CONFIGURATION 'GRAMMATICAL_ROLE_ANALYSIS'
LANGUAGE DETECTION ('EN')
SEARCH ONLY OFF
FAST PREPROCESS OFF
TEXT MINING OFF
TOKEN SEPARATORS ''
TEXT ANALYSIS ON;

上述SQL语句会自动创建一个名为$TA_FOOD_SENTIMENT_INDEX的文本分析表:
该表里的内容:

由此可以发现,之前我们导入到数据库表里的英文句子,被HANA text engine拆解成单词,并且每个单词的词性也自动被HANA解析出来了。

本文来自云栖社区合作伙伴“汪子熙”,了解相关信息可以关注微信公众号"汪子熙"。

相关文章
|
2月前
|
开发者 数据处理 数据管理
SAP HANA 的不同类型
SAP HANA 的不同类型
SAP HANA 的不同类型
|
2月前
|
SQL 数据库 索引
关于 SAP ABAP REPOSRC 数据库表在 HANA 中的 DDL Definition
关于 SAP ABAP REPOSRC 数据库表在 HANA 中的 DDL Definition
关于 SAP ABAP REPOSRC 数据库表在 HANA 中的 DDL Definition
|
2月前
|
Linux 开发工具 开发者
关于 SAP HANA 开发那些事
关于 SAP HANA 开发那些事
|
2月前
|
SQL 存储 数据可视化
SAP HANA 内存数据库不同类型的视图的应用场景介绍
SAP HANA 内存数据库不同类型的视图的应用场景介绍
|
9月前
|
供应链 数据挖掘 BI
什么是 SAP S/4HANA 的 VDM Layering Architecture 的 VDM Composite View
什么是 SAP S/4HANA 的 VDM Layering Architecture 的 VDM Composite View
|
2月前
|
数据库 存储 监控
什么是 SAP HANA 内存数据库 的 Delta Storage
什么是 SAP HANA 内存数据库 的 Delta Storage
什么是 SAP HANA 内存数据库 的 Delta Storage
|
2月前
|
数据库
什么是 SAP S/4HANA 的 Brown Field 迁移和 Green Field 迁移
什么是 SAP S/4HANA 的 Brown Field 迁移和 Green Field 迁移
|
2月前
|
数据库 存储 安全
使用 SAP HANA Cloud 的一些优势
使用 SAP HANA Cloud 的一些优势
使用 SAP HANA Cloud 的一些优势
|
2月前
|
数据库
SAP S/4HANA 系统的底层基石 - 通过实际的例子,介绍 CDS View 入门级的概念试读版
SAP S/4HANA 系统的底层基石 - 通过实际的例子,介绍 CDS View 入门级的概念试读版
SAP S/4HANA 系统的底层基石 - 通过实际的例子,介绍 CDS View 入门级的概念试读版
|
2月前
|
数据库 SQL 应用服务中间件
SAP ABAP CDS View 和 HANA CDS View 相同点和不同点辨析
SAP ABAP CDS View 和 HANA CDS View 相同点和不同点辨析
SAP ABAP CDS View 和 HANA CDS View 相同点和不同点辨析