使用阿里云Elasticsearch体验信息检索加速
1. 创建资源
开始实验之前,您需要先创建Elasticsearch集群资源。
- 在实验室页面,单击创建资源。
- (可选)在实验室页面左侧导航栏中,单击云产品资源列表,可查看本次实验资源相关信息(例如IP地址、用户信息等)。
说明:Elasticsearch集群资源创建过程需要30分钟,请您耐心等待。
2. 登录集群
- 双击打开远程桌面的Chromium网页浏览器。
- 在RAM用户登录框中单击下一步,并复制粘贴页面左上角的子用户密码到用户密码输入框,单击登录。
- 复制下方地址,在Chromium网页浏览器打开新页签,粘贴并访问Elasticsearch控制台。
https://elasticsearch-cn-hangzhou.console.aliyun.com
- 在左侧导航栏中,单击Elasticsearch实例。
- 在Elasticsearch实例页面,切换到华东2(上海)地域,找到云产品资源列表中的Elasticsearch实例。
说明:本实验资源区域限定为华东2(上海)。
说明:本次实验已开通阿里云Elasticsearh 5.5.3 版本,仅做本次场景体验使用,如需作为测试环境或生产环境使用,可选择其他更高版本。
3. 登录Kibana,开启自动创建索引功能
- 在Elasticsearch实例页面,单击实例ID。
说明:请选择云起实验室为您提供的Elasticsearch实例资源。
- 在左侧导航栏,选择配置与管理 > 可视化控制。
- 在Kibana区域中,单击公网入口。
复制左侧云产品资源列表下的Elasticsearch登录名和Elasticsearch登录密码,至Kibana登录页面的账号和密码,单击登录。
在左侧导航栏,单击Dev Tools(开发工具),再单击Go to work。
- 在Console页签下,执行如下命令,开启阿里云ES实例的自动创建索引功能。
PUT _cluster/settings { "persistent": { "action.auto_create_index": "true" } }
开启成功后,结果如下。
{ "acknowledged" : true, "persistent" : { "action" : { "auto_create_index" : "true" } }, "transient" : { } }
4. 通过DataWorks将MySQL数据同步至ES
- 复制如下阿里云DataWorks控制台地址至浏览器地址栏,登录DataWorks控制台。
https://dataworks.console.aliyun.com/overview
- 在左侧导航栏,单击工作空间列表。
- 在工作空间列表页面,切换到华东2(上海)地域,找到目标工作空间,单击其右侧操作列下的进入数据集成。
说明:您可在云产品资源列表中查看DataWorks的项目名称和地域。
- 在数据集成首页,单击页面右上方的 图标。
- 在左侧导航栏中,单击数据源管理。
- 在数据源管理页面,单击新增数据源。
- 在新增数据源对话框中,单击MySQL。
- 在新增MySQL数据源对话框中,配置如下数据源信息。
配置项 |
示例 |
说明 |
数据源类型 |
连接串模式 |
不可更改 |
数据源名称 |
mysql_data |
可自定义 |
JDBC URL |
jdbc:mysql://rm-uf60a5s3bhvj7c700eo.mysql.rds.aliyuncs.com:3306/mysql_data
|
不可更改 |
用户名 |
zltest |
不可更改 |
密码 |
Elastic@123 |
不可更改 |
- 在资源组选项中,单击更多选项,在警告对话框单击确定。
- 配置完成后,单击测试连通性,可与公共资源组进行连通性测试。 连通状态显示为可连通时,表示连通成功,再单击完成。
- 使用同样的方式添加Elasticsearch数据源,配置数据源信息。
配置项 |
示例 |
说明 |
数据源类型 |
连接串模式 |
不可更改 |
数据源名称 |
elasticsearch |
可自定义 |
Endpoint |
http://es-cn-*****************.public.elasticsearch.aliyuncs.com:9200 |
下划线处为ES公网地址,请进入Elasticsearch管理控制台,从Elasticsearch实例 > 基本信息复制 |
用户名 |
Elasticsearch登录名 |
不可更改 |
密码 |
Elasticsearch登录密码 |
不可更改 |
- 在资源组选项中,单击更多选项。
- 配置完成后,单击测试连通性,可与公共资源组进行连通性测试。 连通状态显示为可连通时,表示连通成功,再点击完成。
- 在左侧滑出窗口,单击DataStudio(数据开发)。
- 在DataWorks的数据开发页面,右键业务流程,单击新建业务流程。
- 在新建业务流程对话框,输入业务名称,单击新建。
- 展开新建的业务流程,右键数据集成,选择新建节点>离线同步。
- 在新建节点对话框中,输入节点名称(可自定义),单击提交。
- 在配置同步网络链接页面,分别配置数据来源和数据去向,配置如下所示,然后单击下一步。
说明:如果在配置离线同步节点时,您的配置页面跟下图显示不一样,请您关闭浏览器,重新登录并访问DataWorks控制台。
- 在配置任务页面,在数据来源区域中选择表chinese_news,在数据去向区域中单击一键生成目标索引。
- 完成如下配置,单击新建索引。
- 在配置任务页面,在数据来源区域中,单击无主键,然后单击下一步。
- 在配置调度页面,在时间属性区域中,实例生成方式选择发布后即时生成,重跑属性选择运行成功或失败后皆可重跑,在调度依赖区域中,依赖的上游节点选择使用工作空间根节点,然后单击完成配置。
- 提交任务。
- 单击图标,提交当前配置,并单击图标,运行任务。
- 任务运行过程中,可查看运行日志。运行成功后,显示如下结果。
5. 登录Kibana,体验信息检索加速
- 返回Kibana页面。
- 在左侧导航栏,单击Dev Tools(开发工具)。
- 复制如下代码。
GET chinese_news/_search { "query": { "bool": { "must": [ {"match_phrase": { "content": "两个一百年" } }, { "match_phrase":{ "headline": "新华社长篇通讯" } } ], "filter": { "range": { "date": { "gte": "2017-01-18", "lte": "2022-12-18", "format": "yyyy-MM-dd" } } } } }, "highlight" : { "fields" : { "content" : {} } } }
- 在Console页签下,粘贴上一步的代码,执行命令,检索同时满足如下3个条件的新闻。
- 内容包含两个一百年,标题包含新华社长篇通讯的新闻;
- 过滤2017-01-18—2022-12-18期间的新闻;
- 对内容中匹配到的词高亮展示。
完成检索后,返回如下结果。
- 在左侧导航栏,单击Management。
- 根据下图配置index pattern,单击Create。
- 在左侧导航栏,单击Discover。
- 在页面左上角单击Add a filter+,再单击Edit Query DSL。
- 在Filter输入第3步中复制的命令,删除其中的如下命令,单击Save。
GET chinese_news/_search
- 单击右上角时间范围,选择Last 5 years,即展示可视化检索的新闻数据。
6. 更多技术交流咨询,欢迎扫码入群
扫码入群,参与Elasticsearch技术交流
实验链接:https://developer.aliyun.com/adc/scenario/4ea641d7eca44034932eebeecfb087aa