Dataphin中集成SelectDB以支持报表分析和API查询

简介: 本文介绍了一家零售企业如何利用SelectDB进行BI分析及数据服务API的查询。通过Dataphin的数据集成、SQL研发等功能,将CRM、ERP等系统数据汇聚加工,并推送至SelectDB构建销售数据集市层,以支持报表分析及API查询。SelectDB具备实时、统一、弹性及开放特性,适用于多种实时分析场景。文章详细描述了在Dataphin中集成SelectDB的整体方案、数据源配置、数据集成、数据开发及数据服务流程。

1.业务背景

某零售企业的客户想要了解某产品在最近七天的成交量。通过这些数据来分析最近的销售情况,以便调整库存、制定营销策略和预测未来销售趋势。通过评估了数据量、分析的特性以及响应时长以及商务方面的评估,他们选择了SelectDB支持BI分析以及数据服务API的查询引擎。本文将介绍在Dataphin中如何与SelectDB集成,通过Dataphin的数据集成、SQL研发及的调度、数据服务API等功能,支持销售情况分析决策,以及通过API支持数据应用与管理

2.SelectDB是什么?

SelectDB 是基于Apache Doris构建的现代化实时数据仓库,支持大规模实时数据上的极速查询分析。它具有实时、统一、弹性和开放的四个特性,可实现实时数据写入与极速查询响应、支持各种分析负载、具有弹性架构实现高效资源管理、同时开放性的设计也更易与外围系统集成。基于以上特性,SelectDB广泛应用于实时报表分析、数据湖查询分析、日志存储与分析以及用户画像行为与分析等实时分析场景。

3.在Dataphin中如何集成和使用SelectDB?

3.1整体方案

通过Dataphin的数据集成,将企业的CRM、ERP、电商平台等业务系统的数据进行汇聚、加工,在MaxCompute等大数据引擎中形成数仓公共层及应用层。由于MaxCompute计算引擎是为了高并发的大规模的离线加工设计,因此为了支持BI交互式分析以及API查询等需要快速响应的场景,我们还需要通过将数据推送到SelectDB上构建销售数据集市层来满足。本文将重点介绍在Dataphin中如何集成和使用SelectDB用于支持报表分析及API查询数据。

image.png

3.2配置数据源

在Dataphin中,进入管理中心-数据源管理 页面,创建SelectDB数据源。该SelectDB数据源即可作为数据服务的查询引擎,以及作为数据集市层提供报表查询的引擎。

image.png

3.3数据集成

经过数据加工,应用层的数据已经在Dataphin的计算引擎(如MaxCompute)中加工完成,就可以将这些数据推送到SelectDB中,用于报表查询或提供API服务。这里我们通过Datpahin的数据集成功能,使用SelectDB输出组件,将数据输出到SelectDB数据源中。

进入研发-数据集成页面,创建离线集成任务。选择MaxCompute输入组件和SelectDB输出组件,连接并配置具体信息。

image.png

3.4数据开发

如果我们在SelectDB中需要进行少量的数据加工,比如基于轻度汇总表的基础上,在做筛选和聚合的处理,我们也可以用数据库SQL的方式进行研发和调度,统一的编排调度任务。

由于数据库SQL暂未支持SelectDB数据库,但是SelectDB兼容MySQL 的连接协议、语法,所以我们可以新建MySQL数据源,在MySQL数据源配置中使用SelectDB的JDBC连接SelectDB数据源。再通过数据库SQL对SelectDB中的数据进行少量数据加工。

1)创建MyQL数据源时,使用SelectDB数据库的连接信息连接。

image.png

2)创建数据库SQL计算任务,可对SelectDB数据源进行开发。

image.png

3.5数据服务

数据集成到SelectDB数据源后,支持对数据进行应用与消费。SelectDB可作为数据服务的查询引擎,用于API开发。API开发完成后,用户可申请API字段粒度的调用权限,SelectDB的数据通过API开放给开发人员、数据分析平台等对象使用。数据服务模块可以对SelectDB数据源的数据进行统一接口标准的API开发,统一平台的API管控以及监控运维,提高数据应用的效率、提高数据资源应用的安全性。

进入数据服务- API开发页面,选择“新建API-直连数据源-SQL模式”,利用SelectDB数据源数据开发“某商品最近七天的成交量”API。

作者介绍
目录