1.业务背景
某零售企业的客户想要了解某产品在最近七天的成交量。通过这些数据来分析最近的销售情况,以便调整库存、制定营销策略和预测未来销售趋势。通过评估了数据量、分析的特性以及响应时长以及商务方面的评估,他们选择了SelectDB支持BI分析以及数据服务API的查询引擎。本文将介绍在Dataphin中如何与SelectDB集成,通过Dataphin的数据集成、SQL研发及的调度、数据服务API等功能,支持销售情况分析决策,以及通过API支持数据应用与管理
2.SelectDB是什么?
SelectDB 是基于Apache Doris构建的现代化实时数据仓库,支持大规模实时数据上的极速查询分析。它具有实时、统一、弹性和开放的四个特性,可实现实时数据写入与极速查询响应、支持各种分析负载、具有弹性架构实现高效资源管理、同时开放性的设计也更易与外围系统集成。基于以上特性,SelectDB广泛应用于实时报表分析、数据湖查询分析、日志存储与分析以及用户画像行为与分析等实时分析场景。
3.在Dataphin中如何集成和使用SelectDB?
3.1整体方案
通过Dataphin的数据集成,将企业的CRM、ERP、电商平台等业务系统的数据进行汇聚、加工,在MaxCompute等大数据引擎中形成数仓公共层及应用层。由于MaxCompute计算引擎是为了高并发的大规模的离线加工设计,因此为了支持BI交互式分析以及API查询等需要快速响应的场景,我们还需要通过将数据推送到SelectDB上构建销售数据集市层来满足。本文将重点介绍在Dataphin中如何集成和使用SelectDB用于支持报表分析及API查询数据。
3.2配置数据源
在Dataphin中,进入管理中心-数据源管理 页面,创建SelectDB数据源。该SelectDB数据源即可作为数据服务的查询引擎,以及作为数据集市层提供报表查询的引擎。
3.3数据集成
经过数据加工,应用层的数据已经在Dataphin的计算引擎(如MaxCompute)中加工完成,就可以将这些数据推送到SelectDB中,用于报表查询或提供API服务。这里我们通过Datpahin的数据集成功能,使用SelectDB输出组件,将数据输出到SelectDB数据源中。
进入研发-数据集成页面,创建离线集成任务。选择MaxCompute输入组件和SelectDB输出组件,连接并配置具体信息。
3.4数据开发
如果我们在SelectDB中需要进行少量的数据加工,比如基于轻度汇总表的基础上,在做筛选和聚合的处理,我们也可以用数据库SQL的方式进行研发和调度,统一的编排调度任务。
由于数据库SQL暂未支持SelectDB数据库,但是SelectDB兼容MySQL 的连接协议、语法,所以我们可以新建MySQL数据源,在MySQL数据源配置中使用SelectDB的JDBC连接SelectDB数据源。再通过数据库SQL对SelectDB中的数据进行少量数据加工。
1)创建MyQL数据源时,使用SelectDB数据库的连接信息连接。
2)创建数据库SQL计算任务,可对SelectDB数据源进行开发。
3.5数据服务
数据集成到SelectDB数据源后,支持对数据进行应用与消费。SelectDB可作为数据服务的查询引擎,用于API开发。API开发完成后,用户可申请API字段粒度的调用权限,SelectDB的数据通过API开放给开发人员、数据分析平台等对象使用。数据服务模块可以对SelectDB数据源的数据进行统一接口标准的API开发,统一平台的API管控以及监控运维,提高数据应用的效率、提高数据资源应用的安全性。
进入数据服务- API开发页面,选择“新建API-直连数据源-SQL模式”,利用SelectDB数据源数据开发“某商品最近七天的成交量”API。