👉🏻场景
在企业数仓建设中,常用 MaxCompute 或 Hadoop 存储海量数据以满足低成本、高吞吐的数据生产需求,并使用 StarRocks、Doris、SelectDB 等高性能数据库进行即席分析,实现秒级查询响应。然而,通过数据同步到StarRocks等分析引擎进行分析,不仅增加数据冗余和运维压力,还存在权限分散与数据一致性等风险。那么,如何在Dataphin中高效提升这些大表的即席查询速度,既节省存储成本,又保障数据安全和一致性呢?
👉🏻解决方案及功能
Dataphin推出了“查询加速”功能,实现了对 MaxCompute 和 Hadoop 的透明加速。用户无需数据同步,只需创建加速源,将计算源和加速源的Catalog一键映射,即可安全高效地使用分析引擎进行即席查询。假设我需要对某个CDM项目中的订单宽表进行查询加速,具体操作如下:
- 在【管理中心】-【加速源】页面,选择新建加速源,进入加速源配置页面。
- 在加速源配置页面,选择加速引擎类型并填写相关配置信息。Dataphin通过加速源的外部Catalog方式实现加速查询,此处尚未创建外部 Catalog,我们可直接选择计算源并新建对应的外部 Catalog,完成后保存加速源即可。
- 接着,进入对应计算源绑定的项目下,进行即席查询,查询时开启查询加速并选择可用的加速源。
- 当使用加速源查询时,原始SQL会被转译为加速源的SQL,通过加速源外部 Catalog 的方式访问MaxCompute中的原始数据,权限依然遵循 Dataphin 对 MaxCompute 和 Hadoop 的设置,确保数据安全和权限统一管控。