Dataphin功能Tips系列(86)Dataphin“查询加速”方案:提升大表分析性能,节省存储保障数据一致性

简介: Dataphin推出“查询加速”功能,无需数据同步,通过一键映射外部Catalog,实现对MaxCompute/Hadoop大表的透明加速。利用StarRocks等引擎秒级响应即席查询,保障权限统一与数据安全,降低存储成本与运维压力。

👉🏻场景

在企业数仓建设中,常用 MaxCompute 或 Hadoop 存储海量数据以满足低成本、高吞吐的数据生产需求,并使用 StarRocks、Doris、SelectDB 等高性能数据库进行即席分析,实现秒级查询响应。然而,通过数据同步到StarRocks等分析引擎进行分析,不仅增加数据冗余和运维压力,还存在权限分散与数据一致性等风险。那么,如何在Dataphin中高效提升这些大表的即席查询速度,既节省存储成本,又保障数据安全和一致性呢?

👉🏻解决方案及功能

Dataphin推出了“查询加速”功能,实现了对 MaxCompute 和 Hadoop 的透明加速。用户无需数据同步,只需创建加速源,将计算源和加速源的Catalog一键映射,即可安全高效地使用分析引擎进行即席查询。假设我需要对某个CDM项目中的订单宽表进行查询加速,具体操作如下:

  1. 在【管理中心】-【加速源】页面,选择新建加速源,进入加速源配置页面。
  2. 在加速源配置页面,选择加速引擎类型并填写相关配置信息。Dataphin通过加速源的外部Catalog方式实现加速查询,此处尚未创建外部 Catalog,我们可直接选择计算源并新建对应的外部 Catalog,完成后保存加速源即可。

  3. 接着,进入对应计算源绑定的项目下,进行即席查询,查询时开启查询加速并选择可用的加速源。
  4. 当使用加速源查询时,原始SQL会被转译为加速源的SQL,通过加速源外部 Catalog 的方式访问MaxCompute中的原始数据,权限依然遵循 Dataphin 对 MaxCompute 和 Hadoop 的设置,确保数据安全和权限统一管控。

相关文章
|
4月前
|
SQL 自然语言处理 BI
Dataphin功能Tips系列(87)Dataphin「X-分析」:自然语言开启自助取数新时代
Dataphin推出【X-分析】Agent,支持非技术用户通过自然语言提问,自动生成SQL并执行查询,快速获取数据结果。用户可新建分析专辑,结合业务数据与提示词优化模型理解,实现精准取数。支持SQL审核编辑、保存至Notebook或一键创建Quick BI数据集,打通从查询到分析的全流程,降低人力成本,提升数据消费效率,助力业务自助高效用数。
155 0
Dataphin功能Tips系列(87)Dataphin「X-分析」:自然语言开启自助取数新时代
|
5月前
|
SQL 数据可视化 大数据
Dataphin数据血缘:实现全面追溯,保障流转透明
数据血缘揭示数据从源头到应用的全链路流转关系,助力企业厘清数据来源、影响范围与质量问题根源。Dataphin通过自动采集、手动配置和OpenAPI注册三类方式构建全面的数据血缘,支持可视化展示与用于质量问题溯源,实现数据可查、可信、可管,推动高质量数据治理。
602 1
|
4月前
|
数据处理
Dataphin功能Tips系列(82)「Dataphin标签管理」:让数据资产分类与检索更高效、更智能
Dataphin通过标签化管理优化数据资产组织,支持按业务、地域、时间等多维度灵活打标,提升“门店销售表”等数据的检索效率与使用便捷性,实现精准高效的资产管理。
149 0
|
4月前
|
数据采集 人工智能 安全
Dataphin V5.4版本发布:拥有「最强大脑」的数据中台,究竟智能在哪儿?
Dataphin是阿里巴巴数据中台方法论的实践产品,助力企业构建湖仓一体、多云兼容的数据资产体系。V5.4版本升级集成、治理、安全与运维能力,新增API/FTP增强、数据质量智能分析、外部血缘注册、行级权限申请等特性,全面提升数据开发效率与治理水平。
330 3
|
4月前
Dataphin功能Tips系列(83)大模型加持码表构建,从杂乱数据中智能提取标准代码
某电商多平台订单数据因标准不一难以对齐。通过Dataphin 5.4的X-数据标准Agent,利用大模型语义分析与数据探查,智能逆向抽取码表,快速构建统一编码体系,显著提升数据治理效率与标准化水平。
119 0
|
6月前
|
数据采集 监控 调度
Dataphin功能Tips系列(76)质量规则调度配置系列(3)-定时调度
Dataphin「定时调度」功能支持按需设定数据质量检测时间与频率,适用于定期检查数据质量问题的场景。提供手动配置和系统推荐两种方式,可自动执行规则并生成报告,帮助用户高效发现并处理问题。
218 9
|
4月前
|
数据采集 人工智能 运维
Dataphin功能Tips系列(85)告别“人肉排障”:AI驱动数据质量根因诊断,让治理效率跃升
传统数据治理中,数据质量问题依赖人工排查,效率低且难定位根因。Dataphin 5.4推出X-数据质量根因诊断功能,基于AI大模型分析数据血缘与采样,智能定位问题源头,自动生成整改建议与影响评估,实现从发现问题到闭环治理的自动化,大幅提升治理效率与准确性。
211 0
|
4月前
|
数据采集 运维 调度
Dataphin功能Tips系列(88)补数据场景下,如何实现质量规则的精准回溯校验?
在数据补跑场景中,为精准校验指定历史日期(如12月18日)的数据,质量管理员应使用基于业务日期的表达式 ds='${yyyyMMdd}' 配置调度规则。该方式支持手动执行时动态关联所选业务日期,确保校验范围准确指向目标数据,实现高效、精确的质量校验。
152 0
|
3月前
|
数据采集 存储 SQL
一次采样,全局复用:Dataphin告别重复数据采集,显著释放效能
Dataphin推出全局采样配置功能,实现样例数据“一次采样,多处复用”,支持数据预览、安全分类、标准映射等场景,通过统一策略管理、资源灵活管控,提升数据使用效率,降低计算资源消耗。
177 0
|
4月前
|
存储 分布式计算 关系型数据库
Dataphin功能Tips系列(80)每日新增表高效同步!脚本模式+参数化配置助你轻松搞定动态数据同步
某电商平台每日订单表按日期命名,需同步至MaxCompute统一表。通过Dataphin离线集成,配置动态表名变量`${yyyy_MM_dd}`并结合运行参数,实现自动同步最新订单数据,操作简便高效。
130 0