Dataphin功能Tips系列(92)如何方便快速地通过SQL取数实现定制化数据同步

简介: 本文介绍如何在Dataphin中实现MySQL到MaxCompute的T-1增量数据同步:通过离线集成任务,将MySQL输入组件切换为脚本模式,利用`querySql`配合`${extract_date}`动态参数(默认`${yyyy-MM-dd}`),精准抽取前一日订单数据,配置调度后即可全自动运行。

👉🏻场景

一家电商公司的核心交易数据存储在MySQL的 online_orders 表中,数据量每天都在快速增长。数据团队需要每日将前一天产生的新订单数据同步到MaxCompute的表中,用于后续的分析。如何在Dataphin中实现这一增量同步工作的自动化呢?

👉🏻 解决方案及功能

Dataphin 支持将输入输出组件快速转换为脚本模式组件或直接编写离线集成脚本,实现复杂任务编辑的能力。同时配合 querySql 配置项以及灵活的调度参数,可以轻松实现动态SQL过滤等复杂逻辑,满足定制化的数据抽取需求。我们以从MySQL抽取T-1数据到MaxCompute为例,具体实现步骤如下:

  1. 在「研发」-「数据集成」中,新建一个离线管道任务。从组件面板拖入MySQL输入和MaxCompute输出组件,完成组件连接、来源与目标端的配置。

  2. 在MySQL输入组件的配置面板,点击右上角的“切换到脚本模式”。

  3. 在脚本编辑器中,找到 parameter 参数块,在 connection 中添加 querySql参数并使用${extract_date}作为日期占位符写入SQL语句:
"querySql": [
  "SELECT {$需要查询的字段} FROM online_orders WHERE create_time >= '${extract_date} 00:00:00' AND create_time < DATE_ADD('${extract_date}', INTERVAL 1 DAY)"
  ]

  1. 进入「属性」-「运行参数」,将自定义的参数{extract_date}设置为本地变量并指定参数的默认值为${yyyy-MM-dd}。例如,2026年1月19号时,系统会自动把18号生成新增的订单数据同步进来。

  1. 最后,点击“运行”,为参数指定具体日期验证SQL逻辑是否正确。测试通过后,提交并发布该任务,它将根据调度周期自动运行,每天精准地抽取前一日的增量数据,实现完全自动化同步。

相关文章
|
1月前
|
数据可视化 定位技术
Dataphin功能Tips系列(96)Dataphin 构建外部数据系统血缘统一管理解决方案(2)
Dataphin通过OpenAPI支持外部系统血缘纳管,可基于Catalog/Schema/Env等属性组合注册表级与字段级血缘,补全全链路数据地图,实现跨系统血缘可视化与影响分析。
113 1
|
1月前
|
Java Windows
UGNX2512简体中文安装激活教程(附UGNX2512安装包下载)方法
UG NX2512正式发布:界面焕新暗黑风格,右上角标识更名“DC”,标题栏改为紫黑色;操作流畅度媲美NX2506。安装需管理员运行Setup,选中文/完整模块,注意路径无中文;关键步骤包括复制ProgramData至C盘、导入许可证、覆盖补丁文件。新增后处理配置器、NX真-MTS工件检测等优化功能。(239字)
2332 6
|
4月前
|
SQL 自然语言处理 BI
Dataphin功能Tips系列(87)Dataphin「X-分析」:自然语言开启自助取数新时代
Dataphin推出【X-分析】Agent,支持非技术用户通过自然语言提问,自动生成SQL并执行查询,快速获取数据结果。用户可新建分析专辑,结合业务数据与提示词优化模型理解,实现精准取数。支持SQL审核编辑、保存至Notebook或一键创建Quick BI数据集,打通从查询到分析的全流程,降低人力成本,提升数据消费效率,助力业务自助高效用数。
171 0
Dataphin功能Tips系列(87)Dataphin「X-分析」:自然语言开启自助取数新时代
|
4月前
|
数据采集 人工智能 运维
Dataphin功能Tips系列(85)告别“人肉排障”:AI驱动数据质量根因诊断,让治理效率跃升
传统数据治理中,数据质量问题依赖人工排查,效率低且难定位根因。Dataphin 5.4推出X-数据质量根因诊断功能,基于AI大模型分析数据血缘与采样,智能定位问题源头,自动生成整改建议与影响评估,实现从发现问题到闭环治理的自动化,大幅提升治理效率与准确性。
221 0
|
5月前
|
SQL 数据可视化 大数据
Dataphin数据血缘:实现全面追溯,保障流转透明
数据血缘揭示数据从源头到应用的全链路流转关系,助力企业厘清数据来源、影响范围与质量问题根源。Dataphin通过自动采集、手动配置和OpenAPI注册三类方式构建全面的数据血缘,支持可视化展示与用于质量问题溯源,实现数据可查、可信、可管,推动高质量数据治理。
633 1
|
7月前
|
SQL 分布式计算 关系型数据库
Dataphin x Paimon 开箱即用的数据湖治理解决方案
Dataphin深度集成Apache Paimon,通过全链路功能适配和性能优化,为企业提供开箱即用的数据湖治理解决方案。
432 2
|
3月前
|
大数据 调度
实时数据入湖消费闭环利器:新增检查节点,破解离线任务依赖校验难题
新增“检查节点”功能,通过精准位点校验与灵活配置,解决实时数据入湖后离线任务依赖判断难题,提升数据链路稳定性与研发效率。
145 3
|
8月前
|
搜索推荐 数据管理
Dataphin功能Tips系列(70)自定义菜单:构建一站式数据管理平台
Dataphin通过自定义菜单功能,支持嵌入企业其他平台URL,实现统一的数据开发与管理平台,提升团队协作效率。
263 8
|
11月前
|
数据可视化 数据挖掘 BI
指标透明化+管理敏捷化:Dataphin指标关系图与业务指标管理
通过Dataphin的业务指标定义和管理功能,业务人员能够以标准化方式快速创建业务指标并详细说明其详情,从而实现与技术人员的高效沟通,促进相关技术指标的快速开发。此外,业务人员还可以利用Dataphin的指标关系图功能,直观地理解指标的加工逻辑,并迅速定位异常数据根因,从而显著提高问题解决的效率。
445 8

热门文章

最新文章

下一篇
开通oss服务