开发者社区> 问答> 正文

您好,dataphin得流批一体是是全链路的吗,离线部分是否需要手动任务调度?

您好,dataphin得流批一体是是全链路的吗,离线部分是否需要手动任务调度?image.png 所有表包括中间层处理表都需要镜像表?最终使用镜像表分析?

展开
收起
真的很搞笑 2023-05-17 16:15:14 132 0
3 条回答
写回答
取消 提交回答
  • 值得去的地方都没有捷径

    对于问题1,您可以将自定义SQL语句保存为数据集,然后在事实表的计算逻辑中引用该数据集。具体步骤请参考我之前回答的内容。

    对于问题2,如果您写好了整个表的INSERT语句,可以将该语句作为一个数据集保存,然后在事实表的计算逻辑中引用该数据集。具体操作步骤如下:

    在Dataphin中创建一个数据集,将您的整个表的INSERT语句保存在该数据集中。

    在事实表的计算逻辑中,引用该数据集的SQL语句。具体操作步骤如下:

    a. 在事实表的计算逻辑编辑页面,点击“添加计算逻辑”按钮。

    b. 在弹出的窗口中,选择“自定义SQL”选项。

    c. 在SQL语句输入框中,输入您保存在数据集中的INSERT语句,然后保存。

    在事实表的计算逻辑中,使用您在SQL语句中定义的表名和字段名来引用数据集中的数据。

    a. 在事实表的计算逻辑编辑页面,找到您需要引用数据集中数据的字段。

    b. 在该字段的“计算方式”选项中,选择“SQL计算”。

    c. 在“SQL语句”输入框中,使用您在数据集中定义的表名和字段名来引用数据集中的数据。

    总之,您需要将整个表的INSERT语句保存为数据集,然后在事实表的计算逻辑中引用该数据集。这样,您就可以使用自定义SQL来计算事实表了。需要注意的是,如果您的数据集中的数据量比较大,可能会对性能产生影响,建议您谨慎使用。

    2023-05-18 18:38:40
    赞同 展开评论 打赏
  • 您好, 离线任务也可以设置周期调度的。 实时部分需要创建实时元表,您可以参考下这个说明 https://developer.aliyun.com/article/900937,此回答整理自钉群“Dataphin公共云答疑群”

    2023-05-17 16:24:54
    赞同 展开评论 打赏
  • CSDN全栈领域优质创作者,万粉博主;InfoQ签约博主;华为云享专家;华为Iot专家;亚马逊人工智能自动驾驶(大众组)吉尼斯世界纪录获得者

    是的,Dataphin 的流批一体是全链路的,包括数据的采集、清洗、转换、计算和输出等环节。在数据处理过程中,离线部分需要手动任务调度来控制任务的执行顺序和时间安排。

    具体来说,离线部分的任务调度可以通过 Dataphin 的作业调度功能实现。用户可以根据自己的需求,设置离线任务的执行时间、频率和优先级等参数,以便系统自动安排任务的执行顺序和时间安排。同时,用户也可以手动触发某些离线任务,以便及时处理一些关键的数据问题。

    需要注意的是,Dataphin 的流批一体虽然支持全链路的数据处理,但在实际应用中,离线部分的任务调度通常会受到数据量、数据质量和处理速度等因素的影响,因此需要仔细考虑和设计任务调度策略,以确保数据处理的高效性和准确性。

    2023-05-17 16:24:54
    赞同 展开评论 打赏
来源圈子
更多
收录在圈子:
问答排行榜
最热
最新

相关电子书

更多
构建企业级好数据(Dataphin智能数据建设与治理白皮书) 立即下载
低代码开发师(初级)实战教程 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载