开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

dataworks 同步LogHub 数据中 过滤的时间范围对应系统的__time__ 还是_?

dataworks 同步LogHub 数据中 过滤的时间范围对应系统的time 还是receive_time

展开
收起
真的很搞笑 2023-10-24 15:46:29 50 0
5 条回答
写回答
取消 提交回答
  • 在DataWorks中同步LogHub数据时,过滤的时间范围对应的是Hub的系统时间(system time),而不是收时间(receive_time)。

    通常,在配置LogHub数据源的同步任务时,可以指定过滤条件,其中包括时间范围过滤。这个时间范围过滤是基于LogHub数据的系统时间的,用于筛选出指定时间范围内的日志数据。

    LogHub的系统时间是指日志数据产生的时间,由LogHub服务自动生成并与日志数据一起存储。而接收时间(receive time)是指LogHub接收到日志数据的时间。这两个时间可以不完全一致,因为数据有可能在传输和存储过程中有一定的延迟。

    为了根据时间范围过滤LogHub数据,请确保选择正确的时间字段,并根据需要设置开始时间和结束时间。根据系统时间进行时间范围过滤,可以确保你获取到指定时间范围内的LogHub数据。

    2023-10-25 14:55:50
    赞同 展开评论 打赏
  • 在阿里云DataWorks中,LogHub数据同步任务中的时间范围过滤是对应的系统的Time,也就是Unix时间戳。

    Unix时间戳是从1970年1月1日(UTC/GMT的午夜)开始所经过的秒数,不包括闰秒。它是POSIX标准C库函数time()返回的值,也是Linux/UNIX系统中的常见时间表示方式。

    如果你在过滤条件中使用了特定的日期和时间,比如"2022-01-01 00:00:00",那么DataWorks会将其转换为对应的Unix时间戳,然后再进行过滤。

    2023-10-25 11:30:08
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在DataWorks中,如果需要通过过滤条件来限制同步LogHub数据的时间范围,可以使用LogHub中的时间字段来设置过滤条件。
    LogHub中的时间字段通常为time,因此在设置过滤条件时,应该使用time字段。例如,如果需要同步LogHub数据的前30天数据,可以设置过滤条件为time > now() - 30天。
    需要注意的是,LogHub中的时间字段是以UTC时间表示的,因此在设置过滤条件时,需要考虑时区的影响。此外,设置过滤条件时,需要确保过滤条件的正确性,以确保数据的正确性和完整性。

    2023-10-24 22:47:11
    赞同 展开评论 打赏
  • receive_time 建议参考这个时间,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-10-24 22:38:38
    赞同 展开评论 打赏
  • 月移花影,暗香浮动

    在DataWorks同步LogHub数据时,过滤的时间范围对应的是数据的进入LogHub的时间,即receive_time。所以在进行任务配置时,需要确保所设置的时间区间内包含了实际进入LogHub的数据。

    2023-10-24 16:44:47
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 热门讨论

    热门文章

    相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载

    相关实验场景

    更多