开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

面对数据延迟导致的问题,模型层应该如何设计

目前数据集成拿到的数据,基本都是t+1,有部分数据源会直接在原数据上修改,比如,我18.37未支付,18:38已支付并且已下单,18:39为已支付待发货,第二天拿过来的数据其实只有一条已支付待发货.

这些历史数据可能有用,但是不精确,我应该保留他们吗?或者怎么处理合适呢?

展开
收起
离原 2023-02-17 10:56:14 634 1
1 条回答
写回答
取消 提交回答
  • 发表文章、提出问题、分享经验、结交志同道合的朋友

    其实就是对历史数据的处理,需要结合具体的业务场景和分析目的进行考虑。

    如果历史数据可以提供有用的信息,比如可以帮助建立模型、分析趋势或者支持决策等,那么可以考虑将其保留。但是,需要对数据进行清洗和加工,以使其更准确和可靠。

    对于你提到的这种情况,可以考虑将18:37的未支付数据和18:39的已支付待发货数据合并,得到完整的订单信息。如果历史数据有多个时间点的记录,可以根据时间顺序将其按照时间顺序合并。同时,在数据清洗过程中,需要注意数据的一致性和准确性,比如可以进行数据去重、数据验证、异常值处理等,以确保最终的数据结果可靠。

    2023-02-17 11:54:20
    赞同 1 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

热门讨论

热门文章

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载