目前数据集成拿到的数据,基本都是t+1,有部分数据源会直接在原数据上修改,比如,我18.37未支付,18:38已支付并且已下单,18:39为已支付待发货,第二天拿过来的数据其实只有一条已支付待发货.
这些历史数据可能有用,但是不精确,我应该保留他们吗?或者怎么处理合适呢?
其实就是对历史数据的处理,需要结合具体的业务场景和分析目的进行考虑。
如果历史数据可以提供有用的信息,比如可以帮助建立模型、分析趋势或者支持决策等,那么可以考虑将其保留。但是,需要对数据进行清洗和加工,以使其更准确和可靠。
对于你提到的这种情况,可以考虑将18:37的未支付数据和18:39的已支付待发货数据合并,得到完整的订单信息。如果历史数据有多个时间点的记录,可以根据时间顺序将其按照时间顺序合并。同时,在数据清洗过程中,需要注意数据的一致性和准确性,比如可以进行数据去重、数据验证、异常值处理等,以确保最终的数据结果可靠。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。