开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

如何权衡成本和数据完整性的关系

就好像我一个交易模型中有活动id,活动名称两个字段,有些表中可以直接获取,有些可能需要需要通过活动id来获取活动名称,有些则需要通过订单号来关联其他表获得活动名称和活动id. 我应该为了避免缺失值来不断关联获得数据吗?还是应该在一定范围内关联,像关联三张表可能获得一个不是很重要的字段,是不是没有必要.

展开
收起
离原 2023-02-20 12:48:09 424 0
1 条回答
写回答
取消 提交回答
  • 发表文章、提出问题、分享经验、结交志同道合的朋友

    这个问题是没有标准答案的,最终还是要看应用场景,一般可以根据数据的重要性可靠性来确定是否需要获取完整的数据

    2023-02-21 20:34:42
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

热门讨论

热门文章

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载