开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

当前大淘系的数据问题现状如何?

已解决

当前大淘系的数据问题现状如何?

展开
收起
游客lmkkns5ck6auu 2022-08-29 22:02:46 342 0
1 条回答
写回答
取消 提交回答
  • 推荐回答

    1) 规范性问题 • 表命名不规范,缺乏管控:随着数据量增长,大淘系的表出现了大量命名未遵 循阿里大数据体系的情况,难以管控。

    2) 通用层复用性问题 • 通用层表复用性不高:通用层表下游引用少于 2 个的数量非常多; • 通用层建设不足或通用层透出不足:cdm 引用下降,ads 引用上升; • 较多的 ads 表共性逻辑未下沉:出现很多 ads 表代码重复,字段相似度高的情 况。

    3) 应用层效率问题 • 临时表多,影响数据管理:出现了很多 TDDL 临时表、PAI 临时表、机器临时表、 压测临时表等; • 通用层表在各团队分布不合理:散布多个团队; • 较多的 ads 表共性逻辑未下沉; • 部分 ads 表层内依赖深度较深:很多 ads 表在应用层的深度超过 10 层; • 应用层跨集市依赖问题明显:不同集市间 ads 互相依赖,不仅影响了数据稳定 性,而且数据准确性也难以保障; • 存在大量的可交接的通用层表:不同团队的通用层数据与大淘系数据混合在一起; • 表人员分配不均衡:表 owner 管理的表数量分布很不均匀,有些 owner 名下只有几十张,有些 owner 名下有几千张。

    以上内容摘自《大数据&AI实战派 第1期》电子书,点击https://developer.aliyun.com/ebook/download/7722 可下载完整版

    2022-08-30 13:02:13
    赞同 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关电子书

更多
聚星台—客户运营核心大数据 与算法技术 立即下载
阿里云解决方案交流会新零售-项目洞察及竞对分析 立即下载
互联网下半场的角逐,玩转轻资产的大数据服务—图(关系网络)数据分析与阿里应用 立即下载