开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

当前大淘系的数据问题现状分析结果是什么?

已解决

当前大淘系的数据问题现状分析结果是什么?

展开
收起
游客lmkkns5ck6auu 2022-08-29 22:02:45 356 0
1 条回答
写回答
取消 提交回答
  • 推荐回答

    通过对当前数据问题的数字化,我们发现问题涉及到数据的评、建、管、用各个环 节。

    评:缺乏一套统一数据评估体系。

    数据问题的发现以往主要通过专家经验、开发使用环节发现和离散型的数据分析得到,缺乏一套统一的数字化评估体系。数据量有多少?不同层次的数据分布如何? 表的命名规范性如何?表的复用性如何?表的加工效率和消费效率如何?如何评价数据建设、使用和维护的好不好?好的数据应该通过哪些指标评估出来? 建:基于数据问题分析我们发现,在统一进行通用层构建和治理的时间段,数据在规范性、复用性、链路复杂度、使用效率等方面表现较好,但是在没有进行统一构建和治理的时间,数据在各方面都表现不好。原因在于:我们有一套阿里大数据体系规范,但是我们并没有一套覆盖设计、评审、开发、管控、治理的建模开发产品。

    管:数据构建完成后,并没有有效的对数据进行成本、复用性、效率、健康情况的 管理,通常依赖于集中治理、专项治理或推送治理。成本高、迭代慢。同时还存在 表管理分布不均的问题,有些 owner 承担了大量的管理和运维工作,数据交接后难 以维护,导致数据使用难度高。

    用:数据最终是为了使用,通过数据分析和调研问卷来看,普遍存在找数难、不会用、不敢用等问题。就导致除了一些非常核心的模型数据外,很多开发者宁愿重新开发也不愿去花费很大精力去找数和理解数据,造成恶性循环。

    以上内容摘自《大数据&AI实战派 第1期》电子书,点击https://developer.aliyun.com/ebook/download/7722 可下载完整版

    2022-08-30 13:02:58
    赞同 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

热门讨论

热门文章

相关电子书

更多
聚星台—客户运营核心大数据 与算法技术 立即下载
全链路稳定性背后的数字化支撑:阿里巴巴鹰眼技术解密 立即下载
全链路稳定性背后的数字化支撑阿里巴巴鹰眼技术解密 立即下载