宏观来看,首先把数据同步到大数据计算引擎里,再定义自己的数据标准、规范和 数据模型,然后就可以生产数据了,包括离线或者实时数据生产。当代码开发完成审核 通过后,会发布到生产环境进行定时生产调度产出数据,产出的数据可以用于 BI 报表呈 现或是通过 API 形式支撑整个企业应用的正常运转。
微观来看,首先开发人员接到业务需求后,根据实际场景进行代码开发,开发完后 先自测,然后是测试阶段。在测试阶段数据产品经理及专门的测试人员会参与进来,对 开发的代码进行交付测试、数据测试以及 UAT 测试。这个阶段测试内容会很细致,包括 检查表命名及字段命名是否符合规范,数据的空值、重复值、无效值占比是否符合要求 等,同时也会检验产出的正确性,产出数据是否对业务来讲是有用的,代码性能是不是 可接受。
测试完成后,代码就准备上线了。这个时候需要一位对整个企业数据体系和数据业 务非常熟悉的第三方人员来对代码进行复盘,如果对业务没有影响且确实产出有用数据, 那么就可以将此代码发布执行。 最后是运维阶段。任务的责任人最基本的职责就是保证负责的代码每天准时、成功 的运行。如果出现任何问题,需要能够第一时间来查看日志找到原因并解决问题。这时 候就需要一个运维平台来帮助他做任务运维。
以上内容摘自《一站式大数据开发治理DataWorks使用宝典》电子书,点击https://developer.aliyun.com/ebook/download/514可下载完整版
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。