开发者学堂课程【新电商大数据平台2020最新课程:电商项目之建模分析(8个问题)】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/640/detail/10495
电商项目之建模分析(8个问题)
本节主要讲建模分析的8个问题及其解决方向
问题1:临时取数需求占用数仓人员大部分时间
在正常开发工作当中,可能会提出一些临时需求,比如产品经理会根据客户需求提出一些相关需求,临时需求产生之后,需要有人去做,这样开发人员的大部分时间会被占用,因此就会无法完成自己的工作。
解决方向:自动取数和 OLAP 系统
系统需要提前做出来,为后面的客户需求提供一个数据支持,减少临时需求的产生,节省开发人员的时间。
问题2:数仓规范和流程不一致,跨部门合作
比如,如果规则流程不清晰,之后进行开发就会遇到很多问题,导致后续一些开发人员无法进行正常对接。
跨部门合作,比如,做大数据的工作人员可能会和测试组或者后端开发组进行交物,这时各部门所负责的工作对方都不懂,就可以各自去学习相关的开发文档或规范文档。
解决方向:建模规范和开发规范
问题3:指标口径不一致导致数据可信度下降
比如,运行一个数据执行两次任务的时候,结果可能不一致,首先要分析数据,检查是否丢失数据。两次结果不相同,可能是数据有问题,也可能是计算引擎有问题。
解决方向:指标字典
问题4:数据膨胀导致计算资源紧张,出数时间得不到保障
比如,在电商行业,某一个时间点数据量非常大,这时预估资源可能会不够,计算资源有限,导致任务运行效率降低,运行时间拖长,出数时间得不到保障。所以,我们在开发文档建模过程中,需要把预估资源合理利用好。
解决方向:建模规范和开发规范
数据产品和服务化(后面会说到数据产品和服务化的具体意思)
问题5:问题排查和异常数据处理时间过长
比如产生一个异常之后,我们可能会花大量的精力和时间去解决这个问题,这时开发时间就会减少。我们可以通过原数据的管理和数据的质量监控来去监控这些问题。
解决方向:元数据与数据质量监控(不是解决问题的办法而是进行数据的侦查,分析问题产生的地方,之后再解决问题)
问题6:数据安全和数据共享矛盾不可调和
比如用户的基本信息数据,身份证,手机号等隐私数据我们接触不到。所以要使用的时候,我们需要向组长或者项目经理甚至开发总监申请调用,这时就需要进行一步步审批,审批的步骤可能相当复杂。
后端开发或是大数据开发都必须保证数据安全。
解决办法:数据分级与权限管理
问题7:产出形式单一
比如做开发时,只是简简单单写出一个报表,没有特别高的价值,而且任务比较单一化。如果后续,有一些画像或推荐系统等做数据支持,就会更有意义。
解决方向:数据产品和服务化
问题8:业务需求响应不及时
与数据膨胀导致计算资源紧张类似,比如在开发时,我们定义好某个任务要跑多久,之前 UM2跑的时候可能没什么问题,但是数据量一增大, UM2的性能大大降低,这时可能需要用到 spark 去跑,来提高效率,在规定时间内完成任务,所以我们需要设计一些备选方案。
解决办法:自动取数和 OLAP 系统
数据产品和服务化