因为之前在学校授课过程中讲授数据仓库课程时是通过MaxCompute来进行讲解的,因此针对这次MaxCompute2.0的升级,在我在教学中也对课程内容同样进行了升级,这里针对主要的升级点进行一些说明。
针对数据科学与大数据技术专业的学生来说,数据仓库应该算是他们必须要掌握的技能之一,而开源数据仓库环境搭建对本地系统要求很高,同时企业中关注的也不是环境搭建而是基于数据仓库的数据分析和数据处理,因此在这门课程的设计中,我们通过使用MaxCompute来替代本地搭建Hive作为学生的学习和实验环境,以保证所有学生都能够有一个稳定的实验环境。
本次更新影响相对比较大的点主要有:
- 开发环境与生产环境的问题,因为之前版本中开发环境和生产环境并没有这次这么明确的区分,因此更新后很多学生在学习和使用时发现找不到自己建立的表,原因就是没有注意查找的是开发环境还是生产环境。当然明确区分开发和生产环境这是很好的设计,但是建议在相对更明显的地方提供切换开发生产环境的按钮与标识,方便用户来查看与切换。
- 新增业务流程和解决方案:业务流程与之前的工作流功能类似,算是一个升级版,节点图标优化的比较好,方便查看和管理,而且可以很方便的通过解决方案查看和导入机器学习PAI中准备好的算法模型
因为在授课中主要讲解数据仓库的基础知识,以及让学生基于现有系统自行设计数据仓库各层的架构,并完成ETL,因此通过MaxCompute的流程管理就很容易直观的让学生感受到处理过程。