开发者学堂课程【高校精品课-长安大学 -基于混合式教学的云计算课程建设:4.1 平台服务 阿里云】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1073/detail/15480
4.1 平台服务 阿里云
内容介绍:
一、课程内容
二、平台服务
三、DataWorks --产品架构
四、 阿里云DataWorks 基本概念
五、 DataWorks 核心能力-数据集成
六、 DataWorks 核心能力--数据开发
七、 DataWorks 离线数据开发- Data Studio
八、 DataWorks 实时数据开发-- Stream Studio
九、 DataWork 交互式分析--Hologres
十、 DataWork 任务调度
十一、DataWork 核心能力-数据治理
十二、DataWork核心能力--数据服务
一、课程内容
1.Paas 平台主要提供给开发人员使用为开发人员提供了软件开发的工具,都是通过将平台装成服务的形式来实现的。
2.它整合了现有的各种服务并且对 它们进行了具体的分类向下层的 IIS 发展,Paas 平台可以提供计算服务功能,IIS 负责提供 API 接口给 Paas 平台,通过方式,来对资源进行管理。
3.那像上层 SAS 发展,可以提供应用管理的相关服务,给用户对平台的资源进行管理,并且可以借助 API 接口向用户提供这些资源。从云浮参考模型中的服务层的价格来看 Paas 平台,提供的是位于整个服务层的中间部分因此也可以把 Paas 看做中间键及服务,在对资源的抽象程度上 Paas 比 ias 更加深入,使用 Paas 云平台可以更好的对底层资源进行调度,同时作为中间键平台 Paas 平台为上层应用 SAS 提供定制化的产品,并且能实现对开发环境的维护。
4.通过应用 Paas 平台还可以使资源利用率的数量得到提高,用户在使用 Paas 平台时候能够获得更多的便利,但是另一方面 Paas 平台的大量应用也会带来问题比如由于行业趋于标准化,用户对开发环境的选择就比以前更少了。
二、平台服务
1.随着 Paas 被越来越多的企业使用,其服务平台也日益广泛,统计数据显示大数据分析是所有的 paas 服务产品中用户使用率最高的服务产品,这也正是用户对大数据分析服务不断增长的需求的一个体现
2.在采用 Paas 服务的形式以后,用户自行搭建大数据分析平台已不再是一个必须的要求,为用户带来了方便受到了用户越发的青睐,在 Paas 平台中讲述的是数据分析和处理平台
阿里云 DataWorks Google 云平台 Hadoop 开源云平台都是数据分析和处理平台
3.DataWorks 是阿里云重要的Paas平台产品之一,它为用户提供包含数据集成数据开发,数据地图,数据质量和数据服务在内的全方位产品服务, 它拥有一站式开发管理的界面能够帮助企业专注于数据价值的挖掘和探索,它还支持多种计算和存储计算引擎
4.包括离线计算 max compute,开元大数据引擎实时计算,机器学习图计算和交互式分析服务等并且支持用户自定义接入计算和存储服务
5.DataWorks 为用户提供全链录的智能大数据及AI开发和致力服务它可以使用DataWorks 对数据进行传输转换和集成等操作,从不同的数据存储引入数据并进行转换和开发最后将处理好的数据同步至其 它的数据系统。
三、DataWorks --产品架构
1.以数据为基础,以全链路的加工为核心,提供数据集成,数据开发治理服务等多种功能,既能满足平台用户的数据需求又能为上层应用提供行业解决方案
四、阿里云 DataWorks 基本概念
1.工作空间,业务流程,解决方案,组件,任务,实例提交,脚本开发,资源、函数,输出名称
2.工作空间是 DataWorks 管理任务成员分配角色和权限的基本单元,工作空间管理员可以加入成员到工作空间,并赋予工作空间管理员开发运为部署安全管理员或访扣角色,已实现多角色的协同工作,一个工作空间支持绑定离线计算max compute,开元大数据引擎实时计算
等多种类型的计算引擎实力绑定引擎实力以后即可在工作空间开发和调度引擎任务
3.业务流程针对业务实体抽象出业务流程的概念帮助用户从业务视角组织代码的开发提高任务管理效率
4.解决方案可以自定义组合部分业务流程为一个解决方案,一个解决方案可以包括多个业务流程,解决方案之间可以附用相同的业务流程组织完成的解决方案包含各类节点组件
将 circle 中的通用逻辑抽象为组件以提高代码的附用性, circle 代码的处理过程,通常是引入一个或者多个原数据表,通过过滤链接和聚合等操作加工出新的业务需要的目标机
5.组件是带有多个输入参数和输出参数的 circle 代码的过程模板
6.任务是对数据执行的操作的定义,比如通过数据同步节点任务,将数据从 rds 同步者 max computer 或者通过 max computer,circle节点任务运行max computer的 circle 来进行数据的转换等等,每个任务可以使用数据表作为输入生成一个或者多个 数据表或者数据及作为输出,任务主要也分为节点任务工作流任务和内部节点,节点任务是一个数据执行的操作可以与其 它节点任务工作流任务配置依赖关系,工作流任务是满足一个业务场景需求的一组内部节点组成一个工作流任务工作流任务内部节点无法被其 它工作流的任务或者节点任务依赖.
7.注意的是 DataWorks 2.0 版本及以上已经无法创建工作流任务,可以选择创建业务流程进行后续操作,内部节点是工作流任务内部的节点与节点任务的功能基本一致,通过唾液来形成依赖关系
8. 实例提交是某个任务在某时某刻执行的一个快照,调度系统中的任务经过调度系统手动触发运行后就会生成一个实力,实力中会有任务的运行时间运行状态和运行日制等信息
例如我们设置每天2点运行 tusk1 实例,调动系统就会在每天晚上11点半根据周期节点定义好的时间自动生成一个快照。到第二天两点的时候,如果判断实例已经完成任务1的实例便会如期的启动运行
9.脚本开发是提供给数据分析使用的一个代码存储空间,脚本开发的代码无法发布到
调度系统,无法进行调度参数的配置,仅可以进行部分数据查询和分析的工作
10.资源函数的概念是 max computer 的概念可以参见 max computer 的文档
11.输出名称是每个任务输出点的名称,它是在单个租户,阿里云账号内设置依赖关系时用于连接上下有两个任务的虚拟实体,当在设置某任务与其 它任务形成上下与依赖关系时,必须依据输出名称来完成设置,设置完成后该任务的输出名也就成为下一个下有节点的输入名称。
五、DataWorks 核心能力-数据集成
1.数据集成是稳定高效弹性伸缩的一个数据同步平台, 它致力于提供复杂网络环境下丰富的易购数据源之间高速稳定的数据移动及同步能力,它具有可视化,向导模式和脚本模式两种任务配置方式,目前的数据集成主要提供数据批量也就是离线增量两种徒步同步方式并且提供整库迁移和批量上云等 解决方案。
2.数据集成提供的批量创建同步任务的 快捷工具,能够让用户快速的将单个或多个数据库内的所有表批量上传到 max computer 节省大量时间与人力成本,离线的 同步节点也支持 max computer circle circle server postcard circle 等等,很多的数据源类型
六、 DataWorks 核心能力--数据开发
1.提供 circle 格式化智能补齐关键词高量错误提示 circle 内部结构等人性化的功能,数据开发支持用户自行组合 circle mr shell 实时计算和机器学习各类任务的混编工作流并且可以实现分中级的调度逻辑控制和上下游传参
2.支持 从业务视角整体管理工作流将同类业务组织为解决方案实现沉浸式开发
3.数据开发提供开发生产环境隔离的标准的工作空间模式,从宏观上实现更稳定更可靠的生产环境
七、 DataWorks 离线数据开发- Data Studio
1.支持阿里云的 max computer 和 produce 两种大数据引擎
的离线数据开发,可构建复杂的业务流程和调度依赖,提供开发生产环境隔离的研发模式它支持业务流程的混合编排智能的 circle 编辑器全面的引擎能力封装自定义节点这些功能和特点
八、DataWorks 实时数据开发-- Stream Studio
1.是基于阿里云实时计算引擎构建,通过可视化的拖曳就可以轻松实现实时的计算作业开发,它支持 TAI 和 circle 两种模式进行互相的转换它的模式有 DAG 开发模式Flink SQL 开发模式 它还可以让 DAG 开发模式 Flink SQL 开发模式进行互相转换而且还支持作业的智能诊断方便排查问题
九、 DataWork 交互式分析--Hologres
1.max computer 的交互式分析 Hologres 是一款兼容 posts circle 协议的实时交互式分析产品它与大数据生态无缝的打通,轻松的可以使用现有的 VI 工具对数据进行多为分析透视和业务探索,它具有极速响应是 PP 级的数据雅淼级的查询响应高性能可以达到亿级的 tps 的写入速度还有低成本还有安全可靠
十、DataWork 任务调度
1.它提供每日千万级的大规模的周期性任务,它支持顺序循环,分支跨地域依赖节点上下文传参,它是一个业界领先的一个任务调度系统它可以实现到分钟小时天周月的周期的调度
包括它的支持顺序 循环分支判断的流程控制还有跨地域跨周期的任务依赖节点的上下文传参
十一、DataWork 核心能力-数据治理
1.提供多种的数据处理视角下的数据治理流程与工具引导,可以满足数据生产数据使用数据管理场景下的主要的数据智力需要,数据治理涉及到数据资产数据资产地图,数据安全数据质量智能监控资源优化等。
2.数据地图它是在原数据的基础上提供的企业数据的资产的管理模块它涵盖全局的数据检索原数据的详情查看数据预览数据的血缘和数据的类目管理等功能,它可以帮助用户更好的查找理解和使用数据
3.数据安全它提供数据的分级分类敏感数据的智能识别与脱名分享依据与审计数据的可追溯等功能
4.数据质量提供多种易购存储数据源的质量的自动监测与教验包括数据探查对比质量监控 supers 扫描和智能报警等功能
5.智能监控支持海量计算任务的智能监控与业务的极限报警
6.资源优化它是从数据存储数据计算和数据采集3个领域进行扫描帮助用户扫描可优优化的表和节点从而合理高效的运行 DataWork 上面的工作
十二、DataWork 核心能力--数据服务
1.为企业搭建统一的数据服务总线帮助实现统一管理对内对外的 API 服务数据服务不仅支持将现有的 API 快速注册到数据服务平台以统一管理和发布,通过与阿里云的 API 网关打通还支持将 API 服务一键发布到 API 网关 ,用户只需关注 API 本身的查询逻辑而不需要去关心运行环境等基础设施,数据服务会准备好计算资源并支持弹性扩展,实现0的运维成本。