开发者学堂课程【 SaaS 模式云数据仓库系列课程 —— 2021数仓必修课:MaxCompute 持续定义 SaaS 模式云数据仓库— 云数据仓库+ AI 】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/55/detail/1030
MaxCompute 持续定义 SaaS 模式云数据仓库— 云数据仓库+AI
内容介绍:
一、人工智能的 3次黄金时期
二、数据仓库内置机器学习优势
三、MaxCompute 产品技术特性
四、SQL 查询语言的发展及现状
五、MaxCompute Mars
一、人工智能的3次黄金时期
l 人工智能的3次黄金时期
二、数据仓库内置机器学习优势
Ø 整体优势
1.无需移动数据(数据量大),降低基础设施成本、人工成本、减少数据安全风险(HIPPA法案)
2. 数据访问速度快(让算法找数据)
3.可扩展性强
4.纯 SQL ML/Python 更易用
Ø 各角色均受益
1.商务人士:新想法可以得到快速试验,ROI 提升
2. 数据科学家/数据分析师:大部分工作通过 SQL/Python 实现,易用提效;模型开发/生产环境无缝对接。
3.DBA :数据管理简单、安全性更高
三、MaxCompute 产品技术特性
Ø 集成 AI 能力
·提供 SQLML 可以直接使用标准 SQL 训练机器学习模型,并对数据进行预测分析
·Mars:使用Python科学计算、机器学习三方库
·可使用用户熟悉的 Spark-ML 开展智能分析
·与PAI无缝集成,提供强大的机器学习处理能力
四、SQL 查询语言的发展及现状
Ø SQL 发展
定义:结构化查询语言,用于和 RDBMS 交互。
Ø 发展历程
1970年代初,IBM 提出规范语言 SEQUE L, 后改名 SQL
1979年 ORACLE 提出商用 SQL
1986年,关系数据库管理系统被ISO采纳为国际标准
2011年: ISO/IEC 9075:2011 SQL:2011
五、MaxCompute Mars
Ø 项目名字 Mars: 最早是 Matrix and Array; 登陆火星
Ø 为什么要做 Mars:
1) 为大规模科学计算设计的:大数据引擎编程接口对科学计算不太友好,框架设计不是为科学计算模型考虑的
2) -传统科学计算基于单机,大规模科学计算需要用到超算
3) Tips科学计算:计算机梳理数据:Excel->数据库(MySQL)->Hadoop,Spark,MaxCompute数据量有了很大变化,计算模型没有变化,二维表,投影、切片、聚合、筛选和排序,基于关系代数,集合论;科学计算基础结构不是二维表:例如图片2维度,每个像素点不是一个数字(RGB+a透明通道)
4) 传统 SQL 模型处理能力不足:线性代数,专制行列式的相乘,现有数据库效率低
-现状 R,Numpy 单机基于单机; Python 生态的Dask大数据到科学计算的桥梁
Ø 案例:客户 A MaxCompute 现有数据,需要针对这些百亿数据TB级别的数据相乘;现 有 MapReduce 性能;用 Mars 就可以高效的解决;目前是唯一一个大规模科学计算引擎