MaxCompute 持续定义 SaaS 模式云数据仓库— 云数据仓库+ AI

MaxCompute 持续定义 SaaS 模式云数据仓库— 云数据仓库+ AI | 学习笔记

2021-12-19 350

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习 MaxCompute 持续定义 SaaS 模式云数据仓库 — 云数据仓库+ AI

开发者学堂课程【 SaaS 模式云数据仓库系列课程 —— 2021数仓必修课：MaxCompute 持续定义 SaaS 模式云数据仓库— 云数据仓库+ AI 】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/55/detail/1030

MaxCompute 持续定义 SaaS 模式云数据仓库— 云数据仓库+AI

内容介绍:

一、人工智能的 3次黄金时期

二、数据仓库内置机器学习优势

三、MaxCompute 产品技术特性

四、SQL 查询语言的发展及现状

五、MaxCompute Mars

一、人工智能的3次黄金时期

l 人工智能的3次黄金时期

二、数据仓库内置机器学习优势

Ø 整体优势

1.无需移动数据（数据量大）,降低基础设施成本、人工成本、减少数据安全风险（HIPPA法案）

2. 数据访问速度快（让算法找数据）

3.可扩展性强

4.纯 SQL ML/Python 更易用

Ø 各角色均受益

1.商务人士：新想法可以得到快速试验，ROI 提升

2. 数据科学家/数据分析师：大部分工作通过 SQL/Python 实现，易用提效；模型开发/生产环境无缝对接。

3.DBA :数据管理简单、安全性更高

三、MaxCompute 产品技术特性

Ø 集成 AI 能力

·提供 SQLML 可以直接使用标准 SQL 训练机器学习模型，并对数据进行预测分析

·Mars:使用Python科学计算、机器学习三方库

·可使用用户熟悉的 Spark-ML 开展智能分析

·与PAI无缝集成，提供强大的机器学习处理能力

四、SQL 查询语言的发展及现状

Ø SQL 发展

定义：结构化查询语言，用于和 RDBMS 交互。

Ø 发展历程

1970年代初，IBM 提出规范语言 SEQUE L, 后改名 SQL

1979年 ORACLE 提出商用 SQL

1986年，关系数据库管理系统被ISO采纳为国际标准

2011年： ISO/IEC 9075:2011 SQL:2011

五、MaxCompute Mars

Ø 项目名字 Mars: 最早是 Matrix and Array; 登陆火星

Ø 为什么要做 Mars:

1) 为大规模科学计算设计的：大数据引擎编程接口对科学计算不太友好，框架设计不是为科学计算模型考虑的

2) -传统科学计算基于单机，大规模科学计算需要用到超算

3) Tips科学计算：计算机梳理数据：Excel->数据库（MySQL)->Hadoop,Spark,MaxCompute数据量有了很大变化，计算模型没有变化，二维表，投影、切片、聚合、筛选和排序，基于关系代数，集合论；科学计算基础结构不是二维表：例如图片2维度，每个像素点不是一个数字（RGB+a透明通道）

4) 传统 SQL 模型处理能力不足：线性代数，专制行列式的相乘，现有数据库效率低

-现状 R,Numpy 单机基于单机； Python 生态的Dask大数据到科学计算的桥梁

Ø 案例：客户 A MaxCompute 现有数据，需要针对这些百亿数据TB级别的数据相乘；现有 MapReduce 性能；用 Mars 就可以高效的解决；目前是唯一一个大规模科学计算引擎