MaxCompute 持续定义 SaaS 模式云数据仓库— 云数据仓库+ AI | 学习笔记

简介: 快速学习 MaxCompute 持续定义 SaaS 模式云数据仓库 — 云数据仓库+ AI

开发者学堂课程【 SaaS  模式云数据仓库系列课程 —— 2021数仓必修课MaxCompute  持续定义 SaaS  模式云数据仓库— 云数据仓库+ AI 】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/55/detail/1030


MaxCompute  持续定义  SaaS  模式云数据仓库— 云数据仓库+AI


内容介绍:

一、人工智能的 3次黄金时期

二、数据仓库内置机器学习优势

三、MaxCompute  产品技术特性

四、SQL 查询语言的发展及现状

五、MaxCompute Mars



 一、人工智能的3次黄金时期

l 人工智能的3次黄金时期

 image.png

 

二、数据仓库内置机器学习优势

Ø 整体优势

1.无需移动数据(数据量大),降低基础设施成本、人工成本、减少数据安全风险(HIPPA法案)

2. 数据访问速度快(让算法找数据)

3.可扩展性强

4.纯  SQL ML/Python  更易用

Ø 各角色均受益

1.商务人士:新想法可以得到快速试验,ROI  提升

2. 数据科学家/数据分析师:大部分工作通过  SQL/Python  实现,易用提效;模型开发/生产环境无缝对接。

3.DBA  :数据管理简单、安全性更高

 

三、MaxCompute   产品技术特性

Ø 集成  AI  能力

·提供  SQLML  可以直接使用标准  SQL  训练机器学习模型,并对数据进行预测分析

·Mars:使用Python科学计算、机器学习三方库

·可使用用户熟悉的  Spark-ML  开展智能分析

·与PAI无缝集成,提供强大的机器学习处理能力


四、SQL  查询语言的发展及现状

Ø SQL  发展

定义:结构化查询语言,用于和  RDBMS  交互。

Ø 发展历程

1970年代初,IBM  提出规范语言  SEQUE L, 后改名  SQL

1979年   ORACLE 提出商用  SQL

1986年,关系数据库管理系统被ISO采纳为国际标准

2011年: ISO/IEC 9075:2011  SQL:2011

image.png


五、MaxCompute Mars

Ø 项目名字  Mars:  最早是 Matrix and Array;  登陆火星

Ø 为什么要做  Mars:

1) 为大规模科学计算设计的:大数据引擎编程接口对科学计算不太友好,框架设计不是为科学计算模型考虑的

2) -传统科学计算基于单机,大规模科学计算需要用到超算

3) Tips科学计算:计算机梳理数据:Excel->数据库(MySQL)->Hadoop,Spark,MaxCompute数据量有了很大变化,计算模型没有变化,二维表,投影、切片、聚合、筛选和排序,基于关系代数,集合论;科学计算基础结构不是二维表:例如图片2维度,每个像素点不是一个数字(RGB+a透明通道)

4) 传统  SQL  模型处理能力不足:线性代数,专制行列式的相乘,现有数据库效率低

-现状  R,Numpy  单机基于单机; Python  生态的Dask大数据到科学计算的桥梁

Ø 案例:客户  A MaxCompute  现有数据,需要针对这些百亿数据TB级别的数据相乘;现 有  MapReduce 性能;用  Mars  就可以高效的解决;目前是唯一一个大规模科学计算引擎

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
6月前
|
存储 关系型数据库 数据库
附部署代码|云数据库RDS 全托管 Supabase服务:小白轻松搞定开发AI应用
本文通过一个 Agentic RAG 应用的完整构建流程,展示了如何借助 RDS Supabase 快速搭建具备知识处理与智能决策能力的 AI 应用,展示从数据准备到应用部署的全流程,相较于传统开发模式效率大幅提升。
附部署代码|云数据库RDS 全托管 Supabase服务:小白轻松搞定开发AI应用
|
4月前
|
存储 SQL 机器学习/深度学习
一文辨析:数据仓库、数据湖、湖仓一体
本文深入解析数据仓库、数据湖与湖仓一体的技术原理与适用场景。数据仓库结构严谨、查询高效,适合处理结构化数据;数据湖灵活开放,支持多模态数据,但治理难度高;湖仓一体融合两者优势,实现低成本存储与高效分析,适合大规模数据场景。文章结合企业实际需求,探讨如何选择合适的数据架构,并提供湖仓一体的落地迁移策略,助力企业提升数据价值。
一文辨析:数据仓库、数据湖、湖仓一体
|
8月前
|
SQL 分布式计算 大数据
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
本文深入介绍 Hive 与大数据融合构建强大数据仓库的实战指南。涵盖 Hive 简介、优势、安装配置、数据处理、性能优化及安全管理等内容,并通过互联网广告和物流行业案例分析,展示其实际应用。具有专业性、可操作性和参考价值。
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
|
7月前
|
人工智能 分布式计算 大数据
构建AI时代的大数据基础设施-MaxCompute多模态数据处理最佳实践
本文介绍了大数据与AI一体化架构的演进及其实现方法,重点探讨了Data+AI开发全生命周期的关键步骤。文章分析了大模型开发中的典型挑战,如数据管理混乱、开发效率低下和运维管理困难,并提出了解决方案。同时,详细描述了MaxCompute在构建AI时代数据基础设施中的作用,包括其强大的计算能力、调度能力和易用性特点。此外,还展示了MaxCompute在多模态数据处理中的应用实践以及具体客户案例,最后提供了体验MaxFrame解决方案的方式。
890 2
|
8月前
|
人工智能 IDE 开发工具
📘 AI Clouder认证学习笔记|从初入江湖到晨光乍现
正如史蒂夫·乔布斯所言:“求知若渴,虚心若愚。”本文是一篇AI Clouder认证学习笔记,记录了一位初学者在探索AI领域的过程中所经历的挑战与成长。作者分享了从软件安装问题到技术工具掌握的心路历程,并强调了心态与自驱力的重要性。通过Python编程、通义灵码等工具的学习,以及对教学设计的深刻反思。
195 5
|
11月前
|
存储 人工智能 分布式计算
阿里云云数据仓库:助力企业构建智能数据基石的云端利器 。阿里云云数据仓库优势与选型指南
阿里云数据仓库体系基于MaxCompute、AnalyticDB等核心产品,提供弹性敏捷的PB级数据处理能力,支持实时分析与智能决策。其六大优势包括无限弹性伸缩、极致性能表现、智能成本优化、全栈安全体系、生态无缝对接和AI增强分析,助力企业在数字经济时代应对数据爆发式增长的挑战。灵活透明的定价体系和行业实践案例展示了其在证券、新零售、物联网等领域的成功应用,为企业构建智能数据基座提供了清晰路径。
448 6
|
12月前
|
存储 分布式计算 大数据
大数据揭秘:从数据湖到数据仓库的全面解析
大数据揭秘:从数据湖到数据仓库的全面解析
382 19
|
存储 人工智能 数据管理
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
在生成式AI的浪潮中,数据的重要性日益凸显。大模型在实际业务场景的落地过程中,必须有海量数据的支撑:经过训练、推理和分析等一系列复杂的数据处理过程,才能最终产生业务价值。事实上,大模型本身就是数据处理后的产物,以数据驱动的决策与创新需要通过更智能的平台解决数据多模处理、实时分析等问题,这正是以阿里云为代表的企业推动 “Data+AI”融合战略的核心动因。
|
11月前
|
存储 人工智能 数据管理
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
165 0

热门文章

最新文章