ODPS的学习

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 流计算用的是ODPS,ODPS的所有对象都隶属于项目空间。

  ODPS

  流计算用的是ODPS,ODPS的所有对象都隶属于项目空间。

  项目空间project

  表table:表中的列支持Bigint长整、Double双精、String字符串、Boolean布尔型、Datetime日期类型

  进行不同类型的计算任务的时候操作对象不管是输入还是输出,都是表。所有的数据都存储在表里,支持表分区,支持依赖于表的视图。用户可以创建表,删除表

  分区Partition:它设计分区的初衷是为了提高效率,我们在创建表的时候,可以指定表的分区,也可以在创建完成之后,去修改表的分区,比如我们可以指定表里面的某几个字段,作为分区列

  任务Task:任务是ODS一个基本的计算单元,无论我们是用ODPS SQL,或者是用MapReduce这种功能去做一些操作的时候,实际上它都是在通过任务来完成的

  资源Resource:资源是ODPS一个特有的概念,比如说,如果我们想使用ODPS的自定义函数,就是UDF,或者是MapReduce, 这个时候我们就需要依赖资源来完成

  按用户权限划分:所有者(Owner)、管理员(Admin)、普通用户(User)

  Task,Job,Instance

  任务(Task):单个SQL Query或者MapReduce程序统称为一个任务。

  工作流(Workflow):是个有向无环图(DAG),描述各个Task之间的依赖关系和约束。

  作业(Job):由一个或者多个Task以及表示其执行次序关系的工作流(Workflow)组成。

  作业实例(Instace):当作业被提交至系统中执行时,该作业就会拥有一个作业实例,一个Job多次运行就会有多个实例。实例保存了执行时的快照(Snapshot)、返回状态等。

  作业是一个静态概念,作业对象对应了一个XML文件

  作业实例Instace是一个动态概念,每个实例Instace只能运行一次。

  ODPS适用于:

  1、基于SQL构建大规模的数据仓库系统和BI系统

  2、基于DAG/Graph构建大型分步式应用系统

  DAG(有向无环图):就是以工作流的方式来组织任务,来组织成一个Job,然后我们可以去执行这个Job;

  Graph(图运算):图运算的特点就是说快速迭代,就是我们首先定义节点,就是每一个节点都是一个运算,我们把这个运算预先定义好,然后节点之间的连线我们叫做边,这个边呢就描述了这个节点之间的关系,那么一个数据过来之后,我们可以快速的使用Graph来进行这种迭代运算

  3、基于统计和机器学习的大数据统计和数据挖掘类的工作

  ODPS有一个包叫做PAI,它是专门集成了一些,常见的机器运算法的一个包,可以使用这个工具,去做一些这种统计类的或者这种人工智能类或者机器学习类的这种大型的应用

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
分布式计算 监控 数据可视化
阿里云大数据ACA及ACP复习题(211~220)
本人备考阿里云大数据考试时自行收集准备的题库,纯手工整理的,能够覆盖到今年7月份,应该是目前最新的,发成文章希望大家能一起学习,不要花冤枉钱去买题库背了,也希望大家能够顺利通关ACA和ACP考试。
|
存储 分布式计算 数据处理
MaxCompute 资源消耗
MaxCompute 资源消耗
220 0
|
数据采集 分布式计算 DataWorks
DataWorks产品使用合集之DataWorks中配置节点上下文输出参数如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
386 1
|
11月前
|
存储 人工智能 Serverless
AI助手测评 | 3步快速构建主动式智能导购AI助手
本文介绍了如何利用阿里云的百炼平台构建主动式智能导购AI助手。在当前经济形势下,企业通过AI技术可以有效降低成本并提升服务质量。主动式智能导购AI助手不仅具备专业知识和耐心,还能24小时不间断服务用户,帮助企业节省夜班客服费用。通过创建API-KEY、部署函数计算应用和集成百炼商品检索应用,企业可以在短短几步内快速构建这一智能系统。此外,文章还提供了详细的部署步骤和测评建议,确保企业在实际应用中能够顺利实施。
|
机器学习/深度学习 自然语言处理 算法
深度学习-生成式检索-论文速读-2024-09-14(下)
深度学习-生成式检索-论文速读-2024-09-14(下)
|
SQL 存储 分布式计算
我在淘宝写SQL|ODPS SQL 优化总结
本文结合作者多年的数仓开发经验,结合ODPS平台分享数据仓库中的SQL优化经验。
|
SQL 分布式计算 MaxCompute
ODPS开发大全:入门篇(2)
ODPS开发大全:入门篇
765 14
|
JSON 分布式计算 Java
ODPS开发大全:进阶篇(2)
ODPS开发大全:进阶篇
620 9
|
机器学习/深度学习 SQL 分布式计算
MaxCompute产品使用问题之动态分区如何多分区写入
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
251 2
|
存储 关系型数据库 MySQL
『Mysql』Mysql四种分区方式及组合分区落地实现
📣读完这篇文章里你能收获到 - Mysql分区的概念 - Mysql分区四种分区方式的落地及案例 - Mysql分区的管理
630 0
『Mysql』Mysql四种分区方式及组合分区落地实现

热门文章

最新文章