【MaxCompute 常见问题】 常用命令

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 如何查看当前项目空间的所有自定义函数?查看当前项目空间中的所有自定义函数:LIST FUNCTIONS; 查看指定项目空间下的所有自定义函数:LIST FUNCTIONS -p project_name;

常用命令



MaxCompute 基础命令、生命周期、正则表达式等命令相关问题


1.  常用命令有哪些?

MaxCompute 常用命令如下:

 

 


2.  MaxCompute中有命令可以把所有的 project 列出来吗?

可以执行 list projects [-user <user_account>] 可以看到账号下的 project 列表。


3.  MaxCompute客户端(odpscmd)可以通过什么命令导出数据?

可以使用 Tunnel download。可以参考下面这篇官方文档


4.  如何查看 MaxCompute 每个分区存储的数据大小?

desc <table_name> partition (<pt_spec>); 比如desct 1 partition(ds="20190820");


5.  如何查看当前项目空间的所有自定义函数?

查看当前项目空间中的所有自定义函数:LIST FUNCTIONS; 查看指定项目空间下的所有自定义函数:LIST FUNCTIONS -p project_name;

可参考官方文档


6.   MaxCompute 中如果一个表下面有很多分区,需要清空这个表所有的分区,应该怎么操作?

使用删除分区语法:ALTER TABLE TABLE_NAME DROP [IF EXISTS] PARTITION partition_spec;

需要一个个删除分区,如果要删除大量分区,建议重建一个新表。具体操作可参考文档


7.  MaxCompute dim_xxxx 正在使用时找不到了。使命令行 show p; 没有查到相关 sql,没有发现 DROP 语句,这个表是谁在什么时间删除的?

如果没有 DROP 语句,表是因为设置了 lifecycle 导致的。当设置 lifecycle 后数据没有更新的,到时间后表会被 MaxCompute 自动回收。


8.  有什么命令可以查询 MaxCompute 内表的存储量和记录条数?

单表的存储量可以使用 desc 命令查看,记录条数可以使用 count 函数。


9.  MaxCompute 表的默认生命周期是多少呢? 如何查看具体的值?以及各分区的lifecycle 的值?

如果您没有为表指定生命周期,则表(分区)不会根据生命周期规则被 MaxCompute 自动回收,所以默认周期为永久。如果设置了 lifecycle,可以通过 desc table 命令来查看。可参考官方文档


10.  MaxCompute中如何禁止/恢复生命周期功能?

可使用禁止/恢复生命周期 SQL 来设置。具体语法如下:

alter table <table_name> [<pt_spec>] {enable|disable} lifecycle;


11.  Tunnel Upload 是否支持通配符或正则表达式?

使用 Tunnel Upload 命令上传数据时,不支持通配符或正则表达式。


12.  Tunnel Upload 对文件大小是否有限制?记录大小是否有限制?是否要使用压缩?

使用 Tunnel Upload 命令上传文件时,对文件大小没有限制,但一次上传时长不能超过2 小时。您可以根据实际上传速度和时间估算能够上传的数据量。

记录大小不能超过 200 MB

Tunnel Upload 默认会使用压缩,如果带宽允许的情况下,可以通过-cp 参数关掉压缩。


13.  使用 Tunnel Upload 命令上传两个文件时,第一个文件上传结束之后,第二个文件没有上传且没有报错信息,是什么原因?

MaxCompute 客户端上传参数有--scan 时,续跑模式的参数传递存在问题,将--scan=true 去掉重试即可。


14.  使用 Tunnel Upload 命令上传数据时,共分为 50 Block,开始一切正常,但是在第 22 Block 时,出现 Upload Fail,重试直接跳过开始上传第 23 Block,如何解决?

一个Block 对应一个 HTTP Request,多个Block 的上传可以并发且是原子的,一次同步请求要么成功要么失败,不会影响其他的 Block

重传 Retry 有次数的限制,当重传的次数超过了这个限制,就会继续上传下一个 Block。上传完成后,可以通过 select count(*) from table;语句,检查是否有数据丢失。


15.  Tunnel Download 导出格式有哪些?

使用 Tunnel Download 导出的数据文件格式为 TXT CSV


16.  Tunnel上传数据的流程是什么?

Tunnel 上传数据的流程如下:

1、 准备源数据,例如源文件或数据表。

2、 设计表结构和分区定义,进行数据类型转换,然后在 MaxCompute 上创建表。

3、 MaxCompute 表上添加分区,没有分区时忽略此步骤。

4、 把数据上传到指定分区或表上。


17. Tunnel 使用分隔符时,需要注意什么?

Tunnel 使用分隔符时,需要注意:

  • 行分隔符为 rd,列分隔符为 fd
  • 列分隔符 fd 不能包含行分隔符 rd
  • Tunnel 的默认分隔符为\r\nWindows)和\nLinux)。
  • 上传开始的时候,屏显会打印提示信息,告知本次上传所使用的行分隔符(0.21.0 版本及以后)供用户查看和确认。


>>快来点击免费下载《阿里云MaxCompute百问百答》了解更多详情!<<


相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
2月前
|
SQL 分布式计算 DataWorks
DataWorks常见问题之maxcompute资源打开失败如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
2月前
|
分布式计算 Java 大数据
【大数据技术Hadoop+Spark】HDFS Shell常用命令及HDFS Java API详解及实战(超详细 附源码)
【大数据技术Hadoop+Spark】HDFS Shell常用命令及HDFS Java API详解及实战(超详细 附源码)
485 0
|
9天前
|
机器学习/深度学习 分布式计算 DataWorks
MaxCompute产品使用问题之有什么命令可以看到当前账号拥有哪些项目的什么权限
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
22天前
|
分布式计算 大数据 数据处理
MaxCompute操作报错合集之在本地用tunnel命令上传excel表格到mc遇到报错: tunnel upload C:\Users***\Desktop\a.xlsx mc里的非分区表名 -s false;该怎么办
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
24天前
|
机器学习/深度学习 存储 分布式计算
MaxCompute产品使用合集之查看表分区文件的数量的命令是什么
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
2月前
|
机器学习/深度学习 存储 分布式计算
机器学习PAI常见问题之将MaxCompute方法设置成永久如何解决
PAI(平台为智能,Platform for Artificial Intelligence)是阿里云提供的一个全面的人工智能开发平台,旨在为开发者提供机器学习、深度学习等人工智能技术的模型训练、优化和部署服务。以下是PAI平台使用中的一些常见问题及其答案汇总,帮助用户解决在使用过程中遇到的问题。
|
2月前
|
数据采集 分布式计算 DataWorks
DataWorks常见问题之dataworks引用maxcompute资源失败如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
2月前
|
存储 分布式计算 大数据
大数据笔记 | HDFS 常用操作命令
大数据笔记 | HDFS 常用操作命令
150 0
|
9月前
|
分布式计算 大数据 Hadoop
【大数据开发技术】实验02-HDFS常用shell命令
【大数据开发技术】实验02-HDFS常用shell命令
131 0
|
SQL 数据采集 分布式计算
大数据数据采集的数据迁移(同步/传输)的Sqoop之基本命令和使用的导入/导出数据
在大数据领域,数据迁移(同步/传输)也是非常重要的一环。Sqoop作为一个开源的数据迁移工具,可以帮助我们轻松地实现关系型数据库与Hadoop之间的数据迁移。本文将会对Sqoop的基本命令和使用进行详细介绍。
238 1