【MaxCompute 常见问题】 工具及下载

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: MaxCompute 提供了三种数据上传下载的通道:DataHub 实时数据通道:包含的工具有 OGG 插件、Flume 插件、LogStash 插件和 Fluentd 插件。Tunnel 批量数据通道:包含的工具有 MaxCompute 客户端、DataWorks、DTS、Sqoop、Kettle 插件以及 MMA 迁移工具。Streaming Tunnel 流式数据写入通道:支持实时计算 Flink、数据通道 DataHub、数据传输服务DTS、实时数据同步、Kafka 消息系统。

工具及下载


MaxCompute 客户端、MaxCompute StudioMMA 等工具相关问题


1.  在 MaxCompute 客户端(odpscmd)的配置文件odps_config.ini 中设置了 use_instance_tunnel=false instance_tunnel_max_record=10为什么通过客户端执行 select 查询,还是能输出很多记录?

需要在配置文件中设置,use_instance_tunnel=true,再设置控制 instance_tunnel_max_record 的值,可以控制客户端返回 SQL 结果的最大记录数。


2.  MaxCompute Tunnel 中的 history 命令保存多久?

和时间无关,默认保存 500 条。


3.  使用 Tunne 上传文件是否有大小限制?

每次上传至 Tunnel 的数据块大小默认为 100M。可以通过参数设置。 可以参考官方文档


4.  使用 Tunnel 可以下载某个分区的数据吗?

可以,参考一下 Tunnel 命令说明文档


5.  可以使用 Tableau 连接 MaxCompute 吗?

MaxCompute 支持您将 MaxCompute 项目数据接入 Tableau 进行可视化分析,您可以利用 Tablea u 简便的拖放式界面,自定义视图、布局、形状、颜色等,帮助您展现自己的数据视角。可参考方文档


6.  使用 MMA 工具做数据迁移时,有个 job 一直处于 pending 状态,无法删除 pending job,如何删除呢?

目前只能取消迁移succeeded failed 任务。会有一个重试,重试结果任务挂掉就可以删除。

关于 MMA 的具体内容,可以参考官方文档


7.  使用 MaxCompute 需要准备什么开发工具呢?

这里面的工具有三种:

OdpscmdMaxCompute 客户端,喜欢用命令行的同学可以试试。

因为 odpscmd 是基于 JAVA 开发的,所以记得配置 JRE 1.7 以上版本,建议使用 JRE1.7/1.8

MaxCompute Studio:是 MaxCompute 平台提供的安装在开发者客户端的大数据集成开发环境工具,是一套基于流行的集成开发平台 IntelliJ IDEA 的开发插件。

DataWorks:是阿里云重要的 PaaS 平台产品,可以提供数据集成、数据开发、数据管理、数据质量和数据服务等全方位的产品服务,拥有一站式开发管理的界面,DataWorks 是基于 MaxCompute 为核心的计算、存储引擎,可以提供海量数据的离线加工分析、数据挖掘等功能。


8.  创建项目空间后,在客户端执行 whoami 命令报错,显示 Project 不存在,或切换空间显示项目不存在。

创建空间时没有选择计算引擎服务,空间名称在配置文件中没有填写正确,MaxCompute 服务过期删除,Region 没有选择正确等原因均可导致此报错,需回顾过程,检查必填必选项,确认无误后重新执行。

温馨提示:按量付费和包年包月选项是需要购买服务才可以。开发者版本可免费试用。


9.  MaxCompute 客户端(odpscmd) windows 命令行下查询中文乱码如何解决?

odpscmd 中出现中文乱码是因为中文字符集的编码方式不一致导致的,可以参考一篇实践文档来解决问题。


10. MaxCompute数据导出,提供了哪几种方法?

MaxCompute 提供了三种数据上传下载的通道:

  • DataHub 实时数据通道:包含的工具有 OGG 插件、Flume 插件、LogStash 插件和 Fluentd 插件。
  • Tunnel 批量数据通道:包含的工具有 MaxCompute 客户端、DataWorksDTSSqoopKettle 插件以及 MMA 迁移工具。
  • Streaming Tunnel 流式数据写入通道:支持实时计算 Flink、数据通道 DataHub、数据传输服务DTS、实时数据同步、Kafka 消息系统。


11.  如果没有显式配置 Tunnel Endpoint,会路由到哪个 TunnelEndpoin-t

如果不配置 Tunnel EndpointTunnel 会自动路由到 Service Endpoint 所在网络对应的 TunnelEndpoint,例如 Service Endpoint 为公网就路由到公网的 Tunnel EndpointService Endpoint 为内网就路由到内网的 Tunnel Endpoint,若您继续手动配置,则以手动配置为准,不进行自动路由。具体可以参考官方文档


12.  如何正确安装 MaxCompute 客户端?

1、  根据自身系统安装匹配 JDK(建议 1.7/1.8)并配置环境;

2、  官网文档下载最新版客户端文件并解压;

3、  根据开通好的工作空间配置 config 文件;

4、  根据自身系统选择执行文件(bin 文件内);

5、  执行测试建表语句:create table tbll(id bigint)

安装及配置客户端过程中,可能会出现错误,请参考实践文章解决。


13.  配置 MaxCompute 客户端时报错 connect timed out 怎么解决?

一般是 endpoint 没有配置正确,如何正确配置 MaxCompute 客户端参考文章


14.  MaxCompute中的数据通道 Datahub Tunnel 应用场景的区别是什么?

Datahub 是阿里云上的实时消息队列服务,与 MaxCompute 紧密集成。用户可以将实时数据写入Datahub topic,并通过 Datahub 的投递策略,定期将数据投递到 MaxComptue 表,满足实时数据准实时写入 MaxCompute 的需要。 Tunnel 用于批量上传数据到离线表里,适用于离线计算的场景。可参考文档


15.  如何查看 MaxCompute JDBC Driver 的日志?

MaxCompute JDBC Driver 的日志记录了对 JDBC 接口调用的详细信息,包括调用的类名、方法名、行数、参数以及返回值等。通过这些信息,用户可以轻松地进行 Debug MaxCompute JDBCDriver 的日志默认放在 Driver Jar 包所在的同级目录,文件名为 jdbc.log。 如果将用户代码与Driver 打包为一个超级 Jar,日志将会在超级 Jar 所在的同级目录。


16.  MaxCompute Studio 在 IntelliJ 的基础上提供了什么功能?

SQL 编辑器(SQL Editor):提供 SQL 语法高亮、代码补全、实时错误提示、本地编译、作业提交等功能。

编译器视图(Compiler View):显示本地编译的提示信息和错误信息,在编辑器中定位代码。

项目空间浏览器(Project Explorer):连接 MaxCompute 项目空间,浏览项目空间表结构、自定义函数、资源文件。 表详情视图(Table Details View):提供表、视图等资源的详情显示和示例数据(Sample Data)。

作业浏览器(Job Explorer):浏览、搜索 MaxCompute 的历史作业信息。

作业详情视图(Job Details View):显示作业的运行详细信息,包括执行计划和每个执行任务的详细信息,Logview 工具能够显示的全部信息。

作业输出视图(Job Output View):显示正在运行的作业的输出信息。

作业结果视图(Job Result View):显示 SELECT 作业的输出结果。MaxCompute 控制台(MaxCompute Console):集成了 MaxCompute 客户端,可以输入和执行 MaxCompute 客户端命令。


17.  影响 MaxCompute Tunenl 下载速度的原因,主要是什么?

Tunnel 上传下载受网络因素影响较大,正常网络情况下速度范围在 1 MB/s~20 MB/s 区间内。

Tunnel 下载速度不会限,但能不能达到机器网络带宽上限不一定,只能说使用 Tunnel 下载数据的时候这边不会额外的限制下载速度。所以,影响下载速度的主要原因是网络带宽。


18.  日志记录的各项信息代表什么如何查看?

日志记录其实就是MaxCompute 产品里的 LogviewLogview MaxCompute Job 提交后查看和Debug任务的工具。可以通过 Logview 可以看到一个 Job 的运行状态、运行结果和具体细节以及每个步骤的进度。 具体功能组件含义请参考官方文档


>>快来点击免费下载《阿里云MaxCompute百问百答》了解更多详情!<<




相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
2月前
|
SQL 分布式计算 数据可视化
Tableau与大数据:可视化工具在大数据分析中的应用
【4月更文挑战第8天】Tableau是一款领先的数据可视化工具,擅长于大数据分析,提供广泛的数据连接器,支持多源整合。它与Hadoop、Spark等深度集成,实现高效大数据处理。Tableau的拖拽式界面和交互式分析功能使得非技术人员也能轻松探索数据。在实战中,Tableau用于业务监控、数据storytelling和自助式分析,推动数据民主化,提升决策效率。未来,Tableau将持续创新,扩展生态系统,并保障数据安全与合规性,助力企业最大化数据价值。
115 0
|
2月前
|
SQL 分布式计算 DataWorks
DataWorks常见问题之maxcompute资源打开失败如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
21天前
|
存储 分布式计算 Hadoop
Spark和Hadoop都是大数据处理领域的重要工具
【6月更文挑战第17天】Spark和Hadoop都是大数据处理领域的重要工具
119 59
|
2天前
|
机器学习/深度学习 分布式计算 算法
Spark快速大数据分析PDF下载读书分享推荐
《Spark快速大数据分析》适合初学者,聚焦Spark实用技巧,同时深入核心概念。作者团队来自Databricks,书中详述Spark 3.0新特性,结合机器学习展示大数据分析。Spark是大数据分析的首选工具,本书助你驾驭这一利器。[PDF下载链接][1]。 ![Spark Book Cover][2] [1]: https://zhangfeidezhu.com/?p=345 [2]: https://i-blog.csdnimg.cn/direct/6b851489ad1944548602766ea9d62136.png#pic_center
18 1
Spark快速大数据分析PDF下载读书分享推荐
|
7天前
|
消息中间件 分布式计算 大数据
大数据处理工具及其与 Kafka 的搭配使用
大数据处理工具及其与 Kafka 的搭配使用
20 2
|
14天前
|
分布式计算 DataWorks 大数据
MaxCompute产品使用问题之表数据大于1w行,如何下载数据
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
27天前
|
分布式计算 大数据 Java
MaxCompute产品使用合集之如何通过Java SDK下载
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
25天前
|
存储 分布式计算 Hadoop
【大数据】分布式数据库HBase下载安装教程
【大数据】分布式数据库HBase下载安装教程
33 0
|
25天前
|
分布式计算 Hadoop 大数据
【大数据】Hadoop下载安装及伪分布式集群搭建教程
【大数据】Hadoop下载安装及伪分布式集群搭建教程
67 0
|
2月前
|
机器学习/深度学习 分布式计算 大数据
一文读懂Apache Beam:统一的大数据处理模型与工具
【4月更文挑战第8天】Apache Beam是开源的统一大数据处理模型,提供抽象化编程模型,支持批处理和流处理。它提倡"一次编写,到处运行",可在多种引擎(如Spark、Dataflow、Flink)上运行。Beam的核心特性包括抽象化概念(PCollection、PTransform和PipelineRunner)、灵活性(支持多种数据源和转换)和高效执行。它广泛应用在ETL、实时流处理、机器学习和大数据仓库场景,助力开发者轻松应对数据处理挑战。
140 1