【MaxCompute 常见问题】 工具及下载

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
简介: MaxCompute 提供了三种数据上传下载的通道:DataHub 实时数据通道:包含的工具有 OGG 插件、Flume 插件、LogStash 插件和 Fluentd 插件。Tunnel 批量数据通道:包含的工具有 MaxCompute 客户端、DataWorks、DTS、Sqoop、Kettle 插件以及 MMA 迁移工具。Streaming Tunnel 流式数据写入通道:支持实时计算 Flink、数据通道 DataHub、数据传输服务DTS、实时数据同步、Kafka 消息系统。

工具及下载


MaxCompute 客户端、MaxCompute StudioMMA 等工具相关问题


1.  在 MaxCompute 客户端(odpscmd)的配置文件odps_config.ini 中设置了 use_instance_tunnel=false instance_tunnel_max_record=10为什么通过客户端执行 select 查询,还是能输出很多记录?

需要在配置文件中设置,use_instance_tunnel=true,再设置控制 instance_tunnel_max_record 的值,可以控制客户端返回 SQL 结果的最大记录数。


2.  MaxCompute Tunnel 中的 history 命令保存多久?

和时间无关,默认保存 500 条。


3.  使用 Tunne 上传文件是否有大小限制?

每次上传至 Tunnel 的数据块大小默认为 100M。可以通过参数设置。 可以参考官方文档


4.  使用 Tunnel 可以下载某个分区的数据吗?

可以,参考一下 Tunnel 命令说明文档


5.  可以使用 Tableau 连接 MaxCompute 吗?

MaxCompute 支持您将 MaxCompute 项目数据接入 Tableau 进行可视化分析,您可以利用 Tablea u 简便的拖放式界面,自定义视图、布局、形状、颜色等,帮助您展现自己的数据视角。可参考方文档


6.  使用 MMA 工具做数据迁移时,有个 job 一直处于 pending 状态,无法删除 pending job,如何删除呢?

目前只能取消迁移succeeded failed 任务。会有一个重试,重试结果任务挂掉就可以删除。

关于 MMA 的具体内容,可以参考官方文档


7.  使用 MaxCompute 需要准备什么开发工具呢?

这里面的工具有三种:

OdpscmdMaxCompute 客户端,喜欢用命令行的同学可以试试。

因为 odpscmd 是基于 JAVA 开发的,所以记得配置 JRE 1.7 以上版本,建议使用 JRE1.7/1.8

MaxCompute Studio:是 MaxCompute 平台提供的安装在开发者客户端的大数据集成开发环境工具,是一套基于流行的集成开发平台 IntelliJ IDEA 的开发插件。

DataWorks:是阿里云重要的 PaaS 平台产品,可以提供数据集成、数据开发、数据管理、数据质量和数据服务等全方位的产品服务,拥有一站式开发管理的界面,DataWorks 是基于 MaxCompute 为核心的计算、存储引擎,可以提供海量数据的离线加工分析、数据挖掘等功能。


8.  创建项目空间后,在客户端执行 whoami 命令报错,显示 Project 不存在,或切换空间显示项目不存在。

创建空间时没有选择计算引擎服务,空间名称在配置文件中没有填写正确,MaxCompute 服务过期删除,Region 没有选择正确等原因均可导致此报错,需回顾过程,检查必填必选项,确认无误后重新执行。

温馨提示:按量付费和包年包月选项是需要购买服务才可以。开发者版本可免费试用。


9.  MaxCompute 客户端(odpscmd) windows 命令行下查询中文乱码如何解决?

odpscmd 中出现中文乱码是因为中文字符集的编码方式不一致导致的,可以参考一篇实践文档来解决问题。


10. MaxCompute数据导出,提供了哪几种方法?

MaxCompute 提供了三种数据上传下载的通道:

  • DataHub 实时数据通道:包含的工具有 OGG 插件、Flume 插件、LogStash 插件和 Fluentd 插件。
  • Tunnel 批量数据通道:包含的工具有 MaxCompute 客户端、DataWorksDTSSqoopKettle 插件以及 MMA 迁移工具。
  • Streaming Tunnel 流式数据写入通道:支持实时计算 Flink、数据通道 DataHub、数据传输服务DTS、实时数据同步、Kafka 消息系统。


11.  如果没有显式配置 Tunnel Endpoint,会路由到哪个 TunnelEndpoin-t

如果不配置 Tunnel EndpointTunnel 会自动路由到 Service Endpoint 所在网络对应的 TunnelEndpoint,例如 Service Endpoint 为公网就路由到公网的 Tunnel EndpointService Endpoint 为内网就路由到内网的 Tunnel Endpoint,若您继续手动配置,则以手动配置为准,不进行自动路由。具体可以参考官方文档


12.  如何正确安装 MaxCompute 客户端?

1、  根据自身系统安装匹配 JDK(建议 1.7/1.8)并配置环境;

2、  官网文档下载最新版客户端文件并解压;

3、  根据开通好的工作空间配置 config 文件;

4、  根据自身系统选择执行文件(bin 文件内);

5、  执行测试建表语句:create table tbll(id bigint)

安装及配置客户端过程中,可能会出现错误,请参考实践文章解决。


13.  配置 MaxCompute 客户端时报错 connect timed out 怎么解决?

一般是 endpoint 没有配置正确,如何正确配置 MaxCompute 客户端参考文章


14.  MaxCompute中的数据通道 Datahub Tunnel 应用场景的区别是什么?

Datahub 是阿里云上的实时消息队列服务,与 MaxCompute 紧密集成。用户可以将实时数据写入Datahub topic,并通过 Datahub 的投递策略,定期将数据投递到 MaxComptue 表,满足实时数据准实时写入 MaxCompute 的需要。 Tunnel 用于批量上传数据到离线表里,适用于离线计算的场景。可参考文档


15.  如何查看 MaxCompute JDBC Driver 的日志?

MaxCompute JDBC Driver 的日志记录了对 JDBC 接口调用的详细信息,包括调用的类名、方法名、行数、参数以及返回值等。通过这些信息,用户可以轻松地进行 Debug MaxCompute JDBCDriver 的日志默认放在 Driver Jar 包所在的同级目录,文件名为 jdbc.log。 如果将用户代码与Driver 打包为一个超级 Jar,日志将会在超级 Jar 所在的同级目录。


16.  MaxCompute Studio 在 IntelliJ 的基础上提供了什么功能?

SQL 编辑器(SQL Editor):提供 SQL 语法高亮、代码补全、实时错误提示、本地编译、作业提交等功能。

编译器视图(Compiler View):显示本地编译的提示信息和错误信息,在编辑器中定位代码。

项目空间浏览器(Project Explorer):连接 MaxCompute 项目空间,浏览项目空间表结构、自定义函数、资源文件。 表详情视图(Table Details View):提供表、视图等资源的详情显示和示例数据(Sample Data)。

作业浏览器(Job Explorer):浏览、搜索 MaxCompute 的历史作业信息。

作业详情视图(Job Details View):显示作业的运行详细信息,包括执行计划和每个执行任务的详细信息,Logview 工具能够显示的全部信息。

作业输出视图(Job Output View):显示正在运行的作业的输出信息。

作业结果视图(Job Result View):显示 SELECT 作业的输出结果。MaxCompute 控制台(MaxCompute Console):集成了 MaxCompute 客户端,可以输入和执行 MaxCompute 客户端命令。


17.  影响 MaxCompute Tunenl 下载速度的原因,主要是什么?

Tunnel 上传下载受网络因素影响较大,正常网络情况下速度范围在 1 MB/s~20 MB/s 区间内。

Tunnel 下载速度不会限,但能不能达到机器网络带宽上限不一定,只能说使用 Tunnel 下载数据的时候这边不会额外的限制下载速度。所以,影响下载速度的主要原因是网络带宽。


18.  日志记录的各项信息代表什么如何查看?

日志记录其实就是MaxCompute 产品里的 LogviewLogview MaxCompute Job 提交后查看和Debug任务的工具。可以通过 Logview 可以看到一个 Job 的运行状态、运行结果和具体细节以及每个步骤的进度。 具体功能组件含义请参考官方文档


>>快来点击免费下载《阿里云MaxCompute百问百答》了解更多详情!<<




相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
2月前
|
SQL 人工智能 分布式计算
拥抱数据洪流:ODPS,从工具到智能基石的认知跃迁
ODPS正从计算工具进化为智能基石,重塑数据价值链条。它不仅是效率引擎,更是决策资产、信任桥梁与预见系统。其创新架构支持存算分离、AI融合计算与隐私保护,助力企业迎接AI革命。未来,ODPS将推动绿色智能,成为组织数字化转型的核心支撑平台。
97 3
|
4月前
|
人工智能 算法 自动驾驶
AI和大数据:是工具,还是操控人心的“隐形之手”?
AI和大数据:是工具,还是操控人心的“隐形之手”?
112 1
|
7月前
|
分布式计算 大数据 数据处理
从Excel到大数据:别让工具限制你的思维!
从Excel到大数据:别让工具限制你的思维!
270 85
|
11月前
|
存储 分布式计算 数据可视化
大数据常用技术与工具
【10月更文挑战第16天】
582 4
|
11月前
|
分布式计算 资源调度 大数据
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(一)
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(一)
286 0
|
11月前
|
分布式计算 资源调度 大数据
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(二)
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(二)
218 0
|
6月前
|
JSON 分布式计算 DataX
【YashanDB知识库】使用DataX工具迁移yashan数据到maxcompute
本文介绍使用崖山适配的DataX工具进行数据库迁移的方法,包括单表迁移和批量表迁移。单表迁移需配置json文件并执行同步命令;批量迁移则通过脚本自动化生成json配置文件并完成数据迁移,最后提供数据比对功能验证迁移结果。具体步骤涵盖连接信息配置、表清单获取、json文件生成、数据迁移执行及日志记录,确保数据一致性。相关工具和脚本简化了复杂迁移过程,提升效率。
|
8月前
|
分布式计算 大数据 流计算
玩转数据:初学者的大数据处理工具指南
玩转数据:初学者的大数据处理工具指南
215 14
|
分布式计算 DataWorks 关系型数据库
MaxCompute 生态系统中的数据集成工具
【8月更文第31天】在大数据时代,数据集成对于构建高效的数据处理流水线至关重要。阿里云的 MaxCompute 是一个用于处理大规模数据集的服务平台,它提供了强大的计算能力和丰富的生态系统工具来帮助用户管理和处理数据。本文将详细介绍如何使用 DataWorks 这样的工具将 MaxCompute 整合到整个数据处理流程中,以便更有效地管理数据生命周期。
334 0
|
10月前
|
关系型数据库 分布式数据库 数据库
PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具
在数字化时代,企业面对海量数据的挑战,PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具。它不仅支持高速数据读写,还通过数据分区、索引优化等策略提升分析效率,适用于电商、金融等多个行业,助力企业精准决策。
231 4

热门文章

最新文章