【MaxCompute 常见问题】 工具及下载

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
简介: MaxCompute 提供了三种数据上传下载的通道:DataHub 实时数据通道:包含的工具有 OGG 插件、Flume 插件、LogStash 插件和 Fluentd 插件。Tunnel 批量数据通道:包含的工具有 MaxCompute 客户端、DataWorks、DTS、Sqoop、Kettle 插件以及 MMA 迁移工具。Streaming Tunnel 流式数据写入通道:支持实时计算 Flink、数据通道 DataHub、数据传输服务DTS、实时数据同步、Kafka 消息系统。

工具及下载


MaxCompute 客户端、MaxCompute StudioMMA 等工具相关问题


1.  在 MaxCompute 客户端(odpscmd)的配置文件odps_config.ini 中设置了 use_instance_tunnel=false instance_tunnel_max_record=10为什么通过客户端执行 select 查询,还是能输出很多记录?

需要在配置文件中设置,use_instance_tunnel=true,再设置控制 instance_tunnel_max_record 的值,可以控制客户端返回 SQL 结果的最大记录数。


2.  MaxCompute Tunnel 中的 history 命令保存多久?

和时间无关,默认保存 500 条。


3.  使用 Tunne 上传文件是否有大小限制?

每次上传至 Tunnel 的数据块大小默认为 100M。可以通过参数设置。 可以参考官方文档


4.  使用 Tunnel 可以下载某个分区的数据吗?

可以,参考一下 Tunnel 命令说明文档


5.  可以使用 Tableau 连接 MaxCompute 吗?

MaxCompute 支持您将 MaxCompute 项目数据接入 Tableau 进行可视化分析,您可以利用 Tablea u 简便的拖放式界面,自定义视图、布局、形状、颜色等,帮助您展现自己的数据视角。可参考方文档


6.  使用 MMA 工具做数据迁移时,有个 job 一直处于 pending 状态,无法删除 pending job,如何删除呢?

目前只能取消迁移succeeded failed 任务。会有一个重试,重试结果任务挂掉就可以删除。

关于 MMA 的具体内容,可以参考官方文档


7.  使用 MaxCompute 需要准备什么开发工具呢?

这里面的工具有三种:

OdpscmdMaxCompute 客户端,喜欢用命令行的同学可以试试。

因为 odpscmd 是基于 JAVA 开发的,所以记得配置 JRE 1.7 以上版本,建议使用 JRE1.7/1.8

MaxCompute Studio:是 MaxCompute 平台提供的安装在开发者客户端的大数据集成开发环境工具,是一套基于流行的集成开发平台 IntelliJ IDEA 的开发插件。

DataWorks:是阿里云重要的 PaaS 平台产品,可以提供数据集成、数据开发、数据管理、数据质量和数据服务等全方位的产品服务,拥有一站式开发管理的界面,DataWorks 是基于 MaxCompute 为核心的计算、存储引擎,可以提供海量数据的离线加工分析、数据挖掘等功能。


8.  创建项目空间后,在客户端执行 whoami 命令报错,显示 Project 不存在,或切换空间显示项目不存在。

创建空间时没有选择计算引擎服务,空间名称在配置文件中没有填写正确,MaxCompute 服务过期删除,Region 没有选择正确等原因均可导致此报错,需回顾过程,检查必填必选项,确认无误后重新执行。

温馨提示:按量付费和包年包月选项是需要购买服务才可以。开发者版本可免费试用。


9.  MaxCompute 客户端(odpscmd) windows 命令行下查询中文乱码如何解决?

odpscmd 中出现中文乱码是因为中文字符集的编码方式不一致导致的,可以参考一篇实践文档来解决问题。


10. MaxCompute数据导出,提供了哪几种方法?

MaxCompute 提供了三种数据上传下载的通道:

  • DataHub 实时数据通道:包含的工具有 OGG 插件、Flume 插件、LogStash 插件和 Fluentd 插件。
  • Tunnel 批量数据通道:包含的工具有 MaxCompute 客户端、DataWorksDTSSqoopKettle 插件以及 MMA 迁移工具。
  • Streaming Tunnel 流式数据写入通道:支持实时计算 Flink、数据通道 DataHub、数据传输服务DTS、实时数据同步、Kafka 消息系统。


11.  如果没有显式配置 Tunnel Endpoint,会路由到哪个 TunnelEndpoin-t

如果不配置 Tunnel EndpointTunnel 会自动路由到 Service Endpoint 所在网络对应的 TunnelEndpoint,例如 Service Endpoint 为公网就路由到公网的 Tunnel EndpointService Endpoint 为内网就路由到内网的 Tunnel Endpoint,若您继续手动配置,则以手动配置为准,不进行自动路由。具体可以参考官方文档


12.  如何正确安装 MaxCompute 客户端?

1、  根据自身系统安装匹配 JDK(建议 1.7/1.8)并配置环境;

2、  官网文档下载最新版客户端文件并解压;

3、  根据开通好的工作空间配置 config 文件;

4、  根据自身系统选择执行文件(bin 文件内);

5、  执行测试建表语句:create table tbll(id bigint)

安装及配置客户端过程中,可能会出现错误,请参考实践文章解决。


13.  配置 MaxCompute 客户端时报错 connect timed out 怎么解决?

一般是 endpoint 没有配置正确,如何正确配置 MaxCompute 客户端参考文章


14.  MaxCompute中的数据通道 Datahub Tunnel 应用场景的区别是什么?

Datahub 是阿里云上的实时消息队列服务,与 MaxCompute 紧密集成。用户可以将实时数据写入Datahub topic,并通过 Datahub 的投递策略,定期将数据投递到 MaxComptue 表,满足实时数据准实时写入 MaxCompute 的需要。 Tunnel 用于批量上传数据到离线表里,适用于离线计算的场景。可参考文档


15.  如何查看 MaxCompute JDBC Driver 的日志?

MaxCompute JDBC Driver 的日志记录了对 JDBC 接口调用的详细信息,包括调用的类名、方法名、行数、参数以及返回值等。通过这些信息,用户可以轻松地进行 Debug MaxCompute JDBCDriver 的日志默认放在 Driver Jar 包所在的同级目录,文件名为 jdbc.log。 如果将用户代码与Driver 打包为一个超级 Jar,日志将会在超级 Jar 所在的同级目录。


16.  MaxCompute Studio 在 IntelliJ 的基础上提供了什么功能?

SQL 编辑器(SQL Editor):提供 SQL 语法高亮、代码补全、实时错误提示、本地编译、作业提交等功能。

编译器视图(Compiler View):显示本地编译的提示信息和错误信息,在编辑器中定位代码。

项目空间浏览器(Project Explorer):连接 MaxCompute 项目空间,浏览项目空间表结构、自定义函数、资源文件。 表详情视图(Table Details View):提供表、视图等资源的详情显示和示例数据(Sample Data)。

作业浏览器(Job Explorer):浏览、搜索 MaxCompute 的历史作业信息。

作业详情视图(Job Details View):显示作业的运行详细信息,包括执行计划和每个执行任务的详细信息,Logview 工具能够显示的全部信息。

作业输出视图(Job Output View):显示正在运行的作业的输出信息。

作业结果视图(Job Result View):显示 SELECT 作业的输出结果。MaxCompute 控制台(MaxCompute Console):集成了 MaxCompute 客户端,可以输入和执行 MaxCompute 客户端命令。


17.  影响 MaxCompute Tunenl 下载速度的原因,主要是什么?

Tunnel 上传下载受网络因素影响较大,正常网络情况下速度范围在 1 MB/s~20 MB/s 区间内。

Tunnel 下载速度不会限,但能不能达到机器网络带宽上限不一定,只能说使用 Tunnel 下载数据的时候这边不会额外的限制下载速度。所以,影响下载速度的主要原因是网络带宽。


18.  日志记录的各项信息代表什么如何查看?

日志记录其实就是MaxCompute 产品里的 LogviewLogview MaxCompute Job 提交后查看和Debug任务的工具。可以通过 Logview 可以看到一个 Job 的运行状态、运行结果和具体细节以及每个步骤的进度。 具体功能组件含义请参考官方文档


>>快来点击免费下载《阿里云MaxCompute百问百答》了解更多详情!<<




相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
4月前
|
机器学习/深度学习 分布式计算 算法
Spark快速大数据分析PDF下载读书分享推荐
《Spark快速大数据分析》适合初学者,聚焦Spark实用技巧,同时深入核心概念。作者团队来自Databricks,书中详述Spark 3.0新特性,结合机器学习展示大数据分析。Spark是大数据分析的首选工具,本书助你驾驭这一利器。[PDF下载链接][1]。 ![Spark Book Cover][2] [1]: https://zhangfeidezhu.com/?p=345 [2]: https://i-blog.csdnimg.cn/direct/6b851489ad1944548602766ea9d62136.png#pic_center
172 1
Spark快速大数据分析PDF下载读书分享推荐
|
24天前
|
存储 分布式计算 数据可视化
大数据常用技术与工具
【10月更文挑战第16天】
84 4
|
1月前
|
分布式计算 资源调度 大数据
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(一)
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(一)
51 0
|
1月前
|
分布式计算 资源调度 大数据
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(二)
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(二)
67 0
|
3月前
|
分布式计算 DataWorks 关系型数据库
MaxCompute 生态系统中的数据集成工具
【8月更文第31天】在大数据时代,数据集成对于构建高效的数据处理流水线至关重要。阿里云的 MaxCompute 是一个用于处理大规模数据集的服务平台,它提供了强大的计算能力和丰富的生态系统工具来帮助用户管理和处理数据。本文将详细介绍如何使用 DataWorks 这样的工具将 MaxCompute 整合到整个数据处理流程中,以便更有效地管理数据生命周期。
120 0
|
14天前
|
机器学习/深度学习 搜索推荐 大数据
大数据与教育:学生表现分析的工具
【10月更文挑战第31天】在数字化时代,大数据成为改善教育质量的重要工具。本文探讨了大数据在学生表现分析中的应用,介绍学习管理系统、智能评估系统、情感分析技术和学习路径优化等工具,帮助教育者更好地理解学生需求,制定个性化教学策略,提升教学效果。尽管面临数据隐私等挑战,大数据仍为教育创新带来巨大机遇。
|
1月前
|
存储 分布式计算 大数据
大数据的工具都有哪些?
【10月更文挑战第9天】大数据的工具都有哪些?
54 1
|
2月前
|
存储 分布式计算 Hadoop
大数据分析的工具
大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源:传感器,气候信息,公开的信息,如杂志,报纸,文章。大数据产生的其他例子包括购买交易记录,网络日志,病历,军事监控,视频和图像档案,及大型电子商务。
41 8
|
1月前
|
分布式计算 Hadoop 数据挖掘
6个常用大数据分析工具集锦
6个常用大数据分析工具集锦
50 0
|
2月前
|
分布式计算 Hadoop 大数据
28个大数据的高级工具汇总
文章汇总了28种大数据高级工具,并对Hadoop、Spark、Storm等关键技术进行了详细介绍,同时还提供了获取大数据集的多个资源链接。
70 0