MaxCompute问答整理之7月

简介: 本文是基于本人对MaxCompute产品的学习进度,再结合开发者社区里面的一些问题,进而整理成文。希望对大家有所帮助。问题一、DataWorks V2.0简单模式和标准模式的区别? 公司数仓的数据上云后,在使用MaxCompute计算引擎时,需要一个稳定、可靠的调度系统,将自身数据生产任务(代码)按照所需依赖关系、运行时间来调度运行,那么DataWorks就派上了用场。

本文是基于本人对MaxCompute产品的学习进度,再结合开发者社区里面的一些问题,进而整理成文。希望对大家有所帮助。

问题一、DataWorks V2.0简单模式和标准模式的区别?
公司数仓的数据上云后,在使用MaxCompute计算引擎时,需要一个稳定、可靠的调度系统,将自身数据生产任务(代码)按照所需依赖关系、运行时间来调度运行,那么DataWorks就派上了用场。DataWorks提供简单模式和标准模式两种工作空间模式。
简单模式指一个DataWorks工作空间对应一个MaxCompute项目,无法设置开发环境和生产环境,只能进行简单的数据开发。标准模式指一个DataWorks工作空间对应两个MaxCompute项目,可以设置开发和生产环境,提升代码开发规范。两个模式还存在项目、用户和权限的不同。大家可以通过学习官方文档或者是实操来加强认知。
https://help.aliyun.com/document_detail/85772.html

问题二、用数据集成新增数据源时,测试连通性失败,是什么原因?
当需要新增数据源时,首先要确认自己的数据源类型、网络类型、是否支持测试连通性。当新增数据源无法支持测试连通性时,可以尝试用独享资源组来解决数据集成问题。
1564717178335_d910e677_5c59_4474_a00c_56b819927aaa

具体数据源的区别可以参考文档查看:https://help.aliyun.com/knowledge_detail/72964.html
温馨提示:配置数据源时记得检查账号密码。

问题三、数据源配置中数据过滤条件如何填写?
数据过滤是同步数据的删选条件,可以通过SQL语法填写where过滤语句,一般都是通过日期字段来删选数据。DataWorks的参数配置功能可以满足业务场景的需求,目前参数分为系统参数和自定义参数(推荐)两大类。关于数据源和参数配置可以参考以下文档来详细学习:
数据源配置:https://help.aliyun.com/knowledge_list/72788.html
参数配置:https://help.aliyun.com/document_detail/74450.html

问题四、UDF如何加入项目函数列表?
用户可以通过自定义函数来满足不同的计算需求,MaxCompute的UDF支持跨项目分享。UDF的发布可以通过DataWorks界面来完成。可以参考产品文档来操作:https://help.aliyun.com/document_detail/107615.html

问题五、如果我买30个CU时(预付费形式)是不是只能用30个Core来运行任务,当公有云里面资源空闲时,系统会不会像扫描按量付费那样,自动调用30Core以外的空闲资源,来加速我的任务运行?
预付费的资源池是独享的,按购买CU(1CU=1核CPU+4G内存)量固定分配资源,计算任务只能占用独享的资源。但是当在同个区域,已经开通一个预付费规格的情况下,可以通过升级和降配资源方式开通其他规格。如果任务量较大,可以考虑对于消耗资源少的任务采取预付费,资源较大的任务采取按I/O后付费,这样可以保证任务运行时一直有CU资源。

问题六、想写Spark处理MaxCompute上的表数据,但是似乎并不能像写Sql一样在DataWorks上去写Spark程序,应该在哪里写Spark程序,MaxCompute Studio可以吗?
目前MaxCompute Spark支持三种运行方式:Local模式、Cluster模式和DataWorks中执行模式。三种模式需要进行不同的配置,请参考如下文档:
https://help.aliyun.com/document_detail/102430.html

问题七、MaxCompute是否支持MD5函数?
支持,MxCompute可以通过内建函数和UDF来实现业务计算需求,常见的日期函数、数学函数、字符串函数等,MaxCompute都是支持的,可以参考如下文档:
https://help.aliyun.com/document_detail/96342.html

问题八、日志记录的各项信息代表什么如何查看?
我理解日志记录其实就是MaxCompute产品里的Logview,Logview是MaxCompute Job提交后查看和Debug任务的工具。可以通过Logview可以看到一个Job的运行状态、运行结果和具体细节以及每个步骤的进度。
具体功能组件含义请参考如下文档:https://help.aliyun.com/document_detail/27987.html

问题九、MaxCompute 2.0里的数据类型使用需要set设置,是否可以在DataWorks里面运行?
使用数据类型系统时,需要进行设置:set odps.sql.type.system.odps2=true;或setproject odps.sql.type.system.odps2=true; ,语句是可以在DataWorks新建表的DDL模式下执行操作。
温馨提示:记得关注数据类型转换。

问题十、decimal数据类型精度溢出如何解决?问题实例如下图。
1564731886365_d6ebc50f_fe73_4c59_b095_5ac5fe0b9b1d

可以进行set设置:set odps.sql.decimal.odps2=true;

【预告】8月活动预告

2019大数据技术公开课第三季直播8月13日开启,直播主题及观看直播,可加入“MaxCompute开发者社群2群” 了解并观看

点击链接申请加入或扫描二维码
https://h5.dingtalk.com/invite-page/index.html?bizSource=____source____&corpId=dingb682fb31ec15e09f35c2f4657eb6378f&inviterUid=E3F28CD2308408A8&encodeDeptId=0054DC2B53AFE745

67cc36b608a5035daec4f4e0f99833039231bab0

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
目录
相关文章
|
SQL 存储 分布式计算
SaaS模式云数据仓库 MaxCompute 问答整理之2020-07~08月
飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。
2368 0
|
SQL 存储 分布式计算
MaxCompute问答整理之2020-04~05月
飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。
741 0
MaxCompute问答整理之2020-04~05月
|
分布式计算 大数据 数据挖掘
大数据计算服务MaxCompute每日问答汇总(持续更新中)
飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。
大数据计算服务MaxCompute每日问答汇总(持续更新中)
|
分布式计算 MaxCompute
MaxCompute问答整理之9月
本文是基于本人对MaxCompute产品的学习进度,再结合开发者社区里面的一些问题,进而整理成文。希望对大家有所帮助。
9564 0
|
DataWorks 大数据
云上一指禅:大数据产品DataWorks每日问答
每天,阿里巴巴集团数万名数据/算法开发工程师正在使用DataWorks,承载阿里巴巴集团99%数据业务构建。
1466 0
|
存储 分布式计算 监控
大数据基础知识问答----spark篇,大数据生态圈
Spark相关知识点 1.Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。
1629 0
|
大数据 数据挖掘 数据库
大咖直播第三期问答整理:邵汉成讲解驴妈妈基于混合云的OTA行业数据分析、精准运营和大数据用户推荐
3月11日云栖社区在线实时分享顺利结束,本次由驴妈妈技术副总邵汉成讲解驴妈妈基于混合云的OTA行业数据分析、精准运营和大数据用户推荐,本次直播中现场观解众提出了很多技术问题,我们把这些问题和答案整理好分享给大家。
2914 0
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
36 0

相关产品

  • 云原生大数据计算服务 MaxCompute