暂无个人介绍
在MaxCompute开发过程中,开发同学遇到的的一些复杂逻辑该如何处理,如何在MaxCompute开发不同场景下的UDF函数?带着这个问题,本文针对UDF的各方面内容做出介绍,其中涉及UDF对应不同语言的类型映射关系、以及对应UDF在重载、访问网络、引用表与资源、以及第三方包的使用为大家做出展示。
用户在迁移上云的时候,需要将云下的的Azkaban任务迁移上云,之前通过用户在DataWroks一步步创建对应的业务流程,其转化难度和转化时间都是一定的成本和时间,但如何能做到省时省力的方式迁移,为此本文提供了使用迁移助手解决业务流程上云迁移的的问题,本文模拟Azkaban业务流程到入到DataWorks的操作过程,方便大家参阅。
本文针对一个公司有多个部门,一个部门又含有多条业务,另外业务流程中可能包含MapReduce、Spark、SQL,但是如何统计其中一条的业务流程的计费信息。针对这一需求,本文采用的方案是:通过计量计费中获取当前所有project的在某一天的计费信息->采用DataWorks的API获取该project的业务流程下的所有nodeID->通过MaxCompute的SDK将数据写入到MaxCompute表中->最后使用SQL统计出一条业务流程的总的计费统计情况。
如何使用Spark On MaxCompute连接Phonix,将Hbase的数据写入到MaxCompute的对应表中,目前没有对应的案例,为了满足用户的需求。本文主要讲解使用Spark连接Phonix访问Hbase的数据再写入到MaxCompute方案实践。该方案的验证是使用hbase1.1对应Phonix为4.12.0。本文从阿里云Hbase版本的选择、确认VPC、vswitchID、设置白名单和访问方式,Phonix4.12.0的客户端安装,在客户端实现Phonix表的创建和写入,Spark代码在本地IDEA的编写以及pom文件以及vpcList的配置,打包上传jar包并进行冒烟测试。
本文主要介绍DataWorks使用Shell节点调度自定义资源组执行Shell脚本,且使用该功能需要用户的DataWorks版本为企业版。文中主要内容包括配置自定义资源组,以及设置ECS的amdin用户权限,脚本模式使用MaxCompute客户端,并配置手动业务流程执行对应的Shell脚本在开发环境运行,检测其脚本执行的命令是否正确。该功能对于用户调度用户ECS上的的程序提供了便利,使其他的任务能和DataWorks的调度结合起来。
本文介绍了使用适应增量同步Mysql5.7数据同步到MaxCompute同步方式,主要过程为设置mysql5.7的binlog,以及使用DTS同步Mysql同步所有数据之前的全量数据操作,以及增量数据同步的配置,以及最后整合最后数据之前的全部数据。
该文章主要针对于用户同region不同账户之间的MaxCompute数据迁移方式,属于迁移的方式可以有三种方式,一、添加MaxCompute数据源的方式进行数据迁移(该方式针对多个表配置同步节点较为繁琐);二、使用tunnel方式结合代码进行数据的迁移;三、使用clone table进行MaxCompute数据到另一MaxCompute之间的数据迁移。
文章首先介绍了Presto以及它的应用场景、特点、架构和原理、数据模型、数据类型,并且以Presto数据查询作为实例。然后介绍了阿里云交互式分析,同时列举了它的优势和典型应用场景,对权限、数据类型、实例对象层级进行讲解,并且对交互式分析的两大场景进行实践分析,列举了几种表的特征设置,以阿里云交互式分析开发作为示例展示其过程。
该篇文章的主要内容是MaxCompute与DataWork权限的经典知识点汇总,MaxCompute常使用的权限分类以及经典使用语句,以及MaxCompute基于policy策略的生产环境和开发环境为用户做权限管理的示例。
该篇文章的主要内容是MaxCompute与DataWork权限的经典知识点汇总,MaxCompute常使用的权限分类以及经典使用语句,以及MaxCompute基于policy策略的生产环境和开发环境为用户做权限管理的示例。
本文介绍了MaxCompute中使用OSS外部表读取JSON文件的数据,以及需要设立的flag。
本文介绍了实时计算的购买和部署,以及子账户的操作该产品的权限授予操作。
Spark on MaxCompute的客户端配置以及idea开发环境的配置
本次分享主要介绍Kafka产品的原理和使用方式,以及同步数据到MaxCompute的参数介绍、独享集成资源组与自定义资源组的使用背景和配置方式、Kafka同步数据到MaxCompute的开发到生产的整体部署操作等内容。