我来自阿里云的 DataLakeAnalytics 团队,欢迎使用我们的产品,也欢迎加入我们一起做大做强 DataLakeAnalytics, 我们这边产品有前景,技术有深度,是你的不二选择。
暂时未有相关通用技术能力~
阿里云技能认证
详细说明蛮多客户提过需求:要给一个表添加列,之前推荐的做法是让客户把表删掉重建,因为DLA是计算存储分离的,删掉的其实只是计算层的元数据,存储层的数据不会动,还是比较轻量级的一个操作。不过这种做法对于一些有特别多分区的表来说代价还是还是挺大的,要删掉所有的分区,而且可能会影响其它正在使用这个表的任务,为了解决用户的这个痛点,我们现在对部分数据源(Parquet/Orc)进行了的Alter Table Add Column的支持。
DLA很早之前就支持了对关系型数据库的查询,但是一直以来用户会有一个担心: 直接分析RDS里面的数据会不会影响线上业务。 这个担心很合理,除非你要查询的RDS是专门用来做后台数据分析使用的,否则直接大规模分析确实可能会造成数据库性能下降,影响前台业务。
![slice.jpg](https://ata2-img.cn-hangzhou.oss-pub.aliyun-inc.com/8efe25242cf8a9e6c0067e1c71cbb7d3.jpg) ## Overview In Presto there are some very essential data structure we need to understand, S
![create-table-like-mapping.png](https://ata2-img.cn-hangzhou.oss-pub.aliyun-inc.com/1e60369b1873a7a1c3b358a3194cd3db.png) [Data Lake Analytics](https://www.aliyun.com/product/datalakeanalytics) 作为云上
![insert-vs-overwrite.jpg](https://ata2-img.cn-hangzhou.oss-pub.aliyun-inc.com/2cb3c0a8d7d3ea7a2468dfc154b93573.jpg) [DLA](https://www.aliyun.com/product/datalakeanalytics) 最近加入了对分区表insert overwrit
![Data Insertion Journey](http://ata2-img.cn-hangzhou.img-pub.aliyun-inc.com/c83161a4683d9bb134ea2b60c0ddd811.png) ## Overview We know that there is an interesting question interviewer likes to
![procedure.jpg](http://ata2-img.cn-hangzhou.img-pub.aliyun-inc.com/f3c2b2a1780cd9a2f46453a0de82c04d.jpg) ## 概述 Presto里面有个类似普通数据库存储过程的东西叫做 `Procedure`(https://prestosql.io/docs/current/sql/call.ht
DataWorks作为阿里云上广受欢迎的大数据开发调度服务,最近加入了对于Data Lake Analytics的支持,意味着所有Data Lake Analytics的客户可以获得任务开发、任务依赖关系管理、任务调度、任务运维等等全方位强大的能力,今天就给大家介绍一下如何使用DataWorks来调度DLA的脚本任务。
Data Lake Analytics 作为云上数据处理的枢纽,最近加入了对于PolarDB的支持, PolarDB 是阿里云自研的下一代关系型分布式云原生数据库,100%兼容MySQL,存储容量最高可达 100T,性能最高提升至 MySQL 的 6 倍。
Data Lake Analytics 作为云上数据处理的枢纽,最近加入了对于Redis 的支持, 这篇教程带你玩转 DLA 的 Redis 支持。 创建数据库 在 DLA 里面创建一个底层映射到 Redis 的数据库的语法如下: CREATE DATABASE `redis_test` WIT...
Data Lake Analytics 作为云上数据处理的枢纽,最近加入了对于MongoDB 的支持, 这篇教程带你玩转 DLA 的 MongoDB 支持。 创建数据库 在 DLA 里面创建一个底层映射到 MongoDB 的外表的语法如下: CREATE DATABASE `mongo_test`.
大家都知道PreparedStatement相比手动拼写SQL有很多好处,比如: 它会自动做敏感字符的转义,防止SQL Injection攻击。 它可以帮助我们动态执行SQL,Prepare一次之后,后续执行只需要替换参数就可以了。
今天我们来介绍一下使用Airflow来调度 DataLakeAnalytics(后面简称DLA)的任务执行。DLA作为一个数据湖的解决方案,客户有每天周期性的调度一些任务从DLA查询数据回流到业务系统的需求。
随着软硬件各方面条件的成熟,数据湖(Data Lake)已经越来越受到各大企业的企业的青睐, 与传统的数仓实践不一样的是,数据湖不需要专门的“入仓”的过程,数据在哪里,我们就从哪里读取数据进行分析。这样的好处在于:一来数据可以保存在很便宜的存储上面(比如阿里云的OSS 上面), 给企业节省预算,而需要分析的时候又可以分析;另一方面,因为省去了入仓的流程,对于中小型企业来说人员投入更少,更容易上手。
在学习、开发Apache Beam源码过程中,除了它精妙的设计(通过几个简单的概念抽象把实时和离线的计算逻辑模型统一了起来),庞大的代码量(Java 33万行, Python9万行),还有一个比较大的感受是它的质量控制做得特别好,比之前参与过的其它一些开源项目都要好,这可能跟Google的工程质量高于业界有关。但是这里面也没什么什么奇技淫巧,只是善用了一些插件而已,我在这里想把我在Apache B
## 概述 本文不是一篇Beam的入门文档,不会介绍Beam的基本概念;而会主要探讨Beam的表达力,Beam的性能,以及Beam目前在业内的使用情况。面向的读者是那些想使用Beam作为自己公司操作大数据的统一API,但是还有所顾虑的人们。 ## 表达力 ### 离线 Beam里面有两个核心原语: * ParDo: 来处理通用的基于单条数据的计算: 每条需要处理的数据
> 本文是`http://sivalabs.in/2016/03/how-springboot-autoconfiguration-magic/`的翻译。 我们知道SpringBoot的应用可以以非常简洁的代码去做很多的事情, 可以自动帮你注入数据库的Bean,消息队列的Bean等等等等,那么SpringBoot是怎么做到的呢? 但是在探索SpringBoot的神秘之前,我们先了解一下