DataWorks

首页 标签 DataWorks
# DataWorks #
关注
18328内容
独家下载 |《大数据工程师必读手册》揭秘阿里如何玩转大数据
阿里巴巴如何玩转大数据?十位阿里巴巴大数据专家深度分析 ,飞天大数据平台八款产品最新玩法,2019不容错过的大数据手册——《大数据工程师必读手册》现在可以免费下载阅读啦,赶紧先睹为快吧。
| |
来自: 云存储
TableStore+ Elasticsearch:海量图书信息全文检索系统实践
TableStore是阿里云自研专业级分布式NoSQL数据库,Elasticsearch是著名的开源搜索引擎,本篇文章会介绍如何同步TableStore中的数据到Elasticsearch中,以便对部分字段支持搜索功能。
DataWorks中业务日期和定时时间的理解
很多同学不明白,业务日期和定时时间的区别。我们做离线统计,最常见的是今天处理昨天的数据。这里今天就是运行日期(也叫定时时间),昨天就是业务日期。
DataWorks实时同步/实时ETL/批同步ETL灰度邀测中
DataWorks实时同步功能可以支持多种实时数据源(Kafka、MySQL Binlog,Oracle CDC等),可以将实时消息数据经过一些列处理后再写入目的数据源。同时在此前DataWorks数据集成强大EL(Extract-Load)能力基础之上,增加了数据处理能力(Transform),实现了完整了ETL链路。
[MaxCompute MapReduce实践]通过简单瘦身,解决Dataworks 10M文件限制问题
用户在DataWorks上执行MapReduce作业的时候,文件大于10M的JAR和资源文件不能上传到Dataworks,导致无法使用调度去定期执行MapReduce作业。 解决方案: jar -resources test_mr.
大家都是成年人了,表白请直接点!
MaxCompute作为离线大数据的存储引擎,承载了阿里集团海量数据的存储服务。但由于其架构原因,读数据的速度较慢,不满足业务场景的ad-hoc查询。目前常用的加速方案是使用其他数据库来将MaxCompute数据加速查询。
免费试用