分布式计算

首页 标签 分布式计算
# 分布式计算 #
关注
37779内容
DataX使用指南——ODPS to ODPS
1. DataX是什么 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。
| |
来自: 云存储
《Kafka Stream》调研:一种轻量级流计算模式
流计算,已经有Storm、Spark,Samza,包括最近新起的Flink,Kafka为什么再自己做一套流计算呢?Kafka Stream 与这些框架比有什么优势?Samza、Consumer Group已经包装了Kafka轻量级的消费功能,难道不够吗? 花了一些时间阅读[docs](http
用Spark分析Amazon的8000万商品评价(内含数据集、代码、论文)
尽管数据科学家经常通过分布式云计算来处理数据,但是即使在一般的笔记本电脑上,只要给出足够的内存,Spark也可以工作正常(在这篇文章中,我使用2016年MacBook Pro / 16GB内存,分配给Spark 8GB内存)。
阿里云 MaxCompute 2020-8 月刊
MaxCompute商业化发布数据备份恢复和数据科学Mars两项重要功能,同时公测发布MaxCompute查询加速。秒级恢复误删除数据,分布式加速 Python 数据科学栈,自动识别短查询作业并加速处理,满足报表分析、即席查询场景的使用要求尽在8月刊。
MaxCompute的任务状态和多任务执行
我们在使用MaxCompute的时候,我们其实非常期望知道当前有多少任务在跑,哪些任务耗时长,哪些任务已经完成,并且能通过任务的logview来分析任务耗时长的原因。
免费试用