MaxComputeSql性能调优
转载自xiaorui 部分用户(尤其对外输出)使用MaxCompute(原Odps)时,由于对产品的使用层面和执行层面了解程度不同,导致提交的任务执行时间过长、占用了较多集群资源;严重的会导致失败、不仅需要投入支持同学精力协助解决、也影响了用户正常业务。 合并整理部分性能提升方法方
GeoMesa时空基础及应用场景
内容概要:GeoMesa是一款开源的基于分布式计算系统的面向海量时空数据查询与分析的工具包。本报告首先介绍了GeoMesa基于HBase系统的整体架构与部署架构,其次,分析了其时空索引原理与算法实现,最后简要介绍了GeoMesa与Spark、Kafka、Lambda等开源系统或架构的整合方式。
SparkSQL自适应执行
阿里云EMR-3.13.0版本的SparkSQL支持自适应执行功能,用来解决Reduce个数的动态调整/数据倾斜/执行计划的动态优化问题。
DataWorks支持PyODPS类型任务
昨天,DataWorks推出了PYODPS任务类型,集成了Maxcompute的Python SDK,可在DataWorks的PYODPS节点上直接编辑Python代码操作Maxcompute,也可以设置调度任务来处理数据,提高数据开发效率。
ofo在MaxCompute的大数据开发之路
摘要:2017年,ofo向市场投入了一千多万辆单车,这些单车的投放、运营和调度需要大量数据的支持。本文将从ofo选择MaxCompute的理由以及数据完整性、任务调度、Proxy服务三个方面的实战应用,分享ofo 在MaxCompute的大数据开发之路。
走近伏羲,谈5000节点集群调度与性能优化
阿里巴巴分布式调度系统被命名为“伏羲”,主要负责管理集群的机器资源和调度并发的计算任务,为上层分布式应用提供稳定、高效、安全的资源管理和任务调度服务。本文将向读者展示阿里是如何使用伏羲来对5000节点集群进行调度与性能优化的。