分布式计算

首页 标签 分布式计算
# 分布式计算 #
关注
37447内容
SQL优化器原理 - Join重排
这是MaxCompute有关SQL优化器原理的系列文章之一。我们会陆续推出SQL优化器有关优化规则和框架的其他文章。添加钉钉群“关系代数优化技术”(群号11719083)可以获取最新文章发布动态。 本文的目标是解释Join重排这个特性的基础概念和算法,如果想快速了解并在MaxCompute上使用这个特性,请直接跳到“总结”。
在PyODPS DataFrame自定义函数中使用pandas、scipy和scikit-learn
背景 [PyODPS DataFrame]http://pyodps.readthedocs.io/zh_CN/latest/) 提供了类似 pandas 的接口,来操作 ODPS 数据,同时也支持在本地使用 pandas,和使用数据库来执行。
海量大数据大屏分析展示一步到位:DataWorks数据服务对接DataV最佳实践
数据服务是DataWorks产品家族的一员,提供了快速将数据表生成API的能力,通过可视化的向导,一分钟“零代码”就可以生成API,让API开发从未有过如此便捷!数据服务与DataV深度打通,数据服务生成的API可以直接在DataV中进行可视化展现。本文介绍了数据服务对接DataV的使用方法。
JindoFS概述:云原生的大数据计算存储分离方案
JindoFS 是一套新的云原生的数据湖解决方案。在 JindoFS 之前,云上客户主要使用 HDFS 和 OSS/S3 作为大数据存储。HDFS 是 Hadoop 原生的存储系统,10 年来,HDFS 已经成为大数据生态的存储标准,但是我们也可以看到 HDFS 虽然不断优化,但是 JVM 的瓶颈也始终无法突破。
阿里云MVP田亮:让大数据为业务插上翅膀
从搜狐到阿里,再到微博和二次元社交平台,看一位大数据工作者走过的技术路
玩转阿里云EMR三部曲-中级篇 集成自有服务
利用EMR引导操作可以使用自定义脚本安装任意自有服务和环境,隔离计算和生产资源,并在极致成本控制下最大化并发和可扩展性。完整的自定义设计可以满足任意自有服务构建的集成需要。
| |
来自: 云存储
Hadoop默认支持集成OSS,作为Hadoop兼容的文件系统
Apache Hadoop默认支持阿里云OSS对象存储系统,作为Hadoop兼容的文件系统。OSS是中国云计算厂商第一个也是目前唯一一个被Hadoop官方版本支持的云存储系统。这意味着全球用户Hadoop生态的离线、交互、数据仓库、深度学习等程序,可以在不需要改代码的情况下,自由读写OSS的对象存储。
基于Spark Streaming 进行 MySQL Binlog 日志准实时传输
基本架构 RDS -> SLS -> Spark Streaming -> Spark HDFS 上述链路主要包含3个过程: 如何把 RDS 的 binlog 收集到 SLS。 如何通过 Spark Streaming 将 SLS 中的日志读取出来,进行分析。
免费试用