【Spark Summit East 2017】Stitch Fix从Redshift迁移到Spark的实践

简介: 本讲义出自Sky Yin在Spark Summit East 2017上的演讲,数据科学家每天都会编写SQL查询语句,通常情况下,他们知道如何编写正确的查询语句,但不知道为什么他们的查询执行却是缓慢的,所以需要对于SQL查询进行优化,本讲义将介绍如何将一个大表从Redshift迁移到Spark上。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Sky Yin在Spark Summit East 2017上的演讲,数据科学家每天都会编写SQL查询语句,通常情况下,他们知道如何编写正确的查询语句,但不知道为什么他们的查询执行却是缓慢的,所以需要对于SQL查询进行优化,本讲义将介绍如何将一个大表从Redshift迁移到Spark上。


337d1457604978591302a72e4a5176e191b9fdb6

8e629021cfb20e8cd603bc2a841ed4531a72f2eb

8aa73a4cbd8f55eb7a2c10739c730720aefaae63

628a325719bf2055a32d3c811ff326a13ea568c1

7af6289e16811011a86a3472156a7267a892efef

b65387d238455d6640ba7cb54a0cfe3dbb89f378

b7d72475727d04a45fa89a5f9dbdc213bb3b510c

7936d02ced98813fb879c8e250b353d09a32b2a6

c79a076b8767102a4e5f09df4d16f3c20e4cb092

5cb96ef32315aca66fa48d54a08b5932fd2a1903

c10459e3622851633403da751fb8f38f89eb1801

07dbd6e54fa8ccda61ceb6e7f6ea010a992daf6c

287899c62c137d98e26771315701e8ff74096b59

d39ff8e7daba86075bc86bafcd55e486a510e4d6

fc12b9369a0c84edc83b6c6f726333d396e60572

745d93375f30e9d8f2c8c947fcb4475daa6c1be7

042cf8f97f6a4beae59159f0a41d8a60d2b09d77

6f5dd16c82cc6571d41fa67ea460eafed94159fa

25bcad27236cdcb1adfbd359998e89d5ed743bdd

f714bb3042f810c0d56acb8ce1c92439a3a4da1c

b1bfdd27327b2a718d03c249a31747b5a1a1b39b

4272c3c93fb7022dae9b58e85ce40db19697e3f9

62a36293b21de20110d2bae5074671231a64a3b9

a1f4fc50c54b862a5a17d897430ca7c1209c9233

208033fb8c84ae00c2d1ba82e276ccb392da7c7f

5b421aae04ebe5e17ae044f7f1b30df8f52f25bb

b03250d3f9091e4263881fa52f0aad90affc36f0

e29fa1e3a31809ab071737a1ac9d2b3206eaf982

6d52868e5da65c68d448bd0c2c4b7deb88717b1a

600c6d19bda39a919ec696bef765a777a79ce228

be37167ecbaee0e76d0e48e032c4b61c083a8579

9198baa932bfc62f22eccda11ae053a4d2801bb8

8539e35040438aa618b0982fbc928803bfb54f45

82897dc0f90d53be7ca8fbb40c3d70557283ccb5

cc28810c6ee861e9e4330e998acada3200edc987

相关文章
|
SQL 分布式计算 Java
Spark入门指南:从基础概念到实践应用全解析
在这个数据驱动的时代,信息的处理和分析变得越来越重要。而在众多的大数据处理框架中, Apache Spark 以其独特的优势脱颖而出。
132 0
|
4月前
|
分布式计算 Java Serverless
EMR Serverless Spark 实践教程 | 通过 spark-submit 命令行工具提交 Spark 任务
本文以 ECS 连接 EMR Serverless Spark 为例,介绍如何通过 EMR Serverless spark-submit 命令行工具进行 Spark 任务开发。
386 7
EMR Serverless Spark 实践教程 | 通过 spark-submit 命令行工具提交 Spark 任务
|
3月前
|
分布式计算 Serverless 数据处理
EMR Serverless Spark 实践教程 | 通过 Apache Airflow 使用 Livy Operator 提交任务
Apache Airflow 是一个强大的工作流程自动化和调度工具,它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark 为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过 Apache Airflow 的 Livy Operator 实现自动化地向 EMR Serverless Spark 提交任务,以实现任务调度和执行的自动化,帮助您更有效地管理数据处理任务。
186 0
|
4月前
|
分布式计算 Hadoop Serverless
数据处理的艺术:EMR Serverless Spark实践及应用体验
阿里云EMR Serverless Spark是基于Spark的全托管大数据处理平台,融合云原生弹性与自动化,提供任务全生命周期管理,让数据工程师专注数据分析。它内置高性能Fusion Engine,性能比开源Spark提升200%,并有成本优化的Celeborn服务。支持计算存储分离、OSS-HDFS兼容、DLF元数据管理,实现一站式的开发体验和Serverless资源管理。适用于数据报表、科学项目等场景,简化开发与运维流程。用户可通过阿里云控制台快速配置和体验EMR Serverless Spark服务。
|
5月前
|
分布式计算 运维 Serverless
通过Serverless Spark提交PySpark流任务的实践体验
EMR Serverless Spark服务是阿里云推出的一种全托管、一站式的数据计算平台,旨在简化大数据计算的工作流程,让用户更加专注于数据分析和价值提炼,而非基础设施的管理和运维。下面就跟我一起通过Serverless Spark提交PySpark流任务吧。
199 1
|
5月前
|
分布式计算 Spark 大数据
深入探究Apache Spark在大数据处理中的实践应用
【6月更文挑战第2天】Apache Spark是流行的开源大数据处理框架,以其内存计算速度和低延迟脱颖而出。本文涵盖Spark概述、核心组件(包括Spark Core、SQL、Streaming和MLlib)及其在数据预处理、批处理分析、交互式查询、实时处理和机器学习中的应用。通过理解Spark内部机制和实践应用,可提升大数据处理效率,发挥其在各行业的潜力。
|
6月前
|
分布式计算 Shell 开发工具
Spark编程实验二:RDD编程初级实践
Spark编程实验二:RDD编程初级实践
150 1
|
12月前
|
分布式计算 Kubernetes Serverless
Hago 的 Spark on ACK 实践
Hago 的 Spark on ACK 实践
|
SQL JSON 分布式计算
提高数据的安全性和可控性,数栈基于 Ranger 实现的 Spark SQL 权限控制实践之路
在企业级应用中,数据的安全性和隐私保护是极其重要的,为了实现Spark SQL 对数据的精细化管理及提高数据的安全性和可控性,数栈基于 Apache Ranger 实现了 Spark SQL 对数据处理的权限控制,本文将重点描述数栈如何基于 Ranger 赋予了 Spark SQL 在权限管控方面,更强的管控力度、更丰富的能力。
242 0
|
SQL 分布式计算 Java
五、【计算】Spark原理与实践(下) | 青训营笔记
五、【计算】Spark原理与实践(下) | 青训营笔记
五、【计算】Spark原理与实践(下) | 青训营笔记