开发者社区大数据文章正文

【Spark Summit East 2017】Stitch Fix从Redshift迁移到Spark的实践

2017-02-18 2249

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Sky Yin在Spark Summit East 2017上的演讲，数据科学家每天都会编写SQL查询语句，通常情况下，他们知道如何编写正确的查询语句，但不知道为什么他们的查询执行却是缓慢的，所以需要对于SQL查询进行优化，本讲义将介绍如何将一个大表从Redshift迁移到Spark上。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Sky Yin在Spark Summit East 2017上的演讲，数据科学家每天都会编写SQL查询语句，通常情况下，他们知道如何编写正确的查询语句，但不知道为什么他们的查询执行却是缓慢的，所以需要对于SQL查询进行优化，本讲义将介绍如何将一个大表从Redshift迁移到Spark上。

337d1457604978591302a72e4a5176e191b9fdb6

8e629021cfb20e8cd603bc2a841ed4531a72f2eb

8aa73a4cbd8f55eb7a2c10739c730720aefaae63

628a325719bf2055a32d3c811ff326a13ea568c1

7af6289e16811011a86a3472156a7267a892efef

b65387d238455d6640ba7cb54a0cfe3dbb89f378

b7d72475727d04a45fa89a5f9dbdc213bb3b510c

7936d02ced98813fb879c8e250b353d09a32b2a6

c79a076b8767102a4e5f09df4d16f3c20e4cb092

5cb96ef32315aca66fa48d54a08b5932fd2a1903

c10459e3622851633403da751fb8f38f89eb1801

07dbd6e54fa8ccda61ceb6e7f6ea010a992daf6c

287899c62c137d98e26771315701e8ff74096b59

d39ff8e7daba86075bc86bafcd55e486a510e4d6

fc12b9369a0c84edc83b6c6f726333d396e60572

745d93375f30e9d8f2c8c947fcb4475daa6c1be7

042cf8f97f6a4beae59159f0a41d8a60d2b09d77

6f5dd16c82cc6571d41fa67ea460eafed94159fa

25bcad27236cdcb1adfbd359998e89d5ed743bdd

f714bb3042f810c0d56acb8ce1c92439a3a4da1c

b1bfdd27327b2a718d03c249a31747b5a1a1b39b

4272c3c93fb7022dae9b58e85ce40db19697e3f9

62a36293b21de20110d2bae5074671231a64a3b9

a1f4fc50c54b862a5a17d897430ca7c1209c9233

208033fb8c84ae00c2d1ba82e276ccb392da7c7f

5b421aae04ebe5e17ae044f7f1b30df8f52f25bb

b03250d3f9091e4263881fa52f0aad90affc36f0

e29fa1e3a31809ab071737a1ac9d2b3206eaf982

6d52868e5da65c68d448bd0c2c4b7deb88717b1a

600c6d19bda39a919ec696bef765a777a79ce228

be37167ecbaee0e76d0e48e032c4b61c083a8579

9198baa932bfc62f22eccda11ae053a4d2801bb8

8539e35040438aa618b0982fbc928803bfb54f45

82897dc0f90d53be7ca8fbb40c3d70557283ccb5

cc28810c6ee861e9e4330e998acada3200edc987

文章标签：

SQL

大数据

分布式计算

Spark

关键词：

apache spark实践

apache spark summit

apache spark east

apache spark summit实践

apache spark summit east

小猫吃鱼569

BookSea

SQL 分布式计算 Java

Spark入门指南：从基础概念到实践应用全解析

在这个数据驱动的时代，信息的处理和分析变得越来越重要。而在众多的大数据处理框架中， Apache Spark 以其独特的优势脱颖而出。

BookSea

807 0 0

扬流

分布式计算 Java Serverless

EMR Serverless Spark 实践教程 | 通过 spark-submit 命令行工具提交 Spark 任务

本文以 ECS 连接 EMR Serverless Spark 为例，介绍如何通过 EMR Serverless spark-submit 命令行工具进行 Spark 任务开发。

扬流

1178 7 7

EMR Serverless Spark 实践教程 | 通过 spark-submit 命令行工具提交 Spark 任务

周周的奇妙编程

分布式计算 Hadoop Serverless

数据处理的艺术：EMR Serverless Spark实践及应用体验

阿里云EMR Serverless Spark是基于Spark的全托管大数据处理平台，融合云原生弹性与自动化，提供任务全生命周期管理，让数据工程师专注数据分析。它内置高性能Fusion Engine，性能比开源Spark提升200%，并有成本优化的Celeborn服务。支持计算存储分离、OSS-HDFS兼容、DLF元数据管理，实现一站式的开发体验和Serverless资源管理。适用于数据报表、科学项目等场景，简化开发与运维流程。用户可通过阿里云控制台快速配置和体验EMR Serverless Spark服务。

周周的奇妙编程

15466 2 3

郑小健

分布式计算运维 Serverless

通过Serverless Spark提交PySpark流任务的实践体验

EMR Serverless Spark服务是阿里云推出的一种全托管、一站式的数据计算平台，旨在简化大数据计算的工作流程，让用户更加专注于数据分析和价值提炼，而非基础设施的管理和运维。下面就跟我一起通过Serverless Spark提交PySpark流任务吧。

郑小健

662 1 1

1941623231718325

分布式计算 Spark 大数据

深入探究Apache Spark在大数据处理中的实践应用

【6月更文挑战第2天】Apache Spark是流行的开源大数据处理框架，以其内存计算速度和低延迟脱颖而出。本文涵盖Spark概述、核心组件（包括Spark Core、SQL、Streaming和MLlib）及其在数据预处理、批处理分析、交互式查询、实时处理和机器学习中的应用。通过理解Spark内部机制和实践应用，可提升大数据处理效率，发挥其在各行业的潜力。

1941623231718325

868 3 3

扬流

分布式计算 Serverless 数据处理

EMR Serverless Spark 实践教程 | 通过 Apache Airflow 使用 Livy Operator 提交任务

Apache Airflow 是一个强大的工作流程自动化和调度工具，它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark 为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过 Apache Airflow 的 Livy Operator 实现自动化地向 EMR Serverless Spark 提交任务，以实现任务调度和执行的自动化，帮助您更有效地管理数据处理任务。

扬流

830 0 0

aliyun9098636493-44413

分布式计算 Shell 开发工具

Spark编程实验二：RDD编程初级实践

aliyun9098636493-44413

810 1 1

阿里云云原生

分布式计算 Kubernetes Serverless

Hago 的 Spark on ACK 实践

阿里云云原生

806 0 0

杨越意

弹性计算分布式计算资源调度

模拟IDC spark读写MaxCompute实践

现有湖仓一体架构是以 MaxCompute 为中心读写 Hadoop 集群数据，有些线下 IDC 场景，客户不愿意对公网暴露集群内部信息，需要从 Hadoop 集群发起访问云上的数据。本文以 EMR （云上 Hadoop）方式模拟本地 Hadoop 集群访问 MaxCompute数据。

杨越意

865 0 2

梦想new的出来

SQL 分布式计算 Java

五、【计算】Spark原理与实践（下） | 青训营笔记

梦想new的出来

436 0 0

【Spark Summit East 2017】Stitch Fix从Redshift迁移到Spark的实践

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【Spark Summit East 2017】Stitch Fix从Redshift迁移到Spark的实践

热门文章

最新文章

相关课程

相关电子书