【Spark Summit East 2017】使用Spark RDD构建用户应用

简介: 本讲义出自Tejas Patil在Spark Summit East 2017上的演讲,主要介绍了与SQL类的Hive相比,使用Spark RDD API开发用户应用的几个优点,并介绍了如何进行数据分布,避免数据倾斜,如何优化特定于应用程序的优化以及建立可靠的数据管道,为了说明以上的优点,Tejas Patil在演讲中展示了原本基于Hive的经过重新设计基于Spark的大规模复杂语言训练模型管道。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Tejas Patil在Spark Summit East 2017上的演讲,主要介绍了与SQL类的Hive相比,使用Spark RDD API开发用户应用的几个优点,并介绍了如何进行数据分布,避免数据倾斜,如何优化特定于应用程序的优化以及建立可靠的数据管道,为了说明以上的优点,Tejas Patil在演讲中展示了原本基于Hive的经过重新设计基于Spark的大规模复杂语言训练模型管道。


b6281961f61fe1183050c4d6ced6515e70d02918

a2879b8d9bcd7323707344d158c341a5265bafe4

6f88221ffcc4413f5f8a9620e1d03e40f991d714

73d4402da9e7d387e4157a3ec8d64fd871e1bac8

d5a13d7ab9df68a780e6e192a36f2cb5fda25116

c0dad08fb11a52cecba2bd31a7afac9acd663cfe

cb57dd2750adedd8be426c16e2c557daa25f701d

ce95286501e1c4f3f93e56888bff64506bfcdad8

cdb875bd45532692a28a19f455f5627926f3fdd1

987e8c31af68b742ed57d63f32e0698178359848

202ef64ea364c7fa26d327952afbf0df8a5ecb59

8df0b4dd6491fed828e20123469070daa0f456d3

c95f373fd3c00bad4acdd3d821b0e9bb06607765

56cf0e8bbd87b99d9e02eed43be2f79ac4f00c2a

efabd9608cdf55b44ca692572141c24ffb82a108

22da8bc5d245364a509fa6df46b3b55e03727819

8278701455a82d84664cbdf30825428cb8ea1d27

0756511c734487a5bbdf7d5930de7fa082a1c13f

7c92b889f0ea4a5ed43627d7307f019e6d07a1f0

0fd97d562c1dcc8ff25d52d5398719b0d039d010

56ba8b23445d2e9056e9fd9633a44cfb355d053c

e74540cb3f766eb04ab4a537a40b30f8538e53fb

941f8bdae4ad14e9664418e7e034d3b7812575ab

13679f31627c32f3f1937eb9bf1a785f1ebe79eb

c0ca782906cff16581bd0ae9659556be07584b23

a638aa81763c202323076884223f2833c8e33263

08b208871befc0e70bb1359976d46ea7e8b72f43

f89a430aaed4f1d38feed1fd97549c364e317d14

bd862e5314b8a28cc471117f4ca83e1210224978

1cca1f1fb75a8542e7c3d25005e4a141bf4a9474

62c272aa7712bac01b2d92b5c1ba2ad43d4dfa22

11da3e14dd2d78af4c4bca4e4f53777ac7b3756b

5c5a1c7155eb76be3db6978fba2cb838bf467379

63be60fbd5591ba22cecd4697af06878f9053832

84d616c4f6aec187123d213a5881fb751f7b58d2

96144b4d5f18d4784142c0155c83dd56e8ce4ca2

08b208871befc0e70bb1359976d46ea7e8b72f43

85983924fae9b6ebe8f26fe754c1ef4481d75e59

9d9728c42df4b506ffdc6c19aa4140fb58d98a8d

相关文章
|
分布式计算 数据处理 Apache
Spark和Flink的区别是什么?如何选择?都应用在哪些行业?
【10月更文挑战第10天】Spark和Flink的区别是什么?如何选择?都应用在哪些行业?
1335 1
|
7月前
|
SQL 分布式计算 Serverless
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
鹰角网络为应对游戏业务高频活动带来的数据潮汐、资源弹性及稳定性需求,采用阿里云 EMR Serverless Spark 替代原有架构。迁移后实现研发效率提升,支持业务快速发展、计算效率提升,增强SLA保障,稳定性提升,降低运维成本,并支撑全球化数据架构部署。
656 56
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
|
7月前
|
分布式计算 运维 搜索推荐
立马耀:通过阿里云 Serverless Spark 和 Milvus 构建高效向量检索系统,驱动个性化推荐业务
蝉妈妈旗下蝉选通过迁移到阿里云 Serverless Spark 及 Milvus,解决传统架构性能瓶颈与运维复杂性问题。新方案实现离线任务耗时减少40%、失败率降80%,Milvus 向量检索成本降低75%,支持更大规模数据处理,查询响应提速。
322 57
|
9月前
|
存储 分布式计算 物联网
美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台
美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台,实现了数据与 AI 技术的有效融合,解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台,最终实现不同场景下整体性能提升50%以上,同时综合成本下降30%。
678 58
|
12月前
|
存储 分布式计算 并行计算
【赵渝强老师】Spark中的RDD
RDD(弹性分布式数据集)是Spark的核心数据模型,支持分布式并行计算。RDD由分区组成,每个分区由Spark Worker节点处理,具备自动容错、位置感知调度和缓存机制等特性。通过创建RDD,可以指定分区数量,并实现计算函数、依赖关系、分区器和优先位置列表等功能。视频讲解和示例代码进一步详细介绍了RDD的组成和特性。
206 0
|
9月前
|
机器学习/深度学习 分布式计算 大数据
阿里云 EMR Serverless Spark 在微财机器学习场景下的应用
面对机器学习场景下的训练瓶颈,微财选择基于阿里云 EMR Serverless Spark 建立数据平台。通过 EMR Serverless Spark,微财突破了单机训练使用的数据规模瓶颈,大幅提升了训练效率,解决了存算分离架构下 Shuffle 稳定性和性能困扰,为智能风控等业务提供了强有力的技术支撑。
399 15
|
9月前
|
分布式计算 Spark
【赵渝强老师】Spark RDD的依赖关系和任务阶段
Spark RDD之间的依赖关系分为窄依赖和宽依赖。窄依赖指父RDD的每个分区最多被一个子RDD分区使用,如map、filter操作;宽依赖则指父RDD的每个分区被多个子RDD分区使用,如分组和某些join操作。窄依赖任务可在同一阶段完成,而宽依赖因Shuffle的存在需划分不同阶段执行。借助Spark Web Console可查看任务的DAG图及阶段划分。
352 15
|
9月前
|
存储 缓存 分布式计算
【赵渝强老师】Spark RDD的缓存机制
Spark RDD通过`persist`或`cache`方法可将计算结果缓存,但并非立即生效,而是在触发action时才缓存到内存中供重用。`cache`方法实际调用了`persist(StorageLevel.MEMORY_ONLY)`。RDD缓存可能因内存不足被删除,建议结合检查点机制保证容错。示例中,读取大文件并多次调用`count`,使用缓存后执行效率显著提升,最后一次计算仅耗时98ms。
205 0
【赵渝强老师】Spark RDD的缓存机制
|
9月前
|
SQL 分布式计算 Serverless
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
193 0
|
消息中间件 分布式计算 Kafka
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
147 0