7月31日Spark钉钉群直播【Apache Spark 在存储计算分离趋势下的数据缓存】

简介: 在数据上云的大背景下,存储计算分离逐渐成为了大数据处理的一大趋势,计算引擎需要通过网络读写远端的数据,很多情况下 IO 成为了整个计算任务的瓶颈,因而数据缓存成为此类场景下的一个重要的优化手段。本次分享将介绍 Spark 在数据缓存上的一些做法,并将介绍 EMR 自研的 Jindo 存储系统在数据缓存上的应用。

直播间直达链接:(回看链接)

时间

7月31日19:00

主讲人:

辰山,阿里巴巴计算平台事业部 EMR 高级开发工程师,目前从事大数据存储方面的开发和优化工作

简介:

在数据上云的大背景下,存储计算分离逐渐成为了大数据处理的一大趋势,计算引擎需要通过网络读写远端的数据,很多情况下 IO 成为了整个计算任务的瓶颈,因而数据缓存成为此类场景下的一个重要的优化手段。本次分享将介绍 Spark 在数据缓存上的一些做法,并将介绍 EMR 自研的 Jindo 存储系统在数据缓存上的应用。
_Apache_Spark____spark_

相关文章
|
JavaScript 物联网
使用TDengine国产时序数据库存储能耗数据并通过钉钉机器人接收报警信息
使用TDengine存储能耗数据并接收报警实现目标:1、边缘侧应用采集电表数据2、通过TDengine存储能耗时序数据3、使用钉钉机器人控件发送消息4、实时监测电压波动报警阀值,通过阿里钉钉发送报警消息场景介绍。
10553 2
使用TDengine国产时序数据库存储能耗数据并通过钉钉机器人接收报警信息
|
存储 API
钉钉开放平台的存储类API无法提交文件的问题
存储类API: 调用”提交文件”时返回,会返回code 400, 提示 uploadkey 无效。 code: 400, Specified parameter uploadKey is not valid. request id: 768D2EE8-A32E-7A04-A593-63EB0037E431 uploadkey 确实是使用“获取文件上传信息”正常的获得,并且在调用“提交文件”接口前,使用“添加权限”接口赋予了访问权限。
392 0
|
存储 专有云 对象存储
钉钉专属存储部署流程
七步部署钉钉专属存储
2301 0
钉钉专属存储部署流程
|
存储 负载均衡 专有云
钉钉专属存储的几种部署架构
MiniOSS三种常用的部署架构
3224 0
钉钉专属存储的几种部署架构
|
监控 物联网 机器人
钉钉机器人调用函数计算实现serverless web服务:传统门禁的简单改造,懒惰癌的福音
本文通过钉钉机器人调用函数计算实现的serverless web服务,打通物联网平台,和树莓派实时通讯。实现了将原有传统的磁吸门禁,改造成可以由钉钉来控制开门的简单应用。
3421 0
7月31日Spark钉钉群直播【Apache Spark 在存储计算分离趋势下的数据缓存】
在数据上云的大背景下,存储计算分离逐渐成为了大数据处理的一大趋势,计算引擎需要通过网络读写远端的数据,很多情况下 IO 成为了整个计算任务的瓶颈,因而数据缓存成为此类场景下的一个重要的优化手段。本次分享将介绍 Spark 在数据缓存上的一些做法,并将介绍 EMR 自研的 Jindo 存储系统在数据缓存上的应用。
|
8月前
|
人工智能 分布式计算 大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。
415 0
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
1036 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
11月前
|
存储 分布式计算 Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
563 79
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
300 0