Spark的搜索结果_第6页-阿里云开发者社区

技术小达人

|

8月前

|

博文

官宣｜Apache Paimon 1.0 发布公告

# SQL # 分布式计算 # 流计算 # Spark # 索引

技术小达人

|

9月前

|

博文

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

# 函数计算 # 对象存储 # 日志服务 # SQL # 分布式计算 # Serverless # 调度 # Spark

Echo_Wish

|

9月前

|

博文

|

来自：大数据与机器学习

从Excel到Hadoop：数据规模的进化之路

# 分布式计算 # Hadoop # 大数据 # 数据库 # Spark

赵渝强老师

|

9月前

|

博文

|

来自：大数据与机器学习

【赵渝强老师】Spark RDD的缓存机制

Spark RDD通过`persist`或`cache`方法可将计算结果缓存，但并非立即生效，而是在触发action时才缓存到内存中供重用。`cache`方法实际调用了`persist(StorageLevel.MEMORY_ONLY)`。RDD缓存可能因内存不足被删除，建议结合检查点机制保证容错。示例中，读取大文件并多次调用`count`，使用缓存后执行效率显著提升，最后一次计算仅耗时98ms。

# 存储 # 缓存 # 分布式计算 # Spark

阿里云大数据

|

9月前

|

博文

|

来自：大数据与机器学习

美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台

美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台，实现了数据与 AI 技术的有效融合，解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台，最终实现不同场景下整体性能提升50%以上，同时综合成本下降30%。

# 云原生数据仓库AnalyticDB MySQL版 # 云消息队列 Kafka 版 # 开源大数据平台 E-MapReduce # 函数计算 # 云原生大数据计算服务 MaxCompute # 存储 # 分布式计算 # 物联网 # Serverless # Spark

Echo_Wish

|

9月前

|

博文

|

来自：大数据与机器学习

大数据与云计算：无缝结合，开启数据新纪元

# 云原生大数据计算服务 MaxCompute # 日志服务 # 存储 # 分布式计算 # 大数据 # 云计算 # Spark

Echo_Wish

|

9月前

|

博文

|

来自：大数据与机器学习

从Excel到大数据：别让工具限制你的思维！

# 云原生大数据计算服务 MaxCompute # 分布式计算 # 大数据 # 数据处理 # Spark # Python

赵渝强老师

|

9月前

|

博文

|

来自：大数据与机器学习

【赵渝强老师】Spark的容错机制：检查点

Spark通过Checkpoint机制将RDD状态持久化到磁盘，以支持容错。当任务执行出错时，可以从检查点位置重新计算，减少开销。Checkpoint目录可设置为本地文件夹或HDFS。建议生产系统使用高可靠的文件系统保存检查点。文中详细介绍了在本地和HDFS上设置检查点目录的步骤，并附有代码示例和视频讲解。

# 云原生大数据计算服务 MaxCompute # 分布式计算 # Spark

阿里云大数据

|

9月前

|

博文

|

来自：大数据与机器学习

阿里云 EMR Serverless Spark 在微财机器学习场景下的应用

面对机器学习场景下的训练瓶颈，微财选择基于阿里云 EMR Serverless Spark 建立数据平台。通过 EMR Serverless Spark，微财突破了单机训练使用的数据规模瓶颈，大幅提升了训练效率，解决了存算分离架构下 Shuffle 稳定性和性能困扰，为智能风控等业务提供了强有力的技术支撑。

# 函数计算 # 云原生大数据计算服务 MaxCompute # 开源大数据平台 E-MapReduce # 机器学习/深度学习 # 分布式计算 # 大数据 # Serverless # Spark

赵渝强老师

|

9月前

|

博文

|

来自：大数据与机器学习

【赵渝强老师】Spark RDD的依赖关系和任务阶段

Spark RDD之间的依赖关系分为窄依赖和宽依赖。窄依赖指父RDD的每个分区最多被一个子RDD分区使用，如map、filter操作；宽依赖则指父RDD的每个分区被多个子RDD分区使用，如分组和某些join操作。窄依赖任务可在同一阶段完成，而宽依赖因Shuffle的存在需划分不同阶段执行。借助Spark Web Console可查看任务的DAG图及阶段划分。

# 云原生大数据计算服务 MaxCompute # 分布式计算 # Spark

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Spark