Spark

首页 标签 Spark
# Spark #
关注
9127内容
|
2天前
|
技术深度报道:解析云器Lakehouse如何实现超越Spark 10倍性能提升
云器科技2024年末发布TPC-DS 10TB基准测试报告,Lakehouse引擎性能达Spark的10倍。核心源于四大技术:C++向量化引擎(3×)、Cascades成本优化器(2×)、DAG直连调度(1.3×)与自适应缓存(1.3×),实现全栈协同优化。(239字)
三朵云的大数据江湖:AWS、GCP、Azure 托管服务到底谁更香?
三朵云的大数据江湖:AWS、GCP、Azure 托管服务到底谁更香?
别再把大数据平台当“巨石”了:聊聊云原生时代的大数据平台怎么活得更久
别再把大数据平台当“巨石”了:聊聊云原生时代的大数据平台怎么活得更久
数据湖上跑模型训练?别再“豪横烧钱”了,这样优化性能和成本才靠谱
数据湖上跑模型训练?别再“豪横烧钱”了,这样优化性能和成本才靠谱
|
1月前
|
Spark SQL练习2-电商用户行为分析
“**商城”电商平台需基于用户行为数据开展深度分析:一是计算用户活跃度趋势(含活跃天数、变化率及四类用户分层);二是构建RFM价值分层模型,量化R/F/M得分并划分高价值、潜力等四类用户;三是识别流失风险用户,分析其浏览时长变化与偏好品类。支撑精细化运营与精准营销。
PySpark入门教程(非常详细)从零基础入门到精通
本教程聚焦Spark Core核心原理,基于3.5.8版本,用Python详解RDD五大特性(分区、计算函数、依赖关系、分区器、首选位置)、容错机制、Shuffle、DAG调度及共享变量等,并通过WordCount实战演示。
免费试用