Spark SQL练习2-电商用户行为分析
“**商城”电商平台需基于用户行为数据开展深度分析:一是计算用户活跃度趋势(含活跃天数、变化率及四类用户分层);二是构建RFM价值分层模型,量化R/F/M得分并划分高价值、潜力等四类用户;三是识别流失风险用户,分析其浏览时长变化与偏好品类。支撑精细化运营与精准营销。
PySpark入门教程(非常详细)从零基础入门到精通
本教程聚焦Spark Core核心原理,基于3.5.8版本,用Python详解RDD五大特性(分区、计算函数、依赖关系、分区器、首选位置)、容错机制、Shuffle、DAG调度及共享变量等,并通过WordCount实战演示。
什么是批处理?批处理系统是怎么运转的?
本文深入浅出地解析批处理:它并非“老古董”,而是支撑报表生成、推荐系统、银行结算等关键业务的底层引擎。文章厘清其“积攒+批量执行”的本质,详解调度、计算、存储、容错四大核心组件,并以FineDataLink为例,展示如何通过可视化编排、内嵌Spark、多源接入与API发布,让批处理更高效、易用。